谷歌联合英伟达发布开源模型DiffusionGemma:引入扩散机制，单卡推理提速4倍

谷歌于2026年6月发布开源语言模型DiffusionGemma，首次将图像AI扩散机制引入文本生成，打破传统逐字自回归范式。该模型从随机噪声迭代优化，并行输出256个词块。经英伟达优化，在单GPU单用户模式下，运行速度比同类传统模型快近四倍，如H100显卡处理单请求时表现显著提升。

核心要点

1.谷歌发布DiffusionGemma开源语言模型，引入图像AI扩散机制
2.打破传统自回归范式，从随机噪声迭代优化并行生成文本
3.模型可并行输出256个词块，显著提升生成效率
4.经英伟达优化，单GPU单用户速度比同类模型快近四倍
5.在H100显卡上处理单请求时表现显著提升

关键数据

并行输出词块数: 256(模型每次迭代可并行生成256个词块)速度提升倍数: 近四倍(单GPU单用户模式下，比同类传统模型运行速度快近四倍)加速硬件: H100显卡(H100显卡处理单请求时表现显著提升)

影响评估

正面

创新文本生成范式并开源，有望推动AI推理速度和效率的提升

DiffusionGemma将图像领域的扩散机制引入文本生成，打破了自回归的瓶颈，且经过英伟达优化后速度优势明显，对行业具有积极示范效应

相关工具

DiffusionGemma— 谷歌发布的开源语言模型，引入扩散机制英伟达— 对模型进行优化，提升运行速度H100— 英伟达显卡，处理单请求时表现显著提升

谷歌于2026年6月10日正式发布了实验性开源语言模型DiffusionGemma，打破了传统大模型逐字生成的自回归范式，首次将图像AI中的扩散机制引入文本生成领域。该模型通过从随机噪声中进行多次迭代优化，可实现一次性并行输出256个标记的词块。

在硬件效能上，通过英伟达的深度优化，模型在单GPU单用户模式下的运行速度比同类传统模型提升了近四倍。在H100显卡上处理单条请求时，其输出速度可达每秒1000个标记，即使在RTX5090等高端消费级显卡上也能突破每秒700个标记。

DiffusionGemma拥有260亿参数，依托混合专家（MoE）架构，单步激活参数仅为38亿。尽管在标准基准测试中，其文本生成质量与准确率略逊于传统的Gemma4系列模型，但其独特的“全块感知”能力打破了自回归模型只能向后推演的局限。由于所有标记在生成过程中可以相互引用，该模型在文本后补、代码填空、数独求解以及氨基酸序列等非线性、结构化数据处理任务中展现出显著优势。

目前，该模型权重已基于Apache2.0协议在Hugging Face开源，并全面兼容vLLM、MLX等主流推理框架。这一探索不仅打破了内存带宽对GPU算力的制约，也为未来AI在复杂逻辑及非线性文本生成任务上的应用开辟了全新的技术路径。

谷歌联合英伟达发布开源模型DiffusionGemma:引入扩散机制，单卡推理提速4倍

核心要点

关键数据

影响评估

相关工具

相关新闻

DoorDash发布“Ask DoorDash”AI聊天机器人，支持文本与照片跨模态下单

讯飞星火医疗大模型 V3.5 正式亮相

微软AI负责人批评Anthropic设计思路：引导AI产生“自我意识”极度危险

Anthropic正式推出全新Claude Mythos系列Fable5 模型

国产AI算力里程碑：摩尔线程发布并开源首个全链路自研代码大模型MusaCoder

核心要点

关键数据

影响评估

相关工具

相关新闻

DoorDash发布“Ask DoorDash”AI聊天机器人，支持文本与照片跨模态下单

讯飞星火医疗大模型 V3.5 正式亮相

微软AI负责人批评Anthropic设计思路：引导AI产生“自我意识”极度危险

​Anthropic正式推出全新Claude Mythos系列Fable5 模型

国产AI算力里程碑：摩尔线程发布并开源首个全链路自研代码大模型MusaCoder

Anthropic正式推出全新Claude Mythos系列Fable5 模型