谷歌开源26B扩散MoE模型，生成速度飙升4倍

谷歌今天放出Gemmna家族新成员——DiffusionGemma，这是一款基于文本扩散的实验性开源模型，采用Apache 2.0许可证发布。不同于传统自回归大语言模型按顺序逐token生成的方式，DiffusionGemma可以同时生成整块文本，在GPU上文本生成速度最高提升至4倍。谷歌CEO皮查伊用“速度像赛马一样快”来形容这一突破，模型在专用硬件上展现出惊人的推理效率。

DiffusionGemma是一个总规模为26B的混合专家模型（MoE），但推理时只激活3.8B参数，经过量化后可以运行在18GB显存以内的高端消费级显卡上。在单张NVIDIA H100上，它达到每秒1000+ tokens的吞吐量；在NVIDIA GeForce RTX 5090上，也能达到每秒700+ tokens。模型支持双向注意力机制，每次前向计算可并行生成256个token，每个token都能看到其他token，这让它在行内编辑、代码补全、氨基酸序列生成等非线性场景中更具优势。此外，模型还具备自我修正能力，能通过多轮迭代不断优化输出，实时发现并修正错误。

DiffusionGemma改变了模型使用硬件的方式。传统语言模型像一台打字机，从左到右逐词生成，在本地单用户场景下GPU利用率较低。DiffusionGemma则一次性起草整个256-token文本块，让处理器每次都能拿到更大块的计算任务，硬件利用率更高。不过需要注意的是，它的速度优势主要面向本地推理和低并发场景。在高QPS的云端服务中，自回归模型通过批处理可以充分吃满算力，DiffusionGemma的并行解码优势会被削弱，甚至可能带来更高的服务成本。

目前DiffusionGemma仍是实验性模型，整体输出质量低于标准版Gemma 4。如果应用场景对质量要求最高，官方建议部署标准版Gemma 4。但开发者可以通过微调让DiffusionGemma在特定任务上表现更好，例如Unsloth团队已成功微调模型用于解数独——这类任务对自回归模型并不友好，而DiffusionGemma的双向注意力机制让任务变得更容易。对于追求实时交互体验、需要快速迭代的开发者来说，DiffusionGemma提供了一个值得探索的新方向，特别是在本地推理和低延迟场景中，它有望成为自回归模型的有力补充。

谷歌开源26B扩散MoE模型，生成速度飙升4倍

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%