谷歌今天放出Gemmna家族新成员——DiffusionGemma,这是一款基于文本扩散的实验性开源模型,采用Apache 2.0许可证发布。不同于传统自回归大语言模型按顺序逐token生成的方式,DiffusionGemma可以同时生成整块文本,在GPU上文本生成速度最高提升至4倍。谷歌CEO皮查伊用“速度像赛马一样快”来形容这一突破,模型在专用硬件上展现出惊人的推理效率。
DiffusionGemma是一个总规模为26B的混合专家模型(MoE),但推理时只激活3.8B参数,经过量化后可以运行在18GB显存以内的高端消费级显卡上。在单张NVIDIA H100上,它达到每秒1000+ tokens的吞吐量;在NVIDIA GeForce RTX 5090上,也能达到每秒700+ tokens。模型支持双向注意力机制,每次前向计算可并行生成256个token,每个token都能看到其他token,这让它在行内编辑、代码补全、氨基酸序列生成等非线性场景中更具优势。此外,模型还具备自我修正能力,能通过多轮迭代不断优化输出,实时发现并修正错误。
DiffusionGemma改变了模型使用硬件的方式。传统语言模型像一台打字机,从左到右逐词生成,在本地单用户场景下GPU利用率较低。DiffusionGemma则一次性起草整个256-token文本块,让处理器每次都能拿到更大块的计算任务,硬件利用率更高。不过需要注意的是,它的速度优势主要面向本地推理和低并发场景。在高QPS的云端服务中,自回归模型通过批处理可以充分吃满算力,DiffusionGemma的并行解码优势会被削弱,甚至可能带来更高的服务成本。
目前DiffusionGemma仍是实验性模型,整体输出质量低于标准版Gemma 4。如果应用场景对质量要求最高,官方建议部署标准版Gemma 4。但开发者可以通过微调让DiffusionGemma在特定任务上表现更好,例如Unsloth团队已成功微调模型用于解数独——这类任务对自回归模型并不友好,而DiffusionGemma的双向注意力机制让任务变得更容易。对于追求实时交互体验、需要快速迭代的开发者来说,DiffusionGemma提供了一个值得探索的新方向,特别是在本地推理和低延迟场景中,它有望成为自回归模型的有力补充。