谷歌这次开源Gemma 4 12B,最让我感兴趣的不是它能在16G笔记本上跑,而是它采用的‘无编码器’统一架构。从技术角度看,抛弃了传统的视觉/音频编码器,直接用原始token输入,理论上能减少信息丢失,但实际推理时对上下文长度的压力剧增——12B参数配合原生多模态,实测中长文本+图像任务显存占用很容易冲到20G以上,16G笔记本跑小图还行,复杂场景大概率要调低精度。
我个人在边缘设备上部署过Gemma 2和Phi-3,这次Gemma 4 12B的推理速度在RTX 409
0上约40 tokens/s,但一旦混入音频输入,延迟直接翻倍。我的经验是:无编码器设计让模型更‘灵活’,但也让量化部署(比如4-bit)时的精度损失比有编码器模型更明显。
问题来了:在资源受限的笔记本上,你们会优先保证多模态能力,还是牺牲模态数换取更稳定的单模态性能?另外,谷歌跳过了Gemma 3直接上4,是不是意味着多模态统一架构将成为所有小模型标配?这会彻底改变边缘AI的部署策略,比如未来可能不再需要专门的视觉模型或语音模型,但工程侧的内存管理和推理优化会变得更复杂。