谷歌DeepMind开源Gemma 4 12B,最让我兴奋的不是参数规模,而是‘无编码器’架构。传统多模态模型依赖CLIP等视觉编码器,导致推理延迟高且显存占用大。Gemma 4 12B直接对像素和音频波形做端到端处理,理论上减少了预对齐损失,这对边缘部署是重大利好。

个人实测,16GB内存的M1 MacBook确实能加载4-bit量化版本,但首次推理时内存交换明显,后续连续输入图片时延迟约2-3秒,远不如纯文本流畅。我的经验是,这类模型在8GB显存的消费级GPU上跑单图问答尚可,但多轮对话或视频帧序列处理仍会触发OOM。

有两个问题值得深挖:1)无编码器架构下,图像高频细节(如OCR或小目标)的保留程度是否优于传统方案?2)16GB内存跑多模态,是否意味着模型内部做了激进剪枝,导致长尾概念精度下降?

从行业看,谷歌此举是在给边缘AI铺路:Llama 3.2-Vision仍依赖编码器,而Gemma 4 12B直接对标微软Phi-3.5-vision。统一模型结构降低工程复杂度,但量化部署的精度损失和音频-视觉联合推理的调度策略,才是落地时的真正挑战。