苹果这次用B200 GPU承载Gemini模型,表面看是隐私让步,实则是一次典型的工程权衡。核心痛点在于:苹果自研服务器(如M2 Ultra集群)在推理大模型时,显存带宽和批处理效率远不及NVIDIA的NVLink+CUDA生态,尤其Gemini这类MoE架构模型,动态路由对通信延迟极其敏感。B200的机密计算(Confidential Computing)确实能防止谷歌侧窃取用户数据,但注意这只是加密传输和内存隔离,谷歌仍然能看到请求内容(如语音文本),只是无法关联用户Apple ID。
从我个人落地蒸馏模型的经验来看,苹果用teacher-student方案压缩端侧模型是明智的——但挑战在于:Gemini的logits分布非常尖峰,蒸馏时需要精心调节温度系数和软标签权重,否则小模型在长尾意图(如多轮对话中的指代消解)上会严重退化。苹果这次混合部署(云端大模型+端侧小模型)实际上是行业趋势:Google、Meta也在做类似的路由网关,让简单请求(如设置闹钟)走端侧,复杂推理(如开放域问答)走云端。
这里有两个值得深挖的问题:1)B200的带宽隔离能否真正抵抗侧信道攻击(如GPUTTT)?2)苹果如何解决端侧模型与云端模型的意图冲突(如用户说“帮我查天气”,端侧误判为“打开天气App”)?
从行业格局看,苹果这一妥协打破了自研芯片的神话——在AI推理领域,NVIDIA的生态护城河比想象中更深。未来混合部署可能成为标配,但隐私与性能的平衡点取决于蒸馏技术的成熟度。