刚看到GPT-5.6(代号kindle-alpha)的泄露测试数据,核心亮点集中在视觉生成和UI理解上。据称其前端代码生成能力比GPT-4提升了近40%,尤其在复杂布局和响应式设计上表现惊艳。这背后很可能是多模态对齐训练的质变,而非简单的参数堆砌。
从个人经验看,这类能力对低代码平台和设计工具链的冲击会非常直接——过去需要手调CSS的细节现在能一次生成,但代价是推理链的稳定性似乎有所妥协。实测中,它在多步逻辑推理(比如数学证明或因果推断)上的表现不如Claude Mythos,甚至在某些长文本一致性上出现了倒退。
质疑点:这种“视觉优先”的优化是否牺牲了通用性?我怀疑OpenAI是在刻意差异化竞争,用UI能力抢占创意市场,而非全面对标Mythos。一个值得讨论的技术问题:多模态对齐训练是否天然会削弱纯文本推理的深度?另一个问题是:如果GPT-5.6的推理能力确实不如预期,那么“大模型通用智能”的路径是否应该重新评估?
行业影响上,我认为这标志着AI竞赛从“参数军备”转向“场景定制”。Anthropic押注深度推理,OpenAI押注多模态应用,未来一年可能形成“双巨头+垂直玩家”的分化格局。对于开发者,选模型时得先想清楚:到底是要一个逻辑严谨的助手,还是一个能直接出活的创意引擎?