CVPR 2026上,物理AI成为最热的关键词。从自动驾驶公司到车企,从大模型玩家到投资人,人人都在谈论这个概念。但真正的分水岭在于,谁能拿出完整的技术栈、论文、代码,并在量产实车上验证。在首届“具身智能基座模型部署研讨会”上,这个问题有了答案。这场会议汇聚了特斯拉、英伟达、Waymo,以及唯一一家受邀的中国企业——小鹏。美国EV头部媒体Electrek主编Fred Lambert在会前就已注意到,小鹏通用智能中心负责人刘先明将与特斯拉AI软件副总裁Ashok Elluswamy同台分享技术成果。能吸引这些顶尖玩家坐下来认真听的,并不多见,小鹏是其中之一。

小鹏在演讲中首次完整展示了世界模型技术图谱,基于其团队近期发表的X-World、X-Foresight、X-Cache等系列论文。核心观点是,小鹏正在研发具备主动思考、可控生成和长时序推演能力的世界模型,与第二代VLA共同构成物理AI基模底座。两者的协同进化是关键:人类动作包含丰富的高层语义,但监督信号在时间上相对稀疏,通常只能监督最终行为结果;而世界模型则通过密集预测每一帧画面、每一次运动,借鉴大语言模型中“下一个Token预测”的范式,在海量未标注视频上学习物理世界的动力学与因果结构。这种双重目标并行演进,确保系统在复杂环境下的可控性与安全性。

针对业界常见的“走VLA路线还是世界模型路线”之争,刘先明的回答直截了当:小鹏物理世界基座模型,既是第二代VLA,也是世界模型。AI要在物理世界中行动,需要了解两件事:一是“如何行动”,二是“行动之后世界会如何变化”。前者由第二代VLA负责,去年CVPR演讲已介绍其基础架构;后者正是今年的主题,即世界模型如何理解环境、时空和因果。X-World作为基于视频扩散生成技术的可控多视角生成式世界模型,能在给定动作条件下生成符合物理约束的未来视频,已投入闭环仿真测试、在线强化学习等研发环节。X-Foresight则聚焦预测式世界模型,进一步提升长时序推演能力。

这场演讲标志着物理AI从概念走向工程落地的重要一步。小鹏的思路是将稀疏的人类意图与密集的物理预测相结合,让模型不仅学习“人类驾驶员会怎么做”,更深度理解“物理世界接下来会发生什么”。对于AI从业者和爱好者而言,小鹏的技术路线提供了一个值得关注的范式:世界模型与VLA的协同进化,本质上是广义的数据驱动体系——从更大规模的优质数据中萃取出智能,包含对人的行为和对世界知识的理解。未来,随着更多企业公布类似技术栈,物理AI的竞争将不再停留在口号,而是真正的技术落地。建议关注小鹏后续的论文和代码开源,这可能是理解下一代自动驾驶架构的关键窗口。