CVPR 2026：小鹏与英伟达特斯拉Waymo共论物理AI

CVPR 2026上，物理AI成为最热的关键词。从自动驾驶公司到车企，从大模型玩家到投资人，人人都在谈论这个概念。但真正的分水岭在于，谁能拿出完整的技术栈、论文、代码，并在量产实车上验证。在首届“具身智能基座模型部署研讨会”上，这个问题有了答案。这场会议汇聚了特斯拉、英伟达、Waymo，以及唯一一家受邀的中国企业——小鹏。美国EV头部媒体Electrek主编Fred Lambert在会前就已注意到，小鹏通用智能中心负责人刘先明将与特斯拉AI软件副总裁Ashok Elluswamy同台分享技术成果。能吸引这些顶尖玩家坐下来认真听的，并不多见，小鹏是其中之一。

小鹏在演讲中首次完整展示了世界模型技术图谱，基于其团队近期发表的X-World、X-Foresight、X-Cache等系列论文。核心观点是，小鹏正在研发具备主动思考、可控生成和长时序推演能力的世界模型，与第二代VLA共同构成物理AI基模底座。两者的协同进化是关键：人类动作包含丰富的高层语义，但监督信号在时间上相对稀疏，通常只能监督最终行为结果；而世界模型则通过密集预测每一帧画面、每一次运动，借鉴大语言模型中“下一个Token预测”的范式，在海量未标注视频上学习物理世界的动力学与因果结构。这种双重目标并行演进，确保系统在复杂环境下的可控性与安全性。

针对业界常见的“走VLA路线还是世界模型路线”之争，刘先明的回答直截了当：小鹏物理世界基座模型，既是第二代VLA，也是世界模型。AI要在物理世界中行动，需要了解两件事：一是“如何行动”，二是“行动之后世界会如何变化”。前者由第二代VLA负责，去年CVPR演讲已介绍其基础架构；后者正是今年的主题，即世界模型如何理解环境、时空和因果。X-World作为基于视频扩散生成技术的可控多视角生成式世界模型，能在给定动作条件下生成符合物理约束的未来视频，已投入闭环仿真测试、在线强化学习等研发环节。X-Foresight则聚焦预测式世界模型，进一步提升长时序推演能力。

这场演讲标志着物理AI从概念走向工程落地的重要一步。小鹏的思路是将稀疏的人类意图与密集的物理预测相结合，让模型不仅学习“人类驾驶员会怎么做”，更深度理解“物理世界接下来会发生什么”。对于AI从业者和爱好者而言，小鹏的技术路线提供了一个值得关注的范式：世界模型与VLA的协同进化，本质上是广义的数据驱动体系——从更大规模的优质数据中萃取出智能，包含对人的行为和对世界知识的理解。未来，随着更多企业公布类似技术栈，物理AI的竞争将不再停留在口号，而是真正的技术落地。建议关注小鹏后续的论文和代码开源，这可能是理解下一代自动驾驶架构的关键窗口。

CVPR 2026：小鹏与英伟达特斯拉Waymo共论物理AI

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%