在刚刚结束的GTC 2025上,英伟达CEO黄仁勋用了大量篇幅阐述物理AI和具身智能的未来,并正式发布了Cosmos 3。这款模型被英伟达定义为面向Physical AI的最新前沿模型,也是全球首个完全开放的全能模型,原生具备视觉推理、世界生成和动作生成能力。然而,就在发布后仅仅一天,一家中国公司便拿出了性能更优的替代方案,在多个关键指标上实现了反超,令整个AI社区为之侧目。
这家中国公司推出的模型名为“星启WorldGen-1”,在官方公布的基准测试中,其在视觉推理准确率上领先Cosmos 3约12%,在世界生成任务的FID评分上领先18%,而在动作生成的成功率上更是高出30%。更令人惊讶的是,星启WorldGen-1的参数量仅为Cosmos 3的60%,推理速度却快了近一倍。这意味着在相同硬件条件下,用户可以用更低的成本获得更好的效果。该模型同样采用了完全开放的开源协议,并提供了完整的训练代码和预训练权重,进一步降低了开发者上手的门槛。
这一事件的背后,折射出物理AI赛道的竞争格局正在发生深刻变化。英伟达凭借其硬件生态和品牌影响力,一直占据着技术话语权,但中国团队在模型架构创新和工程优化上的能力已经不容小觑。星启WorldGen-1的成功,得益于其在扩散Transformer架构上的改进,以及针对物理世界建模的独特训练策略。这不仅是技术上的胜利,更表明在开源社区的支持下,后来者完全有机会在短时间内实现弯道超车。
对于AI从业者和爱好者而言,这一动态释放了几个重要信号。首先,物理AI和具身智能的落地速度可能比预期更快,模型能力的快速迭代将极大推动机器人、自动驾驶和数字孪生等领域的发展。其次,开源生态的竞争将更加白热化,谁能提供更高效、更易用的模型,谁就能吸引更多开发者和应用场景。最后,中国团队在AI基础研究上的投入正在转化为实实在在的成果,未来全球AI格局将更加多元。建议开发者密切关注星启WorldGen-1的后续更新,并尝试将其应用于自己的项目中,以抢占物理AI应用的红利期。