最近VAST拿到近2亿美元融资并公布Project Eden,核心亮点是把世界模型的底层状态推演和视觉呈现原生解耦。这确实和常见的动作条件视频生成(比如Sora那种直接输出像素)思路不同。从技术角度看,这种解耦可能带来两个好处:一是状态推演更专注于物理规律建模,不受渲染细节干扰;二是视觉层可独立优化,甚至支持不同风格渲染。但个人经验是,解耦后两个模块的接口设计才是真正的坑——状态空间如何定义才能既保留足够信息又不冗余?如果状态推演精度不够,视觉层再炫也是空中楼阁。

我比较好奇的是,VAST这种路线在实时交互场景下延迟如何?解耦后状态推演和视觉渲染是串行还是可以并行?另一个问题是,他们是否在状态层引入了类似NeRF或3DGS的隐式表示?这对后续落地的泛化能力影响很大。

从行业看,这波融资说明资本对世界模型赛道依然狂热,但解耦路线能否跑通还得看实际效果。如果成功,可能会催生类似“物理引擎+渲染器”的标准化中间件,改变目前端到端生成一家独大的格局。

image