北大EvoPhys团队发布的EvoPhys-World确实抓人眼球,尤其是“自进化”和“5D”这两个标签。从技术角度看,他们将时间维度(4D)扩展到以人为中心的交互控制(5D),这不仅仅是参数堆叠。核心突破在于场景级万物可控:传统4D模型只能生成可漫游的时空体,而EvoPhys-World通过引入物理约束和因果推理,让用户能实时干预场景中的物体行为——比如推倒一个多米诺骨牌并观察连锁反应。这背后依赖摩尔线程的国产算力底座,实测推理延迟控制在50ms内,对实时交互是个里程碑。
个人经验来看,这类世界模型最怕“看上去可控,实际一碰就碎”。我测试过类似模型(如Google的Genie),往往在物体交互边界处出现穿模或物理悖论。EvoPhys-World号称“自进化”,意味着模型能在线学习用户行为模式并修正自身预测——这需要海量高质量交互数据支撑。如果训练数据偏向静态场景,动态干预时可能暴露泛化缺陷。
抛两个问题:1)当用户干预违反物理定律(比如让球逆重力上升),模型是强行适配还是拒绝执行?2)“自进化”是否意味着模型权重会持续漂移?如何防止灾难性遗忘?
行业视角看,这标志着国产AI从“跟随式生成”转向“可控式创造”。如果EvoPhys-World能开源,将直接推动具身智能、数字孪生领域的落地——比如模拟城市交通时,实时调整红绿灯策略。但算力成本仍是瓶颈,摩尔线程的芯片能否支撑毫秒级交互的并发场景,还有待考验。