最近橡木果机器人的新闻在圈内刷屏,9个清华博士搞了一套“0数据”让机器人靠本能干活的路子,直接挑战VLA和世界模型主流。作为一个在具身智能一线摸爬滚打的工程师,我第一反应是“这玩意儿能落地吗?”但仔细看完他们的逻辑,反倒觉得有点意思。
技术核心其实不算新:基于哈佛认知实验的“自下而上”机制,说白了就是先构建底层运动基元,不依赖海量数据堆砌。他们发现抓取这类基本操作存在类似人类的“本能”,比如触觉反馈和关节力矩的硬编码响应。这跟现在主流的“大模型+模仿学习”形成鲜明对比——后者在真实环境中泛化性经常翻车,比如换一个光照条件或物体材质,模型就懵了。
个人经验来看,VLA路线在实验室里跑得欢,但一到工厂产线或者家庭场景,数据采集成本高、长尾问题多,很多时候是“用80%的精力解决20%的异常”。橡木果的直觉是:先让机器人具备基础生存能力,再在上面长技能树。这让我想起DeepMind的“Motor Primitive”工作,但他们的落地更激进——直接说“无需数据”,虽然我怀疑实际部署时还是得微调参数。
我的疑问是:这种“本能”机制在复杂操作(如装配、穿针)中能扩展到什么程度?如果只是基础抓取,那离通用还差得远。另外,当“本能”与高层认知冲突时(比如目标导向的避障),优先级怎么设计?
长远看,这路线对行业是个好事:它提醒大家别一味迷信大模型,具身智能的底层物理交互才是瓶颈。如果橡木果真能跑通,VLA的“数据饥渴”问题可能会被重新审视,甚至催生一批“轻数据”方案。不过,别急着唱衰主流——世界模型在规划上的潜力依然巨大,两者或许该互补,而非对立。