清华团队另辟蹊径：具身本能驱动机器人打破VLA瓶颈

当整个具身智能行业都在追逐VLA（视觉-语言-动作）模型时，一家名为橡木果（Acorn Robot）的清华背景团队却选择了一条截然不同的路。他们放弃了让机器人「用眼睛看、用脑子想」的主流范式，转而从底层构建「具身本能」，让机器人在完全没有对应训练的情况下，就能稳稳拿住物体、与人博弈。这种自下而上的技术路线，正在为具身智能的工业落地打开一扇新的大门。

VLA模型的底层逻辑是模仿学习，通过海量数据训练机器人拟合人类动作。但这一路线在真实工业场景中正遭遇瓶颈。物理交互中的手感、力矩变化、摩擦反馈等触觉信息，无法通过仿真环境完全模拟。即使在工厂里，外观相同的两个夹爪因导轨松紧不同，也需要不同的模型参数。更关键的是，VLA依赖的单一视觉维度无法感知重心偏移、滑移趋势等触觉信息，导致「眼睛学会了，上手却不行」。当前业界已出现VLA向VTLA演进的趋势，新增的触觉维度正是为了应对精细物理交互的挑战。

橡木果的解法是彻底重构技术架构。他们将任务规划（大脑）与操作执行（小脑）解耦，专注于攻克底层的操作执行层。其核心是端侧自主决策模型Natus，完全嵌入灵巧手等末端执行器中，由「触觉刺激的本能反射」与「自主学习的肌肉记忆」构建。该模型包含三大类本能：定向本能指引末端向目标移动，探索本能自动沿物体表面寻找稳定接触构型，执行本能则以「滑移最小化」或「阻抗匹配」为目标，实时调节电机电流。所有调控均来自触觉信息的实时反馈，频率高达200Hz，无需任何训练数据。

在测试中，机器人从未见过卡片型物体，却能通过自主探索把卡片翘起一角成功抓取；面对半瓶水的饮料，它会反复试探重心逐步调整。这种「本能驱动」的方式，正在打破VLA在工业场景中的数据依赖和泛化难题。未来，具身智能的商用化或许不再需要为每个工位单独适配模型，而是让机器人像人类一样，通过本能适应物理世界的复杂性。对于从业者而言，这一路线提醒我们：在追逐大模型的同时，不要忘记触觉这个被长期忽略的维度，它可能是连接AI与物理世界的关键钥匙。

清华团队另辟蹊径：具身本能驱动机器人打破VLA瓶颈

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%