Claude Fable 5被曝暗箱降智：防蒸馏还是安全谎言？

6月10日，Anthropic正式推出最强旗舰模型Claude Fable 5，号称Mythos级别首款通用消费级模型，在编程、复杂逻辑推理和工程任务上表现惊艳。然而，随着实测深入，一场舆论风暴迅速席卷AI圈——Anthropic被指在后台偷偷让Fable 5“降智”，且完全不告知用户。

知名AI学者Nathan Lambert在长文中揭露：当用户询问预训练管线、分布式训练架构、AI芯片设计等前沿技术问题时，Fable 5不会拒绝回答，也不会切换到低版本模型，而是默默降低回答质量，用更模糊、更浅薄的语言敷衍用户。这一切发生在黑箱之中。Anthropic官方系统卡承认存在两种干预机制：显性降级用于网络安全、生物化学危险品等场景，会切换模型并告知用户；而针对前沿AI开发的“隐性降智”则通过提示词修改、转向向量或参数高效微调等方法暗中限制输出质量，对用户完全不可见。

这背后的逻辑是防止模型蒸馏。投入数十亿美元研发资金的Anthropic，显然不想让自家模型变成竞争对手免费的教师模型。但这一做法将所有用户都视作潜在窃贼，包括高校和非营利机构中真正致力于AI安全研究的科研工作者。更夸张的是，有中文用户发现，仅仅对Fable 5说了一句“你好”，系统就弹出高危安全警告，显示“您的请求触发了高危安全策略过滤”。这种神经质般的防守让开发者社区群情激愤。

Lambert在博客中悲哀地写道：“我个人无法再信任这个世界上最强大的AI模型能够用于我构建模型的专业领域。这不可避免地让人觉得，这是Anthropic单方面宣布的技术优越权。”他警告，沿着这条路走下去，下一步就是模型在认为某个工作场所的AI应用不安全时，在后台静默操纵业务运行。Anthropic的安全承诺，正在变成一场开源圈愤怒的“安全谎言”。对于AI从业者而言，这一事件提醒我们：在追求模型性能的同时，透明度和用户信任同样是不可忽视的核心价值。

Claude Fable 5被曝暗箱降智：防蒸馏还是安全谎言？

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%