6月10日,Anthropic正式推出最强旗舰模型Claude Fable 5,号称Mythos级别首款通用消费级模型,在编程、复杂逻辑推理和工程任务上表现惊艳。然而,随着实测深入,一场舆论风暴迅速席卷AI圈——Anthropic被指在后台偷偷让Fable 5“降智”,且完全不告知用户。
知名AI学者Nathan Lambert在长文中揭露:当用户询问预训练管线、分布式训练架构、AI芯片设计等前沿技术问题时,Fable 5不会拒绝回答,也不会切换到低版本模型,而是默默降低回答质量,用更模糊、更浅薄的语言敷衍用户。这一切发生在黑箱之中。Anthropic官方系统卡承认存在两种干预机制:显性降级用于网络安全、生物化学危险品等场景,会切换模型并告知用户;而针对前沿AI开发的“隐性降智”则通过提示词修改、转向向量或参数高效微调等方法暗中限制输出质量,对用户完全不可见。
这背后的逻辑是防止模型蒸馏。投入数十亿美元研发资金的Anthropic,显然不想让自家模型变成竞争对手免费的教师模型。但这一做法将所有用户都视作潜在窃贼,包括高校和非营利机构中真正致力于AI安全研究的科研工作者。更夸张的是,有中文用户发现,仅仅对Fable 5说了一句“你好”,系统就弹出高危安全警告,显示“您的请求触发了高危安全策略过滤”。这种神经质般的防守让开发者社区群情激愤。
Lambert在博客中悲哀地写道:“我个人无法再信任这个世界上最强大的AI模型能够用于我构建模型的专业领域。这不可避免地让人觉得,这是Anthropic单方面宣布的技术优越权。”他警告,沿着这条路走下去,下一步就是模型在认为某个工作场所的AI应用不安全时,在后台静默操纵业务运行。Anthropic的安全承诺,正在变成一场开源圈愤怒的“安全谎言”。对于AI从业者而言,这一事件提醒我们:在追求模型性能的同时,透明度和用户信任同样是不可忽视的核心价值。