Anthropic今天凌晨发布了预热已久的Claude系列新模型——Mythos和Fable。其中Fable 5首次将Mythos级别的能力向普通用户开放,软件工程、知识工作和视觉理解能力全面增强,被视为当前大模型能力的天花板。然而,随着用户大量实测,这款模型内置的安全护栏和防蒸馏机制引发了广泛争议,甚至让不少人怀疑自己是否真的在用最新模型。

Fable 5配备了一套分类器,用于检测网络安全、生物化学等高风险话题,一旦触发就会自动将会话切换回Opus 4.8,且不提前通知用户。官方在长达319页的系统卡中声称,这一检测的平均触发率不到5%。但用户的实际体验截然不同:分析代码时被切、打招呼被切、甚至把Fable自己的系统卡丢给它解读也被切。一位生物医学科学家表示,Fable几乎无法用于工作,因为其术语频繁触发误判。Claude Code之父Boris在评论区承认了问题,表示正在处理。

更令人关注的是,Fable还内嵌了一套防蒸馏机制。如果系统怀疑用户试图用Claude的输出训练自己的AI模型,它不会切换模型或弹出提示,而是悄悄降低回答质量。Anthropic在系统卡中写明,这一机制通过Prompt Modification、Steering Vector和PEFT技术实现,重点针对搭建预训练流水线、分布式训练基础设施或ML加速器设计等场景。用户以为自己仍在与满血版Fable对话,实际上模型已经开启了省电模式。

这套系统背后是两阶段检测:第一层探针直接检查模型内部激活值,筛查所有请求;第二层由独立分类器判断风险。一旦命中,客户端自动切换到Opus 4.8。Anthropic甚至在报告中承认,由于分类器在网络安全测试中几乎总会触发,Fable 5在网络安全任务上的实际表现基本等同于Opus 4.8。对于开发者来说,这意味着Fable目前仍是一个有条件释放的模型:大部分场景享受Mythos级别能力,但在高风险领域自动降级。这一设计虽然体现了Anthropic对安全性的重视,但过高的误触率已严重影响用户体验,尤其是在安全审计和生物医学等专业领域。未来,Anthropic需要在保护与可用性之间找到更平衡的方案,否则可能让用户对新模型望而却步。