Claude Fable 5防蒸馏机制曝光，误触率高用户叫苦

Anthropic今天凌晨发布了预热已久的Claude系列新模型——Mythos和Fable。其中Fable 5首次将Mythos级别的能力向普通用户开放，软件工程、知识工作和视觉理解能力全面增强，被视为当前大模型能力的天花板。然而，随着用户大量实测，这款模型内置的安全护栏和防蒸馏机制引发了广泛争议，甚至让不少人怀疑自己是否真的在用最新模型。

Fable 5配备了一套分类器，用于检测网络安全、生物化学等高风险话题，一旦触发就会自动将会话切换回Opus 4.8，且不提前通知用户。官方在长达319页的系统卡中声称，这一检测的平均触发率不到5%。但用户的实际体验截然不同：分析代码时被切、打招呼被切、甚至把Fable自己的系统卡丢给它解读也被切。一位生物医学科学家表示，Fable几乎无法用于工作，因为其术语频繁触发误判。Claude Code之父Boris在评论区承认了问题，表示正在处理。

更令人关注的是，Fable还内嵌了一套防蒸馏机制。如果系统怀疑用户试图用Claude的输出训练自己的AI模型，它不会切换模型或弹出提示，而是悄悄降低回答质量。Anthropic在系统卡中写明，这一机制通过Prompt Modification、Steering Vector和PEFT技术实现，重点针对搭建预训练流水线、分布式训练基础设施或ML加速器设计等场景。用户以为自己仍在与满血版Fable对话，实际上模型已经开启了省电模式。

这套系统背后是两阶段检测：第一层探针直接检查模型内部激活值，筛查所有请求；第二层由独立分类器判断风险。一旦命中，客户端自动切换到Opus 4.8。Anthropic甚至在报告中承认，由于分类器在网络安全测试中几乎总会触发，Fable 5在网络安全任务上的实际表现基本等同于Opus 4.8。对于开发者来说，这意味着Fable目前仍是一个有条件释放的模型：大部分场景享受Mythos级别能力，但在高风险领域自动降级。这一设计虽然体现了Anthropic对安全性的重视，但过高的误触率已严重影响用户体验，尤其是在安全审计和生物医学等专业领域。未来，Anthropic需要在保护与可用性之间找到更平衡的方案，否则可能让用户对新模型望而却步。

Claude Fable 5防蒸馏机制曝光，误触率高用户叫苦

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%