神话级Claude 5，登顶了！

{
title: "Claude Fable 5登顶Agent Arena，创AI最大分差纪录",
summary: "Anthropic发布Claude Fable 5仅24小时，便在Agent Arena榜单上以11.2%的综合净提升创下AI史上最大分差纪录，将GPT-5.5和Opus 4.8斩落马下。在确认任务成功率和好评投诉比上分别领先18.2%和30.6%，并在Code Arena和Text Arena包揽第一。定价翻倍至每百万Token 10-50美元，日处理Token量达2050亿，展现出惊人的性能和实用性。",
content: "AI竞技场迎来了一场闪电战。Anthropic刚刚发布的Claude Fable 5，在24小时内就登上Agent Arena榜首，并以11.2%的综合净提升创下该榜单有史以来最大分差。这个被称为神话级的模型，不仅将自家同门Opus 4.8拉下马，更让GPT-5.5黯然失色。在AI从业者最关心的真实任务执行能力上，Fable 5的表现堪称碾压级。

在Agent Arena的五个核心信号评测中，Fable 5在最硬的两项上拉开了恐怖差距：确认任务成功率领先18.2%，好评与投诉比领先30.6%。这意味着在‘能不能把活干完、用户满不满意’这两个最接近真实工作的指标上，Fable 5实现了断崖式领先。在Vals AI三方评测中，它几乎在所有评测中位列第一。具体到单项能力，Fable 5包揽了Code Arena和Text Arena两大王座，其中前端编码对决胜率高达72%，以98分的分差上演了降维打击。在Artificial Analysis智能指数中，Fable 5斩获64.9分，领先第二名近5分；在衡量真实工作任务的GDPval-AA榜单上，Elo分数一举冲破1932，重塑了行业极限。

Fable 5的实操能力同样惊艳。它能在一次生成中完成模拟流体墨水消融这样的高难度动态效果，还能直出一整套能用的网页版Windows，包含登录、通知、Edge和空当接龙，甚至附赠Copilot和Minecraft克隆。更令人震撼的是，它在24小时内手搓了一个游戏模拟器，在GBA Eval评测中以74.5%的最高分完美运行所有游戏，仅用不到2小时就超越了Opus 4.8。在Mechanize评测中，Fable 5甚至能可视化神经网络注意力机制，让一个真正能跑的小语言模型通过WebGPU在浏览器里实时运行。

作为首个公开的Mythos级模型，Fable 5的定价直接翻倍，达到每百万Token 10-50美元，是Opus 4.8的两倍。即便如此，发布24小时内它的日处理Token量就冲到约2050亿，远超Opus 4.8的1470亿。沃顿商学院教授Ethan Mollick直言，启动一个工作流Token就会被迅速消耗。从Opus 4.7到Opus 4.8用了42天，而从Opus 4.8到Fable 5仅用12天，迭代间隔在坍缩，跳变却在变大。留给AI从业者学会驯服这个新物种的时间窗口，正在以同样的速度变窄。对于技术社区而言，这不仅是性能竞赛，更是对AI应用范式的重新定义。"
}

神话级Claude 5，登顶了！

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%