{
title: "Claude Fable 5登顶Agent Arena,创AI最大分差纪录",
summary: "Anthropic发布Claude Fable 5仅24小时,便在Agent Arena榜单上以11.2%的综合净提升创下AI史上最大分差纪录,将GPT-5.5和Opus 4.8斩落马下。在确认任务成功率和好评投诉比上分别领先18.2%和30.6%,并在Code Arena和Text Arena包揽第一。定价翻倍至每百万Token 10-50美元,日处理Token量达2050亿,展现出惊人的性能和实用性。",
content: "AI竞技场迎来了一场闪电战。Anthropic刚刚发布的Claude Fable 5,在24小时内就登上Agent Arena榜首,并以11.2%的综合净提升创下该榜单有史以来最大分差。这个被称为神话级的模型,不仅将自家同门Opus 4.8拉下马,更让GPT-5.5黯然失色。在AI从业者最关心的真实任务执行能力上,Fable 5的表现堪称碾压级。

在Agent Arena的五个核心信号评测中,Fable 5在最硬的两项上拉开了恐怖差距:确认任务成功率领先18.2%,好评与投诉比领先30.6%。这意味着在‘能不能把活干完、用户满不满意’这两个最接近真实工作的指标上,Fable 5实现了断崖式领先。在Vals AI三方评测中,它几乎在所有评测中位列第一。具体到单项能力,Fable 5包揽了Code Arena和Text Arena两大王座,其中前端编码对决胜率高达72%,以98分的分差上演了降维打击。在Artificial Analysis智能指数中,Fable 5斩获64.9分,领先第二名近5分;在衡量真实工作任务的GDPval-AA榜单上,Elo分数一举冲破1932,重塑了行业极限。

Fable 5的实操能力同样惊艳。它能在一次生成中完成模拟流体墨水消融这样的高难度动态效果,还能直出一整套能用的网页版Windows,包含登录、通知、Edge和空当接龙,甚至附赠Copilot和Minecraft克隆。更令人震撼的是,它在24小时内手搓了一个游戏模拟器,在GBA Eval评测中以74.5%的最高分完美运行所有游戏,仅用不到2小时就超越了Opus 4.8。在Mechanize评测中,Fable 5甚至能可视化神经网络注意力机制,让一个真正能跑的小语言模型通过WebGPU在浏览器里实时运行。

作为首个公开的Mythos级模型,Fable 5的定价直接翻倍,达到每百万Token 10-50美元,是Opus 4.8的两倍。即便如此,发布24小时内它的日处理Token量就冲到约2050亿,远超Opus 4.8的1470亿。沃顿商学院教授Ethan Mollick直言,启动一个工作流Token就会被迅速消耗。从Opus 4.7到Opus 4.8用了42天,而从Opus 4.8到Fable 5仅用12天,迭代间隔在坍缩,跳变却在变大。留给AI从业者学会驯服这个新物种的时间窗口,正在以同样的速度变窄。对于技术社区而言,这不仅是性能竞赛,更是对AI应用范式的重新定义。"
}