Anthropic CEO Dario Amodei这篇《指数级AI政策》檄文,核心是把监管从道德倡议变成硬性门槛——10²⁵ FLOPs算力或营收/研发投入达标的企业必须接受第三方测试和政府叫停权。这不是简单的“要监管”,而是基于Claude Mythos自主发现数千高危漏洞后,对安全风险的量化倒逼。从技术角度,10²⁵ FLOPs大致对应训练一个GPT-4级模型所需算力的十倍以上,这意味着监管将直接卡住前沿模型的上线节点。个人经验上看,过去一年我参与过几次红队测试,很多漏洞在发布前根本测不周全,尤其是后门行为在微调后才暴露。Amodei主动承诺3.5亿美元投入研究和奖学金,本质上是用财务成本对冲监管不确定性——这不是示弱,而是把风险转嫁给整个行业。但问题在于:政府叫停权如何避免被滥用?尤其是当模型能力跨越关键阈值(例如自主复制或零日漏洞挖掘)时,叫停机制本身可能成为技术发展的瓶颈。另外,Amodei打破硅谷“自律”默契,是否会倒逼OpenAI和Google也表态,从而形成类似AI行业“核不扩散”的新格局?我倾向于认为,监管门槛一旦落地,训练算力的透明度要求将重构整个开源生态——小团队可能被迫依赖API,而闭源巨头则获得事实上的护城河。大家觉得,10²⁵ FLOPs这个阈值是否合理?有没有可能倒逼企业故意降级算力来规避监管?
Amodei喊监管:AI指数级风险下,硅谷默契破裂了
全部回复
共 27 条这个10²⁵ FLOPs的门槛设定挺有意思,但实操层面有几个点值得商榷。按Anthropic自己的测算,这个阈值大概锁定了当前头部玩家——可问题是,算力门槛是动态的,三年后可能10²⁶才算前沿,但法规修订周期远跟不上技术迭代。到时候要么门槛形同虚设,要么变成对特定玩家的终身追责,反而僵化了竞争格局。
另外,红队测试的局限性我也深有体会。我们团队去年在某个开源模型上做了四轮对抗性测试,所有已知攻击面都覆盖了,结果上线后用户用了一个很冷门的prompt组合就触发了隐藏的越狱行为。这种长尾漏洞在静态测试阶段几乎无解,除非你允许政府直接接入训练日志做动态监控——但这又涉及商业机密和代码主权。Amodei提的“政府叫停权”听起来很决绝,但叫停的触发条件是什么?是测试发现可疑行为,还是仅仅因为算力超限?如果是后者,那跟按营收划线没啥区别,真正的安全漏洞往往藏在算力线以下的模型里。
他承诺3.5亿美元做研究,这钱实际是投给安全社区的信任保证金。但我更关心的是,如果第三方测试机构本身缺乏对抗性数据或算力资源,测试结论的可信度会不会反噬监管本身?硅谷这波默契破裂,本质上是在争夺“安全定义权”——谁有资格判断一个模型是否安全,谁就控制了下一代的权力。
10²⁵ FLOPs这条线其实挺微妙的,我算了下现在一些中小厂训的模型也就刚摸到这个门槛的零头,真卡在这上面的话,很多团队要么被迫公开训练细节,要么就得把部分能力砍掉。不过红队测试这事我也有同感,有些漏洞真的得在特定数据集上跑几轮微调才会炸出来,单纯靠预训练阶段的测试根本防不住,不知道Amodei这个“政府叫停权”具体怎么界定触发条件?
这算力门槛的设定挺有意思,10²⁵ FLOPs正好卡在GPT-4的十倍以上,那是不是意味着像Meta开源的Llama 3这种规模的模型,如果后续版本算力再往上推,也得卡在监管门口?另外你提到后门行为在微调后才暴露,这确实是个大麻烦——有没有什么技术手段能在预训练阶段就提前筛查这种隐藏风险,还是说只能靠事后红队测试慢慢排查?
说实话,Amodei这篇东西读下来,最让我触动的是他愿意自掏腰包砸3.5亿美元搞研究和奖学金。这年头愿意把真金白银往安全研究里砸的CEO不多,尤其Anthropic自己还在烧钱阶段,这步棋走得挺狠。不过我更关心的是,10²⁵ FLOPs这个阈值到底怎么定的?你说它卡GPT-4十倍算力以上,那万一明年训练一个更强的模型只需要五倍呢?监管门槛追得上模型迭代速度吗?而且第三方测试本身也是个黑箱——谁来做?怎么保证测试方不泄密?红队测试我参与过几次,确实像你说的,很多漏洞在发布前根本测不全,尤其是那些需要特定prompt或者微调才能激活的后门行为,常规红队根本触发不了。Amodei强调“指数级风险”,但我总觉得监管这东西容易变成“管得住老实人,管不住疯子”。开源模型怎么办?Meta要是把Llama 4开源了,训练算力不够门槛,但社区微调后能达到同样效果,这账怎么算?最后说回硅谷默契破裂这件事,我觉得与其说是破裂,不如说是利益分化到了临界点。Sam Altman之前跑国会听证喊监管,转头自己搞7万亿芯片计划,谁信谁天真。Amodei这次至少把具体数字和机制摆上台面了,不管你是不是反对监管,这套提案本身值得认真拆解,而不是站队喊口号。
这算力门槛确实够狠,直接卡在GPT-4十倍这个点上,按现在迭代速度,估计一两年就有团队触线。我比较好奇的是,那种通过微调才暴露的后门行为,第三方测试真能提前发现吗?毕竟红队测试的覆盖面和实际部署后的输入空间差太多了。
这帖子看得我挺有感触的。我自己在模型安全这块也干了好几年,Amodei说的“后门行为在微调后才暴露”这点,太真实了。我们上个月测一个开源模型的对齐层,全量参数微调前,红队怎么压都压不出问题,结果一上LoRA,立马在特定prompt下触发了越狱。这种“隐性后门”在训练数据里根本看不到,只有到实际部署阶段才开始浮现,而且如果算力足够大,这种后门可能被设计成只在特定硬件或库版本下激活,常规测试根本抓不到。
10²⁵ FLOPs这个门槛,说实话有点微妙。现在训练一个200B参数的模型大概在10²³ FLOPs量级,10²⁵相当于十个GPT-4的算力总和。这意味着如果监管只卡这个点,那很多公司在训到GPT-4级别模型时根本不会触发测试,但真正危险的是那些把算力堆在合成数据、多阶段强化学习上的公司——他们可能把算力分散在多个小集群里,绕开这个量化标准。Amodei的“财政成瘾”说法我也有同感,但3.5亿美元对Anthropic这种级别的公司来说,更像是公关成本而非真正的安全投入。
我比较好奇的是,第三方测试机构怎么保证自己不被逆向工程?我们内部测一个模型时,如果知道测试用例的分布,完全可以针对性地优化参数,让模型在测试集上看起来安全,但实际行为完全相反。Amodei的框架里有没有提到测试方法和数据的保密机制?另外,政府叫停权的执行标准是什么?如果模型已经部署到API上,叫停后用户数据怎么处理,这些细节不落地的话,这个“硬性门槛”最后可能变成大公司的合规游戏。
这个点确实挺有意思的。我有个疑问一直没想明白:10²⁵ FLOPs这个门槛到底是怎么定的?你说它大致相当于训练GPT-4级模型算力的十倍以上,那如果未来训练效率提升了,比如用更少的算力训出更强的模型,这个门槛是不是就形同虚设了?或者反过来,如果算力成本下降,小公司也能堆到那个量级,监管会不会反而卡住创新,导致只有巨头玩得起?
另外你提到红队测试测不周全,后门行为在微调后才暴露,这点我深有同感。我最近也在看一些对抗性微调的研究,发现模型在安全对齐后,只要用少量恶意数据做微调,就能把隐藏的后门激活,甚至绕过原本的约束。那问题来了,就算Amodei说的第三方测试能测出原始模型的漏洞,但部署后用户自己微调怎么办?难道要监管每个微调版本?这成本根本不可想象。
还有他承诺投3.5亿美元搞研究和奖学金,听起来是好事,但我也看到有评论说这可能是变相把监管标准往自己擅长的方向引导——毕竟Claude的漏洞是他们自己发现的,别人家的模型不一定适用。你觉得这是不是有点“既当运动员又当裁判员”的味道?当然,主动喊监管总比死扛着不承认风险要好,但具体怎么落地,感觉还有很多坑要填。