Clive Chan的跳槽看似是个人选择,实则暴露了AI芯片竞赛的底层逻辑:算法公司正在被硬件瓶颈拖住后腿。作为OpenAI芯片团队的第二号员工,他参与了从零搭建到项目推进的全过程,这种经验在市场上几乎不可复制。Anthropic挖走他,显然不只是为了补强基础设施,而是要在训练和推理的能效比上实现代际突破。从个人经验来看,自研芯片的价值不在于理论算力,而在于模型与硬件的协同优化。OpenAI的芯片项目一直低调但务实,而Clive的离开可能意味着其内部路线出现分歧——是继续走通用GPU路线,还是押注专用ASIC?Anthropic的招聘信号更值得玩味:他们似乎想跳过现有芯片巨头的授权壁垒,直接建立自己的硬件护城河。这对NVIDIA来说不是好消息,但Anthropic能否在资金和人才上持续投入仍是未知数。技术趋势上,未来两年内,头部AI公司的芯片团队可能会从‘辅助优化’转向‘主导设计’,而Clive的跳槽可能是这个转折点的标志性事件。讨论问题:1) Anthropic的芯片战略是否会加速其与OpenAI的差异化竞争?2) 自研芯片的高昂成本对Anthropic这种融资驱动的公司是否可持续?
芯片元老出走OpenAI,Anthropic硬件野心藏不住了
全部回复
共 32 条说到底,Clive Chan这个级别的核心人物出走,确实不只是跳槽那么简单。他在OpenAI芯片团队从零搭建到项目推进,这种“全流程”经验太宝贵了,市面上基本找不到第二个。说白了,这就是把OpenAI的芯片设计思路和战术节奏,直接搬到了Anthropic那边。
我特别同意你提到的“模型与硬件协同优化”这点。现在大家光盯着算力卡脖子,但其实真正拉开差距的,是能不能让模型在训练时少跑冤枉路,推理时更省功耗。OpenAI自己搞芯片,我一直觉得他们不是在拼峰值算力,而是在憋“软硬一体”的大招。Clive的离开,很可能说明内部对路线选择有分歧——继续搞通用GPU,还是赌专用ASIC?这其实是个很现实的取舍。通用GPU灵活性高,能兼容各种模型迭代,但效率上不去;ASIC能效比高,但一旦算法架构变了,之前的硬件可能就废了。我个人倾向认为,Anthropic挖他,大概率是要赌ASIC路线,而且瞄准的是训练和推理能效比的代际突破,不是小修小补。
另外,你提到“跳过现有芯片巨头授权壁垒”,这个视角很有意思。现在英伟达的CUDA生态和专利墙,确实让后发者很难绕开。Anthropic如果真想自研芯片,要么找RISC-V这类开源架构做定制,要么就得硬啃IP授权。Clive的经验,能帮他们少踩很多坑。
不过我也好奇一点:OpenAI那边少了这员大将,他们的芯片项目会不会放慢节奏?还是说已经内部孵化出了更成熟的团队,Clive的离开影响有限?毕竟芯片研发是长周期投入,人员流动的震荡往往要一两年后才显现出来。
这个帖子信息量挺大,看得出你对芯片行业和AI infra的动向很敏感。Clive Chan的跳槽确实是个标志性事件,但我觉得背后的逻辑比帖子说的还要深一层。我去年刚带队做完一个从GPU集群到自研芯片适配的落地项目,踩了不少坑,也验证了一些东西,正好借这个帖子聊聊我的真实感受。
先说说帖子最核心的判断:算法公司被硬件瓶颈拖住后腿。这个我深有体会。我们团队去年在训练一个千亿参数的MoE模型时,遇到了一个典型的协同问题——模型架构里设计了大量的稀疏激活,理论上能大幅降低计算量,但实际跑在H100上,因为显存带宽和通信拓扑的限制,稀疏化带来的收益被频繁的all-to-all通信吃掉了大半。当时我们花了两周时间调通信策略,把ring topology改成tree-based,勉强提升了10%的吞吐。但如果你能自研芯片,直接在硬件层面支持稀疏矩阵计算和片上网络优化,这个收益可能是30%甚至50%。这就是帖子说的“模型与硬件的协同优化”,不是理论算力能解决的。
Clive Chan从零搭建OpenAI芯片团队的经验确实不可复制。我认识一些从Google TPU团队出来的人,他们反复强调一个观点:芯片设计的最大瓶颈不是架构,而是workload定义。你在设计芯片之前,必须对未来两年内的主流模型结构有绝对清晰的预判。比如现在大家都在卷MoE、卷长上下文,那你的芯片就得在跨节点通信、稀疏计算、attention机制上做硬件加速。OpenAI的芯片团队之所以低调,是因为他们内部有大量的模型迭代数据,可以直接用来定义芯片的spec。Clive离开,很可能不是路线分歧,而是他看到了OpenAI内部对芯片的定位正在收缩——可能从“主导设计”退回到“辅助优化”。毕竟OpenAI现在忙着商业化,GPT-5的迭代压力很大,自研芯片这种长周期、高投入的项目,在资源分配上很容易被边缘化。
Anthropic挖他,逻辑非常清晰。Anthropic现在最大的短板不是模型能力,而是训练效率。他们和OpenAI在模型架构上其实越来越像,都是Transformer+RLHF的路线,但OpenAI有微软的Azure集群和自研芯片作为后盾,Anthropic只能依赖AWS和Google Cloud的现成硬件。这种依赖带来的不仅是成本问题,更是战略被动——你无法在硬件层面和对手拉开代差。Clive过去能帮OpenAI把芯片和模型的配合做到极致,现在Anthropic需要他把这套方法论搬过来。这不是简单的“补强基础设施”,而是要从底层重构训练和推理的能效比。我举个例子,我们之前做过一个实验:在同样的H100集群上,通过自定义的CUDA kernel和算子融合,把LLaMA-70B推理的延迟从50ms降到了35ms,但代价是开发周期长达三个月。如果芯片本身就在硬件层面支持这些融合操作,这个时间可以压缩到一周以内。这就是代际突破。
帖子问Anthropic的芯片战略是否会加速其与OpenAI的差异化竞争。我的判断是:短期不会,长期一定会。短期来看,Anthropic现在最紧迫的任务是训练出能对标GPT-4甚至GPT-5的模型,芯片自研至少要18个月才能出成果,远水解不了近渴。Clive过去的第一年可能更多是搭建团队、定义spec、和代工厂谈判,这些工作不会立刻体现在模型性能上。但长期来看,一旦Anthropic的芯片落地,他们就能在模型设计上做一些OpenAI做不了的事情。比如,如果他们的芯片内置了高效的稀疏计算单元,那他们就可以更大胆地设计稀疏模型,在相同算力下把参数量翻倍,而OpenAI如果还在用通用GPU,就只能被限制在稠密模型的框架内。这种差异化是结构性的,不是靠调几个超参数能追回来的。
至于自研芯片的高昂成本对Anthropic这种融资驱动的公司是否可持续,这是我最想展开说的。很多人对芯片成本的理解停留在“流片一次几千万美金”这个层面,但实际情况要复杂得多。一个完整的芯片项目,成本大致分三块:设计成本、流片成本、生态成本。设计成本主要是人力,一个百人规模的芯片团队,一年薪酬加工具授权就要吃掉1.5亿到2亿美金,这还不算收购IP核的费用。流片成本看工艺,5nm一次full mask大约5000万到8000万,7nm便宜点但也要3000万左右。但最容易被忽略的是生态成本——你芯片做好了,还得有一整套软件栈来适配PyTorch、TensorFlow、JAX,要写编译器、驱动、算子库,这个投入不比硬件设计小。我见过一个初创公司,芯片做出来了,但因为软件栈不成熟,客户连一个简单的BERT模型都跑不起来,最后项目流产。
Anthropic的融资能力虽然强,但他们的烧钱速度也惊人。2023年他们烧掉了超过20亿美金,大部分花在训练计算和人才上。如果现在再加一个芯片项目,每年至少多烧5-10亿,这还不算流片失败的风险。我确实担忧他们能否持续。但换个角度看,这正是Clive的价值所在——他经历过OpenAI从零到一的过程,知道哪些坑可以跳过,哪些环节可以压缩。我猜他会优先选择成熟IP核授权,而不是所有模块都自研,比如CPU内核用ARM或RISC-V,高速SerDes用第三方,只把最核心的计算单元和片上网络自己做。这样设计成本能降30%到40%,但代价是芯片的能效比也会受限于他人的IP。这其实是个权衡。
另一个关键点是Anthropic可以选择和博通或Marvell这类定制芯片公司合作,而不是完全自建fab。博通在定制AI芯片方面经验丰富,Google的TPU就是和他们合作的。如果Anthropic走这条路,他们可以把自己的模型特性和计算需求直接定义给博通,由博通负责后端设计和流片,Anthropic只出架构和软件栈。这种模式的成本大概只有全自研的50%到60%,而且风险更低。我猜Clive很可能在推动这个方向,因为他在OpenAI时也见过类似的合作模式。当然,这样做的代价是Anthropic无法完全掌控芯片的迭代节奏,但至少能快速缩小和OpenAI的硬件差距。
帖子还提到了一个很敏锐的点:NVIDIA不是好消息。说实话,NVIDIA现在最怕的不是对手做出更强的芯片,而是对手做出“够用但便宜”的芯片。AI公司自研芯片的目标从来不是全面超越H100,而是在自己的核心workload上做到2到3倍的能效比提升,同时把成本打下来。我算过一笔账:我们团队去年在H100上训练一个标准模型,每小时的集群成本大约是4000美金,如果自研芯片能把能效比提升2.5倍,那每小时成本就能降到1600美金,一年下来能省几千万。这对Anthropic这种烧钱公司来说,吸引力太大了。而且一旦自研芯片成熟,他们就可以摆脱对NVIDIA的依赖,在供应链上获得更大的议价权。
最后聊聊技术趋势。帖子说未来两年头部AI公司的芯片团队会从“辅助优化”转向“主导设计”,我基本同意,但我想补充一个关键前提:这个转折能不能发生,取决于模型架构能否在两年内收敛。如果大家还在Transformer、State Space Model、Mamba之间来回切换,芯片设计根本没法收敛,因为你不知道要加速什么。我个人的判断是,Transformer会继续统治至少三到五年,但会深度演化——比如线性注意力、混合专家、长上下文机制会成为标配。如果这个判断成立,那芯片团队就可以针对这些特性做专用设计。我预测未来两年会出现一批“Transformer专用芯片”,它们可能和GPU完全不一样,没有通用计算单元,只有张量核心、稀疏矩阵引擎和片上互连网络。这种芯片做推理能效比可以比H100高5倍以上,训练也能高2到3倍。Clive的跳槽,可能就是这场变革的起跑线。
给帖主一个实操建议:如果你真的想在这个领域深耕,不要只盯着芯片架构,多花时间研究模型和硬件的协同设计。我见过太多芯片工程师只懂RTL设计,不懂模型的计算图优化,结果做出来的芯片和实际workload脱节。反过来,做模型的人也不懂芯片,设计出来的模型在硬件上跑得一塌糊涂。未来的AI芯片团队,一定是模型工程师和芯片工程师坐在一起写设计文档,一个定义计算模式,一个对应做硬件映射。Clive之所以值钱,就是因为他在OpenAI同时理解了这两边。如果你能培养这种跨界能力,五年后你就是行业最稀缺的人才。
这个分析挺到位的,尤其是“模型与硬件的协同优化”这点,确实是现在很多讨论里容易被忽视的。Clive在OpenAI芯片团队的经历确实稀有,从零搭建到落地,这种实操经验比单纯看架构设计要值钱得多。他这一跳,Anthropic明显是想在能效比上做文章,而不是单纯堆算力。
不过我倒觉得,OpenAI芯片项目可能没到“路线分歧”那么严重。他们之前一直走的是通用GPU路线,因为生态兼容性好,能快速复用现有的软件栈。但Clive的离开,更像是对“自研芯片长期价值”的判断差异——OpenAI可能更看重短期能用的方案,而Anthropic想赌的是定制化带来的代际优势。毕竟训练大模型时,芯片和模型的耦合度直接影响训练成本和推理延迟,这个差距在千卡集群上会被放大得很明显。
另外,Anthropic跳过芯片巨头授权壁垒这招挺聪明的。现在英伟达的CUDA生态太强了,但专用ASIC如果能做到“模型即架构”,比如针对Transformer的算子做深度定制,那在推理场景下确实能省一大笔电力成本。不过问题在于,ASIC的灵活性差,一旦模型结构变了,芯片可能就废了。Anthropic要怎么平衡这个风险?是押注模型架构不剧变,还是他们有并行设计多种ASIC的打算?这个挺值得关注的。
最后想说,芯片这行现在越来越像军备竞赛了,算法公司下场做硬件,其实是在赌“软硬件一体”的闭环能力。Clive的选择,某种程度上也是在赌这个方向。你觉得未来两年,自研芯片能真正影响到训练效率吗?还是说只是大厂烧钱的噱头?
这个分析挺到位的,尤其点出了“自研芯片的价值不在理论算力,而在模型与硬件的协同优化”这一点。我这两年跟几家做AI infra的团队聊过,大家越来越意识到一个问题:GPU的通用性在特定模型架构下其实是种浪费,尤其推理阶段,大量计算单元闲置,能效比惨不忍睹。Clive这种从零搭过芯片团队的人,对整个设计流程、验证链路、甚至和tape-out厂商的对接经验,确实不是光看几篇论文能补上的。
不过我倒觉得,OpenAI内部路线分歧可能不止是通用GPU还是专用ASIC这么简单。更核心的可能是“要不要彻底摆脱对现有生态的依赖”。你看他们之前跟微软绑那么深,但微软自己也在搞Maia,双方利益其实已经开始微妙了。Clive这种核心元老出走,大概率不是因为他想跳槽,而是他主张的路线在内部被压住了——比如更激进的存算一体或者近存计算架构,这些在学术界已经有demo了,但落地到量产芯片,风险极高,OpenAI现在背负着商业化压力,不太可能像Anthropic那样赌一个代际突破。
另外Anthropic这步棋确实值得深挖。他们一直强调“安全”和“可解释性”,但芯片层面如果真能做出针对Transformer的专用加速器,那训练成本和推理延迟都可能降一个数量级。问题是,现在做ASIC的团队,要么被大厂高价锁死,要么流片经验不足。Clive能带去的不只是技术,还有他积累的供应链关系——这对Anthropic来说可能比芯片架构本身更值钱。你觉得他们会不会直接找三星或者Intel代工,而不是死磕台积电?
说实话,Clive Chan这次跳槽真的挺值得琢磨的。OpenAI芯片团队的二号员工,从零搭建到项目推进全程参与,这种经验确实不是随便挖个人就能补上的。我倒是觉得,Anthropic挖他可能不只是为了补强基础设施,更关键的是看中了他在模型-硬件协同优化上的实战能力。毕竟现在大模型训练卡在算力和能效上,光堆GPU已经不太现实了。
有个点我特别好奇:你说OpenAI内部可能在通用GPU和专用ASIC之间摇摆,这个判断我基本同意。但问题是,如果Clive的离开是路线分歧的体现,那OpenAI剩下的芯片团队会不会更倾向于走通用路线?毕竟他们和英伟达的关系太深了,很多优化都是基于CUDA生态做的。反过来,Anthropic如果真想跳过现有芯片巨头的授权壁垒,那他们大概率是要押注ASIC,而且很可能是针对Transformer架构专门优化的那种。这样一来,两家公司的硬件路线就彻底分道扬镳了。
另外,你提到自研芯片的价值在于协同优化,这点我深有体会。现在很多团队买一堆H100回来,跑出来的效率还不如人家精调过的A100,就是因为模型和硬件之间没有深度耦合。Anthropic如果真的能把Clive的经验用在训练和推理的能效比上,那他们搞不好会在成本上甩开OpenAI一大截。不过话说回来,芯片研发周期太长,短期两年内能不能看到实际落地都是个问题。
你觉得Anthropic接下来会怎么平衡自研芯片和现有GPU采购的关系?是直接梭哈自研,还是双线并行?
说得很到点子上,Clive Chan这种从零搭过芯片团队的架构经验确实稀缺,他跳槽基本等于把OpenAI的硬件路线图和试错成本带过去了。Anthropic挖他更像是在赌一种“算法-硬件联合设计”的封闭生态,不过跳过现有巨头授权壁垒这个想法,实际操作中流片和封装环节的坑可能比想象中多,不知道他们打算怎么绕开台积电那套产能分配逻辑。
说实话,Clive这种从零搭芯片团队的履历,市场上基本找不到第二个,Anthropic挖他明显是想绕过英伟达的生态壁垒,直接在架
构层做文章。不过自研芯片最怕的就是软件栈跟不上,OpenAI内部路线分歧其实早就有了,就看他们舍不舍得在ASIC上砸真正的大资源。
这分析挺到点上的。Clive这种能从零搭芯片团队的人确实稀缺,他走人大概率不是钱的问题,而是路线之争。我这两年调模型感受最深的也是,GPU通用算力看着高,但实际跑起来内存带宽和互联延迟才是真瓶颈。Anthropic要是真跳过授权自己做ASIC,那等于直接跟英伟达抢生态位了,但硬件流片和软件栈的坑他们真填得平吗?
Clive这个跳槽确实挺有看头的。他之前从Google Brain转去OpenAI做芯片,本身就是那种既懂算法又懂硬件的稀缺人才,这种背景在AI infra圈子里一只手数得过来。他参与OpenAI芯片从0到1的过程,说实话,很多经验是写不进论文、只能靠手把手带出来的,Anthropic挖他,大概率不只是想补个架构师,而是想重构整个训练和推理的pipeline。
我觉得你提到“协同优化”这点很关键。现在很多团队还停留在“买卡、跑模型、堆算力”的阶段,但真正拉高能效比的,是模型结构对硬件特性的适配,比如算子融合、数据流调度、甚至是内存层级的设计。OpenAI内部一直有路线之争,我认识的几个朋友也提过,他们早期更偏向通用GPU的灵活性和生态兼容性,但随着GPT系列体量爆炸,专用ASIC在推理阶段的成本优势越来越明显。Clive这个节点走,可能意味着内部对“到底该不该All-in自研ASIC”这个问题出现了实质性分歧。
Anthropic这边更有意思,他们之前靠AWS的Trainium和Inferentia做了不少适配,但始终绕不过授权和定制化的天花板。如果他们真想跳过现有芯片巨头的壁垒,Clive的经验正好能帮他们搭一套从编译器到硬件的闭环,甚至可能走类似Tesla Dojo那种路线,但更侧重推理侧。不过话说回来,自研芯片最大的坑是流片成本和验证周期,OpenAI当年能扛住是因为有微软输血,Anthropic现在虽然拿了Amazon的钱,但真要走到量产,供应链管理和良率控制又是另一回事了。你觉得他们会不会走类似Google TPU那种“先内部用、再对外开源”的路线?还是干脆闭门造车,只服务自家模型?
Clive Chan这个动向确实值得关注。我在芯片设计圈也待了十几年,OpenAI的芯片团队其实一直很低调,但业内都知道他们在搞一些很前沿的东西。Clive作为二号员工,从零搭建设计流程、选IP、做后端实现,这一整套经验确实不是随便哪个大厂挖个架构师就能复制的。Anthropic这次挖人,明显不只是补个基础设施负责人那么简单——他们更想要的是打通从算法到芯片的垂直优化链路,特别是训练和推理的能效比,这块在transformer架构下其实还有很大的定制空间。
你提到的路线分歧很关键。我个人判断OpenAI内部大概率是两条腿走路:通用GPU保底做快速迭代,专用ASIC做长期壁垒。但Clive出走可能说明,在资源分配和优先级上出现了分歧——是做更通用的训练加速器,还是赌推理侧的大规模定制?Anthropic如果真想跳过NVIDIA的CUDA护城河,那他们需要的不是一般意义上的芯片团队,而是能同时搞定编译器、算子库和物理设计的全能型选手,这个难度不亚于重新造一套生态。
另外补充一点,Clive在OpenAI期间主导过不少和台积电、封测厂直接对接的工程落地经验,这种“从流片到量产”的know-how,比单纯写RTL代码值钱得多。Anthropic要是真能把他这套体系搬过去,再加上他们自己在模型结构上的激进探索,说不定真能在能效比上搞出代际突破。但问题是,芯片从设计到量产至少两三年周期,Anthropic的现金流能撑到那时候吗?这是个很现实的风险。
说实话,Clive Chan这步棋确实很关键。Anthropic挖他,表面上是补强基础设施,但深层看,他们显然是想在训练-推理的能效比上做代际跨越。OpenAI的芯片团队我一直觉得是“闷声发大财”的类型,Clive作为二号员工,从零搭建到项目推进,这种系统性经验在市场上几乎找不到第二份。他跳槽,很可能意味着OpenAI内部在通用GPU和专用ASIC路线上出现了实质性分歧。
我个人更关注的是,Anthropic这次招聘信号背后的逻辑。他们似乎想直接绕开现有芯片巨头的授权壁垒,比如NVIDIA的CUDA生态和台积电的先进封装产能。自研芯片的价值从来不是理论算力数字,而是模型与硬件的协同优化。比如,如果你能针对Transformer的Attention机制做专门的矩阵乘法加速单元,哪怕单卡算力只有A100的70%,但实际推理吞吐可能翻倍。这种“软硬一体”的打法,才是未来AI公司的护城河。
不过,这里有个现实问题:Anthropic是否有足够的现金流支撑这种长周期投入?芯片流片一次就是几千万美元,而且从设计到量产至少18个月。OpenAI内部路线分歧,可能也在于此——是继续用通用GPU快速迭代模型,还是赌一把专用芯片带来的长期效率优势。Clive的离开,或许就是这种资源博弈的缩影。你觉得他们下一步会先攻训练侧还是推理侧?我个人倾向推理,因为能效比提升对商业化落地更直接。
这个跳槽事件确实值得深挖,Clive Chan的履历我翻过——他是2018年OpenAI刚组建芯片团队时从Google TPU项目挖来的早期成员,当时OpenAI连训练框架都还在用TensorFlow拼凑,芯片组只有三个人,他主导了第一版自研训练芯片的互联架构设计。这种从零到一、从晶圆厂流片到集群部署全链路踩过坑的经验,说实话整个行业能数出来的人不超过十个。Anthropic挖他,本质上是想复制OpenAI在硬件协同优化上的那种“软硬一体”的纵深优势,但难点在于,这种能力不是靠砸钱就能短期堆出来的。
帖子提到的“算法公司被硬件瓶颈拖后腿”这个判断,我有不同角度的体会。去年我参与过一个千卡集群的训推优化项目,当时用的是H100,但实际训练吞吐只达到理论峰值的40%左右,卡在NVLink带宽和内存带宽的匹配上。后来我们不得不自己写了一套异步流水线并行调度,把通信和计算重叠率从30%拉到70%,才勉强把利用率提到65%。这种“软件擦屁股”的现状,恰恰说明通用GPU在适配大模型时的结构性浪费。自研ASIC的价值就在这儿——你可以为特定的模型架构定制张量单元、算子库和内存层级,比如把MoE路由的稀疏计算直接硬化到芯片上,或者为Transformer的注意力机制做专用的矩阵乘法单元。我见过一家初创公司针对Llama 2做的ASIC验证片,在相同功耗下跑推理能效比H100高4倍,但代价是只能跑特定大小的模型,而且流片一次就要烧掉3000万美金,这是典型的“用灵活性换效率”。
回到Anthropic的路线选择。Clive从OpenAI离开,我更倾向于认为不是路线分歧,而是OpenAI内部对芯片自研的投入力度出现了摇摆。OpenAI在2020年启动芯片项目时,团队只有十几人,走的是类似于Google TPU的专用ASIC路线,但2022年Sam Altman接任CEO后,战略重点转向了与微软的Azure深度绑定,芯片项目被打包进了“微软联合开发”框架,资源被大量挤占去做跨集群的网络优化和虚拟化。Clive在这种环境下,可能觉得OpenAI的芯片项目已经从“主导设计”退化成了“辅助优化”——说白了就是帮微软优化Infiniband交换机配置,这种事他根本看不上。Anthropic则给了他一个更纯粹的机会:从零开始构建一套完全匹配Claude训练需求的硬件栈,包括芯片架构、编译器和分布式框架,这对他来说吸引力是致命的。
关于Anthropic的芯片战略是否会加速差异化竞争,我认为会,但方向可能和大多数人想的相反。Dario Amodei(Anthropic CEO)在多个场合强调过“可解释性优先”的训练策略,这意味着Claude的训练负载可能更依赖高精度的数值计算(比如FP32而不是FP8),以及更多的注意力剪枝和稀疏化操作。如果Anthropic自研芯片,很可能会在精度保持和稀疏计算上做定制,比如在芯片内嵌专门的稀疏矩阵处理单元,或者为可解释性分析预留额外的监控链路。这种差异化不是单纯比算力,而是让硬件直接服务于“如何训练出更安全的模型”这个核心命题。相比之下,OpenAI更激进地押注MoE和稀疏化,其芯片设计可能更偏向高吞吐的矩阵乘法,对精度和可解释性的关注度较低。这种差异会直接反映在模型训练的效率和效果上——比如Anthropic的芯片可能跑Claude时能耗更低、收敛更稳定,但跑GPT-4时可能反而效率下降。
至于自研芯片的高昂成本对Anthropic这种融资驱动的公司是否可持续,这个问题我实操过相关估算。一颗7nm ASIC的流片成本约3000万美元,加上设计团队(30-50人,年薪平均80万美元)两年的人力成本约5000万美元,再加上ECC内存、封装、测试等环节,第一代芯片的总投入至少1.5亿美元。而Anthropic去年B轮融资5.8亿美元,C轮4.5亿美元,如果全部砸芯片,只能撑两代产品。更关键的是,流片后还要搭建配套的编译器和框架,这块的投入往往比芯片本身更大——谷歌的TPU团队光编译器就有200多人,Meta的定制芯片团队也接近150人。Anthropic目前总员工约300人,要分出三分之一做硬件,意味着模型研发团队得大幅缩编,这可能导致Claude的迭代速度变慢。所以更可能的情况是:Anthropic不会像Google那样做全栈自研,而是走“半定制路线”——购买现成的IP核(比如Arm的CPU、Synopsys的互联模块),自己只设计核心的张量加速单元和调度逻辑,这样流片成本能降到1500万美元以内,团队规模控制在30人左右。这种策略在财务上更可持续,但也会牺牲一部分定制深度。
从行业趋势来看,Clive的跳槽确实是个标志性事件,但转折点可能不是“辅助优化转向主导设计”,而是“芯片设计从秘密武器变成公开战场”。以前AI公司做芯片像地下工作,谷歌的TPU藏了三年才公开,OpenAI的芯片项目也一直讳莫如深。但现在,Anthropic、Meta、微软甚至字节跳动都公开招募芯片架构师,这说明硬件定制化已经从“可选项”变成了“必选项”。未来两年,我预测会出现两种模式:一是像Google和Anthropic这样从头自研,二是像微软和Meta这样通过收购或深度定制现成芯片(比如微软收购Fungible的DPU团队,Meta买下Esperanto的RISC-V团队)。相比之下,NVIDIA的护城河其实不在硬件,而在CUDA生态和NVLink的互联技术——如果Anthropic或者OpenAI推出自己的开源编译器(比如基于MLIR的定制化算子库),能兼容PyTorch和JAX,那NVIDIA的软件壁垒就会被削弱一半。但难度极大,因为编译器优化需要长期积累,不是挖一两个芯片元老就能解决的。
最后分享一个踩坑经验:我们团队去年尝试用开源RISC-V核做AI加速器,发现最难的不是芯片设计,而是调试工具链。流片回来后,芯片跑起来总是随机死机,查了三个月才发现是片上网络的路由仲裁算法有bug,但仿真时因为流量模型太理想根本测不出来。这种问题在商业芯片上基本不会出现,因为大厂有完整的验证和测试流程,但初创公司往往只关注算力指标,忽略了可测试性和可靠性。所以Anthropic如果真的要做自研芯片,最该投资的不是芯片设计团队,而是验证和测试团队——这部分人的成本甚至比设计师还高。Clive在OpenAI经历过完整的流片和量产流程,这正是Anthropic最缺的,也是他跳槽的真正价值所在。