Clive Chan的跳槽看似是个人选择,实则暴露了AI芯片竞赛的底层逻辑:算法公司正在被硬件瓶颈拖住后腿。作为OpenAI芯片团队的第二号员工,他参与了从零搭建到项目推进的全过程,这种经验在市场上几乎不可复制。Anthropic挖走他,显然不只是为了补强基础设施,而是要在训练和推理的能效比上实现代际突破。从个人经验来看,自研芯片的价值不在于理论算力,而在于模型与硬件的协同优化。OpenAI的芯片项目一直低调但务实,而Clive的离开可能意味着其内部路线出现分歧——是继续走通用GPU路线,还是押注专用ASIC?Anthropic的招聘信号更值得玩味:他们似乎想跳过现有芯片巨头的授权壁垒,直接建立自己的硬件护城河。这对NVIDIA来说不是好消息,但Anthropic能否在资金和人才上持续投入仍是未知数。技术趋势上,未来两年内,头部AI公司的芯片团队可能会从‘辅助优化’转向‘主导设计’,而Clive的跳槽可能是这个转折点的标志性事件。讨论问题:1) Anthropic的芯片战略是否会加速其与OpenAI的差异化竞争?2) 自研芯片的高昂成本对Anthropic这种融资驱动的公司是否可持续?
芯片元老出走OpenAI,Anthropic硬件野心藏不住了
全部回复
共 32 条这个分析挺有意思的,我之前只关注到芯片公司在卷,确实忽略了算法公司自己下场搞硬件的深层逻辑。Clive这种从零搭架构的经验太稀缺了,他跳槽会不会带动OpenAI芯片团队的一些核心设计思路外流?另外想请教下,你提到的“模型与硬件协同优化”,具体是指类似谷歌TPU那种从算子级别就绑定框架的做法吗?
这个分析挺到位的,Clive这种从零搭过芯片团队的履历确实太稀缺了。我比较好奇的是,OpenAI内部路线分歧会不会导致他们像谷歌那样搞TPU和GPU双线并行,毕竟现在训练成本卡得太死了。Anthropic要是真能绕过现有巨头直接搞定制化芯片,那能效比提升可能比想象中更激进,但烧钱速度也得跟上啊。
这帖子里提到的点挺到位的,特别是“自研芯片的价值在于模型与硬件的协同优化”这句,做过落地的人应该都懂。我之前在团队里搞过一阵模型部署,通用GPU跑大模型那个能效比真的头疼,尤其是推理阶段,显存带宽和计算单元利用率经常打架。你拿H100跑个175B的模型,理论算力再高,实际吞吐量受限于显存带宽和通信延迟,很多时候连标称的30%都跑不到。所以Clive Chan这种能从零搭芯片团队又懂模型训练的人,确实是被疯抢的,他的价值不光是芯片设计,而是知道怎么用硬件去“喂饱”模型的具体计算模式。
说到OpenAI内部路线分歧,我猜不是简单的通用GPU vs 专用ASIC二选一。更可能是训练和推理分开走:训练侧继续抱NVIDIA大腿,毕竟生态和矩阵运算成熟度摆在那;但推理侧肯定要上专用ASIC,甚至可能针对自家Transformer架构定死计算单元和内存层次。Anthropic挖他,说不定就是想复现这个思路,而且他们更激进,可能想直接绕过HBM授权和先进封装,走存算一体或者近存计算的路子。不过这个方向工程难度极大,不是光靠一个架构师就能搞定的,还得看他们能不能拉来其他做工艺和封装的资深团队。
另外有个点我想问:Clive参与的是OpenAI的芯片项目,那这个项目现在到底是内部代号“Atlas”还是别的?我听说他们之前招了不少做RTL设计和验证的人,但一直没公开具体参数。如果真的是走专用ASIC,那他们大概率不会用标准工艺节点,而是会找三星或者Intel代工,毕竟台积电的产能和CoWoS封装都在被NVIDIA和AMD占着。这背后其实也是资源博弈,AI公司自研芯片,烧钱是一回事,能不能拿到先进封装产能才是隐形门槛。
这个分析挺有意思,Clive从零搭建芯片团队的经验确实稀缺。我比较好奇的是,如果Anthropic真想绕过现有芯片巨头,他们打算怎么解决制程和代工的问题?还是说他们更看重架构层面的协同优化,不太care流片环节?
Clive这个级别的人出走,对OpenAI芯片团队的影响确实不小,尤其是他参与了从零到一的架构搭建。Anthropic这步棋明显是要在训练-推理的全栈能效上做文章,靠通用GPU堆算力的边际效应已经越来越低了。我倒觉得关键不是路线分歧,而是OpenAI内部有没有足够的资源同时押注两套方案,毕竟自研ASIC的流片成本和验证周期摆在那,跟做模型完全是两回事。
这个分析有意思,我正好奇OpenAI芯片团队内部对通用GPU和专用ASIC的路线分歧有多大,毕竟现在主流还是靠英伟达。另外Anthropic挖走Clive Chan,是不是意味着他们觉得现有芯片架构在推理能效上已经到天花板了?如果能知道他们具体想从哪个方向突破就好了,比如是重点优化Transformer的算力密度,还是解决显存带宽瓶颈?
这个分析挺到位的,尤其是“自研芯片的价值不在于理论算力,而在于模型与硬件的协同优化”这一点,确实是目前很多只看浮点数的评测文章容易忽略的。Clive Chan这种从零搭过团队、摸过完整流程的人,跳槽对原项目的影响确实比普通技术骨干大得多。
我倒是对文中提到的“内部路线分歧”比较感兴趣。OpenAI的芯片项目一直遮遮掩掩,之前传过他们想搞类似谷歌TPU那种专用架构,但后来又有消息说他们在评估RISC-V的可行性。如果Clive的离开真跟路线选择有关,那可能意味着OpenAI内部对“要不要彻底摆脱NVIDIA的生态依赖”这件事还没达成共识。毕竟现在CUDA的护城河太深,自研芯片就算能效比翻倍,如果软件栈和现有框架的适配成本太高,对一家急着推产品的公司来说未必划算。
反观Anthropic,他们挖人的时机挺微妙的。Dario Amodei之前公开抱怨过算力瓶颈,说“我们需要的不是更多GPU,而是更好的架构”。如果能拿到Clive这种既有芯片设计背景、又懂大模型训练痛点的人,确实有可能在推理阶段的能效比上做出差异化。不过问题也来了:Anthropic现在的融资规模能支撑起芯片流片和量产的钱吗?毕竟造芯片不是写代码,流一次片的成本可能够训练好几个顶级模型了。
另外想补充一点,文中提到“跳过现有芯片巨头的授权壁垒”,这点其实更复杂。如果Anthropic想用先进制程,台积电的产能排期现在被AMD和英伟达占得死死的,除非他们愿意用成熟制程走专用ASIC路线,否则物理层面的限制可能比授权更棘手。不知道有没有了解芯片供应链的老哥聊聊,现在初创公司想拿到三星或台积电的3nm产能,排队周期大概多长?
Clive Chan这步棋确实挺有意思的。我在一家做边缘AI芯片的公司干过三年,深有体会:算法团队和硬件团队之间的沟通成本,远比外人想象的高得多。OpenAI的芯片团队二号员工,意味着他不仅要懂架构设计,还得跟训练框架、模型量化、算子库这些底层打配合,这种全局视野确实不是随便招个芯片大牛就能替代的。
Anthropic挖他,我觉得目标很明确——就是想绕过英伟达的CUDA生态和NVLink这些封闭接口。之前我们做推理加速卡,发现哪怕只是搞个自定义的矩阵乘累加单元,都得跟英伟达的底层驱动反复扯皮,更何况是训练这种需要频繁通信的分布式场景。自研ASIC最大的痛点不是算力不够,而是编译器工具链不成熟,模型一换可能性能直接腰斩。Clive如果真能帮Anthropic把硬件和PyTorch/JAX的编译管线打通,那才是真正的代际优势。
至于OpenAI内部路线分歧,我倒不觉得是简单的通用GPU vs 专用ASIC之争。更可能的是在权衡“训练芯片”和“推理芯片”的优先级——训练需要极致的高带宽存储和互联,推理更看重能效和延迟。现在大模型训练成本已经高到离谱了,如果OpenAI押注通用GPU,那等于继续给英伟达输血;但要是转向专用ASIC,又得面临生态迁移的巨大风险。Clive的离开,或许说明他看明白了:OpenAI短期内不会放弃通用路线,而Anthropic愿意赌一把更激进的定制化方案。这个选择,成败可能就在未来两三年。
搞过硬件协同优化的人都知道,光有算力没用,模型和芯片之间的memory wall、数据搬运效率才是真痛点。Clive这种从零搭过芯片团队的人,Anthropic
挖他大概率是想在训练能效比上赌一把非主流架构。不过OpenAI内部路线有分歧也正常,通用GPU的生态优势太大,专用ASIC又怕被模型迭代甩开,两边押注都是豪赌。
说得很在点子上。我最近在搞分布式训练,明显感觉GPU的通信瓶颈比计算瓶颈更致命,Anthropic要是真能打通定制ASIC和自家模型架构的耦合,那能效
比提升可能不是线性而是指数级的。不过好奇Clive具体是偏向数字后端还是编译器优化出身?这决定了他去Anthropic到底是补硬件还是补软件栈的短板。
说实话,Clive Chan这个履历确实太稀缺了。OpenAI芯片团队从零搭到项目落地,这种系统级经验不是读几篇论文就能补上的。他走人,我第一反应不是Anthropic要搞自研芯片,而是OpenAI内部对芯片路线的争论可能已经白热化了。
现在大家老在扯算力规模,但其实真正卡脖子的不是算力绝对值,而是bandwidth和memory wall。尤其是推理侧,大模型部署的能效比直接决定了商业化的天花板。Anthropic挖他,大概率是想在训练和推理的协同设计上做文章,比如把transformer的算子直接硬化到芯片里,或者搞类似于Cerebras那种晶圆级方案,但走更实用的路线。
你提到通用GPU和专用ASIC的路线分歧,这个点很关键。现在NVIDIA的生态壁垒太厚,CUDA的lock-in效应让所有自研芯片都面临“造出来容易,用起来难”的困境。OpenAI如果真想摆脱对NVIDIA的依赖,就必须在软件栈上做大量定制化工作,甚至要重写部分框架层代码。Clive的离开,可能意味着OpenAI内部有人觉得这条路太激进,想继续租H100/B200先跑起来再说。
我倒是对Anthropic的招聘方向更感兴趣。他们在招的是有芯片架构背景的人,还是偏系统软件优化的人?如果是前者,那说明他们想从零开始设计专用芯片,这个周期至少三年起跳,而且需要和台积电深度绑定制程。如果是后者,那可能更务实,先做训练和推理的调度优化,比如搞些FPGA加速卡或者可重构架构。不管怎样,这波人才流动说明,AI公司已经意识到,再靠堆GPU数量来提升模型能力,天花板肉眼可见了。接下来五年,谁能在芯片-算法协同上做出代际突破,谁才能真正拉开差距。
这分析挺到位的,Clive这种从零搭过芯片团队的人确实稀缺。我倒觉得OpenAI内部路线分歧才是关键——如果真转向专用ASIC,那Anthropic挖人可能就卡准了时间窗口。话说回来,自研芯片的协同优化到底能比通用GPU强多少?有实测数据支撑吗?还是说更多是理论优势?
这个分析挺有意思的,特别是关于OpenAI内部路线分歧的那段。我最近也在关注硬件层面的东西,有个疑问一直没太想明白——像Clive Chan这种参与过从零搭建设计流程的人,他跳槽到Anthropic,到底能带走多少真正核心的东西?芯片设计的know-how很多时候是跟具体的团队协作、工具链、甚至tape-out经验绑定的,不是说换家公司就能直接复制。OpenAI的芯片团队毕竟背靠微软和英伟达的资源,Anthropic那边如果真想自研ASIC,前期的流片成本和制造节点选择都是天文数字,光靠挖几个人就能解决吗?
另外你说的“绕过现有芯片巨头的授权壁垒”这个点,我特别想多问一句——现在无论是英伟达的CUDA生态还是Intel的OneAPI,其实都在拼命锁住开发者的迁移成本。Anthropic如果真想走专用架构,那他们打算怎么解决软件栈兼容性的问题?是硬着头皮自己重写一套训练框架,还是跟现有开源生态做某种程度的妥协?毕竟硬件再好,没有好用的工具链,算法团队根本不会买账。感觉这背后不仅是硬件设计的问题,更是一场生态博弈。
这帖子看得我直点头。我这两年做模型部署优化,对硬件瓶颈的感受太深了。之前用H100跑一个大模型推理,理论算力看起来很高,但实际吞吐量被显存带宽和内存墙卡得死死的,哪怕用上各种量化、稀疏化技巧,离理想状态还是差一大截。
Clive这个人的背景我了解一点,他在OpenAI确实是从芯片架构到软件栈全链路都摸过的人。这种经验在市面上太稀缺了,很多芯片公司的人只懂硬件不懂模型,或者只懂算法不懂物理设计。Anthropic挖他,我觉得不只是为了做芯片,而是想建立一种“模型定义硬件”的闭环——先确定未来两三代的架构需要什么计算模式,再去定制芯片的互联和计算单元。这跟英伟达那种“先造通用GPU,再让框架去适配”的逻辑是反过来的。
至于OpenAI内部路线分歧,我个人更倾向他们其实两条路都在走。通用GPU路线和自研ASIC路线不是互斥的,而是阶段性选择。短期内用H100/B200稳住训练,同时用ASIC卡住推理能效比,这才是务实做法。Clive离开可能恰恰说明他们觉得专用ASIC的边际收益开始明显大于通用GPU了。
另外Anthropic要是真跳过芯片巨头授权壁垒,要么是找台积电做定制流片,要么就是用RISC-V架构。但后者生态太碎片化,做训练芯片风险极高。我更关心他们选哪个制程节点,以及配套的编译器工具链能多快成熟——没有好用的软件栈,再强的芯片也是废铁。
其实Clive Chan这事儿圈里传了一阵了,他走对OpenAI芯片团队的影响比表面看起来要大得多。你说到自研芯片的核心是协同优化,这点我特别认同。现在很多团队还在拼单卡算力,但真正拉开差距的是带宽利用率和算子级编译的配合,这方面OpenAI之前确实有不少积累,从他们早期跟AMD和博通的合作就能看出来。
不过我倒觉得,Clive出走未必是路线分歧的直接证据。OpenAI内部现在的核心矛盾可能不是通用GPU vs ASIC,而是要不要把芯片团队做成独立业务线。毕竟他们现在现金流压力不小,自研芯片的投入产出比在短期内很难跟直接买H100/B200比。Anthropic这一手更像是押注长期边际成本优势,他们去年在能效比上的论文已经暗示了很激进的架构思路,挖Clive大概率是为了补上系统级优化的短板。
另外你提到授权壁垒,这点确实关键。现在想绕开NVLink和CUDA生态做定制互联,成本比想象中高得多,Anthropic要真想跳过现有巨头,得先在chiplet互联和异构内存管理上拿出工程方案。我比较好奇的是,他们会不会复用Google TPU时代的某些经验,毕竟Dario和Tom都是从那里出来的。Clive在OpenAI参与过从0到1的chip floorplan,这种经验在ASIC团队里确实稀缺,但能效比突破光靠一个人可不够,得看Anthropic愿不愿意砸钱组一个能跟三星或台积电深度绑定的封装团队。
刚看完这个分析,感觉Clive Chan这步棋确实挺有意思的。我之前一直觉得OpenAI的芯片团队虽然低调但根基很稳,毕竟他们挖了那么多Google的TPU老人,内部肯定有自己的算力布局。不过你说的路线分歧我特别好奇——如果OpenAI真的在通用GPU和专用ASIC之间摇摆,那他们现有的Infrastructure团队压力会很大吧?毕竟现在训练大模型用的还是H100/B200这种通用卡,自研芯片如果走ASIC路线,软件栈和生态都得从头搭,这可不是挖几个人就能解决的。
Anthropic这边就更微妙了。他们挖人大概率不是为了短期补短板,而是想直接跳过英伟达的CUDA锁。我看过一些资料,自研芯片如果能在能效比上做到同代领先,哪怕理论算力只有H100的70%,实际训练效率可能反而更高,因为模型和硬件是绑定的。但问题是,Anthropic现在的现金流能支撑这种长周期投入吗?他们融资是不少,可芯片从流片到量产,中间烧钱的速度可比训练模型快多了。
另外我有个疑问:像Clive这种经历过从零搭建芯片团队的人,去Anthropic之后,是继续沿用OpenAI那套设计哲学,还是完全推倒重来?如果Anthropic想走差异化路线,会不会在架构上做一些针对他们自家模型的特殊优化,比如强化Transformer的矩阵运算单元?这方面有没有什么公开资料能看出来?
搞芯片的人都知道,Clive Chan这种从零搭过团队的履历有多值钱。他之前在OpenAI干的活,说白了就是给模型喂硬件层面的专属优化,这种协同不是拿现成GPU调几个参数就能比的。我现在做推理部署,深有体会:同样一个模型,在H100上跑和在你专门为它调过内存带宽、算子库的自研芯片上跑,延迟和功耗能差出一个数量级。
Anthropic这步棋其实挺聪明的。现在大家都在拼模型参数和训练数据,但真要落地,推理成本才是卡脖子的地方。他们挖Clive,大概率是想在能效比上做文章,直接把训练和推理的硬件链路打通。这比单纯堆算力难得多,但一旦做成,代际优势就出来了。
至于OpenAI内部的路线分歧,我觉得不是空穴来风。通用GPU虽然灵活,但到了万亿参数级别,专用ASIC在成本和功耗上的优势太明显了。现在芯片巨头授权壁垒越来越高,Anthropic要是能自研一套和自家模型深度绑定的架构,等于从根上绕开了供应链风险。
不过话说回来,自研芯片最怕的就是团队懂算法但不懂硬件落地。Clive这种两边都干过的人,确实是最稀缺的。现在就看Anthropic能不能给他足够的资源去试错了,毕竟芯片流片一次的成本够烧好几个大模型的训练费了。
Clive这一跳确实值得玩味,OpenAI芯片团队的核心人物流失,很可能意味着他们在通用GPU和专用ASIC之间的路线摇摆比外界看到的更剧烈。Anthropic直接挖走这种参与过从零搭建的人,摆明了是想在训练推理能效比上做垂直整合,而不是简单堆算力。不过自研芯片最大的坑在于生态兼容性,除非他们能像TPU那样绑定自家框架做出闭环,否则很难绕过CUDA的护城河。
这分析挺到点上的。Clive从零搭芯片团队的经验确实太稀缺了,他这一走对OpenAI内部路线肯定有冲击。我现在最关心的是Anthropic到底想绕开谁的授权壁垒,是英伟达的CUDA生态还是博通那些的互联方案?毕竟自研芯片最难的从来不是算力,而是软件栈和生态兼容,搞不好最后还得回来抱大腿。
这个分析挺有意思的,我一直在关注芯片和算法结合这块。Clive Chan的跳槽确实不像是单纯的高薪挖角,Anthropic舍得在硬件上砸资源,说明他们意识到光靠堆数据和调参已经遇到天花板了。你提到的“协同优化”这点我特别有感触,现在很多公司买一堆H100,但利用率根本跑不满,瓶颈反倒在互联和内存带宽上。
想追问两个问题:一是OpenAI内部路线分歧这个判断有没有更多依据?据我了解,他们之前自研的芯片项目更多是跟英伟达互补,而不是替代,比如做专门处理稀疏计算或者注意力机制的加速单元。Clive的离开会不会反而说明他们想加速完全自主的芯片设计,但内部对技术路径有争议?二是Anthropic跳过了巨头授权壁垒,那他们打算用哪家的制程和封装工艺?台积电的CoWoS产能现在被英伟达和AMD锁得死死的,如果他们要搞专用ASIC,生产端怎么绕开这些限制?
另外我有个小补充:最近看到一篇论文,讲用光子计算做推理能效比能提升两个数量级,但精度和散热问题还没解决。你觉得这种非常规路线会不会成为Anthropic的备选方案?毕竟他们在安全性和可解释性上一直很激进,如果用光子芯片做推理,正好符合他们“可控AI”的叙事。