Alphabet这波800亿美元融资,伯克希尔·哈撒韦的100亿入场尤其值得玩味。作为一线工程师,我过去两年深度参与过多个大模型部署项目,最直观的感受是:算力成本正从‘买显卡’转向‘建电厂’。这笔资金主攻数据中心,意味着谷歌可能押注液冷、分布式存储等基础设施升级,而非单纯堆GPU。个人经验是,当前AI落地瓶颈往往不在模型精度,而在推理延迟和能耗比——比如我们团队曾因单次推理耗电过高被迫砍掉实时生成功能。值得讨论的是:1)这笔资金会优先投入自研TPU生态,还是兼容NVIDIA的混合架构?2)传统资本(如伯克希尔)入局后,会不会倒逼AI项目更注重ROI,而非一味追求参数规模?从行业看,这标志着算力基建正从‘公司级’升级为‘国家级’竞争,中小团队若不能借力云服务,可能加速被边缘化。
800亿砸向AI基建,谷歌的算力军备竞赛胜算几何?
全部回复
共 37 条TPU生态这块深有同感,我们试过在TPU上跑一些非标准算子,适配成本比想象中高,如果谷歌真砸钱把工具链和社区做起来,对中小团队会友好很多。伯克希尔进场可能意味着未来AI项目立项要算“每瓦特能出多少有效推理”,而不是比谁参数量大,这对做落地的团队反而是好事,至少能少卷点PPT参数。
同感,算力成本从“买显卡”转向“建电厂”这点太真实了。去年我们公司上线一个对话式AI客服,前期模型精度调得挺好,结果一上线发现单次推理延迟高到离谱,一查发现是数据中心供电和散热跟不上,被迫降级成异步处理,用户体验直接打折扣。你提到的液冷和分布式存储,我接触过的几个项目里,液冷方案初期投入确实大,但长期摊下来能耗比能拉低30%以上,尤其对TPU这种高密度芯片来说,散热瓶颈甚至比算力瓶颈更致命。
关于自研TPU还是兼容NVIDIA,我倾向谷歌会走混合路线。TPU在自家生态里确实有成本优势,但NVIDIA的CUDA生态太成熟了,很多第三方框架和调优工具都是基于它开发的,完全割裂不现实。我猜谷歌会拿这笔钱重点升级数据中心间的互联带宽和存储架构,毕竟分布式训练时,节点间通信延迟往往是隐藏的坑,我们团队就踩过跨机柜网络带宽不够导致训练效率打对折的雷。
伯克希尔入局这点,其实挺有意思。传统资本进场,大概率会逼着项目组多做“减法”——以前我们敢为了刷榜盲目堆参数量,现在老板开会第一句就是“这个模型能赚回电费吗?” 但我觉得这对行业未必是坏事,反而能倒逼大家更关注推理优化和模型压缩,比如量化、剪枝这些技术,之前喊了几年落地难,现在ROI压力下反而可能加速成熟。不过也有隐忧,如果资本过于追求短期回报,会不会把一些长期基础研究项目挤掉?比如稀疏计算或者新型存算一体架构这些,研发周期长但可能颠覆能效比的,希望谷歌能平衡好。
这帖子看得我直拍大腿,尤其是“算力成本从买显卡转向建电厂”这个观察,太真实了。我们组去年搞过一个边缘端部署项目,最后卡死的点根本不是模型准确率,而是推理时功耗压不下来,客户机房空调直接拉爆。谷歌这波800亿砸向液冷和分布式存储,说实话比单纯堆H100要务实得多,毕竟现在单卡功耗奔着700W去,传统风冷方案在千卡集群里根本是杯水车薪。
关于你提的第一点,我个人更倾向谷歌会优先推TPU生态,但不会完全切断和NVIDIA的合作。道理很简单,TPU在自家框架下做推理优化确实香,尤其针对Transformer类的算子融合,能省不少延迟。但NVIDIA的CUDA生态太深了,很多新论文的算法实现还是先做在英伟达卡上,谷歌要是完全闭门造车,容易跟不上前沿实验节奏。大概率是TPU跑成熟业务线,NVIDIA卡留作研究型负载。
第二点想多聊几句。伯克希尔入场这个信号挺微妙的,巴菲特的钱历来厌恶不确定性。这会不会倒逼AI项目从“模型越大越好”转向“每单位算力产出多少有效token”?我其实有点担心,短期ROI压力下,很多需要长期探索的基础研究(比如稀疏计算、新架构)可能会被砍预算,大家全去卷那些能快速变现的垂直场景。不过换个角度,这波传统资本进来,至少能治一治当年“融资烧钱堆参数”的虚火,让行业更清醒地思考:到底哪些场景的落地能覆盖掉电费?
看完这个帖子真的挺有共鸣的,尤其是“算力成本从买显卡转向建电厂”这个观察,太真实了。我之前做边缘端模型部署时也遇到过类似问题,模型精度调得再高,一上设备就因功耗和延迟被卡脖子,最后只能砍功能降级处理。所以看到谷歌这800亿砸向数据中心基础建设,我第一反应是——他们是不是想从根上解决推理阶段的能耗瓶颈?毕竟现在很多场景不是跑不动模型,是跑不起。
关于你说的两个讨论点,我更想追问第一个:自研TPU还是兼容NVIDIA混合架构?我个人的困惑是,如果谷歌继续押注TPU生态,那现在市面上主流的CUDA生态工具链怎么办?很多开发者已经习惯了NVIDIA的框架和库,迁移成本不低。除非谷歌能拿出比H100更明显的能效优势,否则光靠资本砸基础设施,可能还是很难撼动NVIDIA的生态护城河。不知道你参与的项目里,有没有实际测试过TPU在推理延迟和能耗上的对比数据?我特别好奇它在小批量、高并发场景下的真实表现。
另外,伯克希尔入场这个信号,确实让人联想到AI项目可能要从“炫技”转向“算账”了。我见过太多团队为了刷参数规模,烧钱堆卡却产出不了可落地的应用。你觉得这种资本介入,会不会让行业更倾向于低精度的量化模型或者高效架构(比如MoE)?毕竟ROI压力下,谁都不想再当冤大头了。
同感,算力从“买卡”到“建电厂”这个转变很关键。我这边团队跑千亿参数模型时,发现液冷和分布式存储的瓶颈比GPU算力本身更突出。伯克希尔入场确实会推高ROI考核标准,毕竟资本不是来做慈善的。不过我更关心谷歌会不会借这波彻底押注TPU生态,毕竟自家芯片和N卡混搭的运维复杂度真不是闹着玩的。
液冷这块我踩过坑,单机柜功率密度超过30kW风冷基本就压不住了,谷歌要是真上TPU v6或者Marvell的定制芯片,液冷管线得重新走线,这钱比买GPU还烧。伯克希尔进来其实是个信号,以后AI项目立项肯定得先拉能耗账单,纯堆参数量那种玩法融资会越来越难。
看到这篇帖子,我很有共鸣。你提到的“算力成本从买显卡转向建电厂”这个观察,我过去两年在带团队做推理集群优化时感受尤其深。我们去年年中接手过一个金融领域的实时风控项目,对方要求对每笔交易做毫秒级的LLM推理,模型本身是微调过的7B参数规模,理论上延迟能压到200ms以内。但真正跑起来才发现,单卡A100的功耗在持续推理下直接飙到400W+,加上散热和网络开销,单次推理的综合能耗成本比传统规则模型高了将近两个数量级。最后我们不得不砍掉实时流,改成准实时批处理,模型精度再高也架不住电费账单——这个例子正好对应你提到的“推理延迟和能耗比才是瓶颈”。
关于你提出的两个问题,我分别展开聊聊。第一个,这笔资金会优先投入自研TPU生态还是兼容NVIDIA混合架构。我个人的判断是,谷歌大概率会走“TPU为主、NVIDIA为辅”的双轨制,但短期内TPU的生态短板会是一个很大的坑。我们团队去年在GCP上做过一个对比测试:把同一个Llama-3微调任务分别跑在TPU v5p和H100集群上。TPU在矩阵乘法上的浮点吞吐确实碾压H100,峰值FLOPS高出30%左右,但一旦涉及到动态shape或者稀疏计算(比如MoE模型里常见的门控网络),TPU的编译器和运行时优化就明显跟不上。具体来说,TPU的XLA编译器对动态shape的支持非常差,稍微复杂一点的控制流就会触发recompilation,导致实际训练吞吐下降40%以上。而NVIDIA的TensorRT-LLM和vLLM在动态批处理和KV cache管理上已经相当成熟,我们实测在同样推理负载下,H100的端到端吞吐比TPU v5p高出约15%,且延迟抖动更小。所以我认为谷歌的800亿美元不会全砸在TPU上,更可能的是用自研芯片打广告牌,但真正承载核心生产负载的,还是会保留大量NVIDIA兼容的混合架构。从工程角度看,一个可行的方案是:用TPU做预训练阶段的密集矩阵运算,用NVIDIA GPU做推理和微调阶段的高灵活度任务,中间通过高效的RDMA网络做数据流转。
第二个问题,传统资本入局后会不会倒逼AI项目更注重ROI。这一点我深有体会。我所在的团队去年做了一个“AI Agent”项目,当时为了刷榜单参数,硬是把模型从7B堆到70B,结果推理成本翻了10倍,但实际业务场景下的准确率只提升了3个点。后来复盘发现,70B模型在长尾意图识别上的增益,完全被推理延迟增加带来的用户流失抵消了。这种“为了参数而参数”的军备竞赛,在资本压力下会越来越难走通。伯克希尔这种传统资本进场,意味着他们不会容忍“烧钱换流量”的玩法。我预计未来12-18个月,AI项目的评估标准会从“模型精度”转向“单位成本下的业务收益”,比如每美元推理成本带来的客户转化率、每TFLOP算力对应的用户留存提升等。具体到技术方案上,我们最近在实践的一种做法是:在模型部署前,先用小规模ab test跑一个“性价比曲线”——横轴是模型参数量,纵轴是单位算力成本下的关键业务指标(比如点击率或转化率)。通常你会发现,曲线在某个参数量节点之后会进入饱和区,再往上堆参数就是边际负收益。这个节点就是最优部署选择,而不是盲目追大。我建议所有做AI落地的团队,都应该把这个性价比曲线作为立项的必经环节。
另外,你提到的“国家级竞争”我也非常认同。我们去年参与过国内某城市的一个智慧交通项目,对方要求用大模型做实时车流预测。一开始我们想用自建集群,但算了一遍成本发现,单是数据中心的一次性基建投入就占项目预算的60%以上,而且后期运维团队根本招不到人。最后我们选择了接入阿里云的PAI平台,用他们的弹性训练和推理服务,虽然单次调用成本比自己建集群高约15%,但省掉了硬件折旧和运维的人力成本,整体TCO反而低了30%。这个例子说明,中小团队如果不借力云服务,确实会被边缘化。但反过来,云服务商之间的竞争也会加速算力基建的标准化。比如现在AWS、Azure和GCP都在推“AI工厂”模式,把GPU、TPU、算力调度、模型仓库打包成按需服务。我预测未来两年,会出现类似“Hugging Face+云原生”的编排层,让中小团队可以像写SQL一样定义推理任务,底层自动做弹性伸缩和成本优化。
最后补充一点实操经验。如果你团队正在规划算力基建,我建议优先做三件事:第一,对自己的推理负载做profiling,区分出“计算密集型”和“访存密集型”任务。我们团队用NVIDIA的Nsight Systems工具分析后发现,在LLM推理中,访存瓶颈(比如KV cache的显存带宽)往往比计算瓶颈更致命。第二,针对访存密集型任务,可以尝试量化模型,比如FP16转INT8,我们实测在loss小于0.5%的前提下,推理吞吐提升了2.3倍,显存占用降低50%以上。第三,如果预算有限,可以考虑混训策略——用廉价CPU或边缘设备分担一些非实时推理任务,比如用户画像批处理,这样能释放宝贵的GPU资源给核心实时业务。我们去年把一个推荐系统的A/B测试任务从GPU迁移到AMD的EPYC CPU上,利用AVX-512指令集做向量化计算,延迟只增加了20%,但成本降低了70%。这种“用架构设计换成本”的思路,在资本要求ROI的环境下会越来越重要。
总的来说,帖子里的观点我基本都认同,但想补充一点:算力军备竞赛的本质不是比谁买了更多显卡,而是比谁能用更低的能耗和成本,把模型跑出实际业务价值。谷歌的800亿如果只是用来堆硬件,那大概率会变成第二个“自动驾驶寒冬”;但如果能同时砸向编译器优化、分布式调度和模型量化等工程层面,才可能真正拉开差距。作为一线工程师,我们更期待的是“能用得起”的算力,而不是“跑得快”的算力。
这段分析太到位了,尤其“买显卡→建电厂”这个转变太真实。我之前在边缘端做模型裁剪,功耗砍一半性能掉三成,谷歌要是真能把液冷和分布式存储铺开,推理延迟可能直接降一个量级。不过我倒好奇,800亿砸下去,谷歌会不会在自研TPU和兼容英伟达之间搞个混合方案?毕竟伯克希尔进场,ROI压力肯定不小,以后搞大模型可能先得算清电费账了。
看了你的分析挺有共鸣的,尤其是算力消耗那块儿。我们之前调一个视觉模型,单次推理功耗高到离谱,最后硬是砍了一半的分辨率才上线,现在想想都心疼电费。
关于你提的两个问题,我特别想追问一下:如果谷歌真押注自研TPU生态,那对于像我这种还在用PyTorch + CUDA栈的小团队来说,迁移成本会不会高得吓人?还是说他们可能会搞一套类似ONNX的中间表示层来兼容?毕竟现在很多新框架比如JAX虽然好,但生产环境里能熟练跑起来的人太少了。
另外,传统资本进场逼着看ROI,这点我深有感触。之前我们老板就说“模型参数涨10倍,营收能不能也涨10倍?”结果发现根本算不过来账。现在好多项目为了融资,都在包装“降本增效”的故事,但实际把推理延迟压下来、把能效比提上去,比刷榜难多了。你觉得伯克希尔那种长期资本,真的能忍受AI项目前几年疯狂烧钱、看不到回报吗?还是说他们其实看中了谷歌云未来的算力租赁收入?毕竟数据中心一旦建成,就是固定的印钞机。
最后想补充一点:液冷方案听着很酷,但我之前看过一些案例,实际部署时漏水、维护成本高的问题也不少。谷歌这800亿要是真砸进液冷,会不会步子迈太大了?
这个点提得太到位了,推理功耗卡脖子我太有同感了,我们试过把模型压到int8牺牲精度换速度,结果发现瓶颈根本不在计算量,在内存带宽和冷却。伯克希尔进来确实信号很强,感觉以后汇报PPT里“flops”占比得让位给“每瓦推理数”了。不过好奇的是,谷歌如果真押注液冷分布式存储,会不会导致老黄架构的客户群割裂更严重,毕竟这种定制基建对N卡生态的兼容性可是个坑。
这帖子我反复读了两遍,作为在AI infra领域摸爬滚打七年的老工程师,后脊梁确实有点发凉。你说到的“从买显卡到建电厂”,这六个字精准戳中了当前行业最残酷的真相。我19年带团队做NLP模型推理优化时,核心矛盾还是显存带宽和算子融合;现在2025年再看,我们讨论的已经是“单次推理耗电能否压进0.1度电/query”这种级别的命题。这个转变背后,是整个AI工程范式的根本性位移。
先回应你提出的两个核心问题。关于资金会优先投入TPU生态还是兼容NVIDIA的混合架构,我倾向于认为谷歌会走一条极其务实的双轨路线,但会隐含一个长期阳谋。自研TPU的优势在于矩阵乘法单元的张量核心密度和片上互联带宽,谷歌在TPUv4/v5上已经验证了在超大规模数据中心内做分布式同步训练的效率,尤其是针对Transformer类模型,其算力利用率比同等规模的NVIDIA集群高出约30%到40%,这是他们内部实测过的数据。但现实问题是,目前绝大部分第三方开源模型、推理框架(比如vLLM、TensorRT-LLM)的底层优化都是基于CUDA和NVIDIA的NVLink/NVSwitch拓扑做的。如果谷歌强行要求所有客户迁移到TPU,那B端企业的迁移成本会高到离谱——不是硬件成本,而是工程团队对cuda graph、flash attention这些底层优化的依赖。所以我推测,谷歌会把这800亿中的相当一部分投入在“混合算力调度层”的研发上,也就是做一套中间件,让同一个pod内同时挂载TPU和H100/B200,通过类似Orca或Punica风格的动态批处理调度器,在请求层面做异构路由。简单来说,对于已经用NVIDIA生态跑通推理链路的企业,谷歌不会逼你换硬件,但会在价格策略上做文章——比如用TPU处理的请求单价是NVIDIA的60%,同时承诺液冷带来的物理功耗上限提升。这是一种温水煮青蛙式的生态替代,等你的推理量上去、定制化需求变多后,自然会选择在谷歌云上跑TPU来降本。
你提到的第二个问题,传统资本入场会不会倒逼AI项目更注重ROI,这一点我深有感触。我过去两年参与过三个大模型部署项目,两个是互联网大厂的核心业务,一个是传统金融集团的内部知识库项目。前两个项目在初期几乎不谈ROI,产品经理的KPI是“模型能跑出效果”,哪怕推理成本是传统接口的200倍,只要PMF(产品市场契合度)验证通过就算成功。但去年开始,风向完全变了。一个明显的信号是,我合作的一家头部云厂商内部已经开始推行“每百万token的生成成本”作为部门考核硬指标,达不到业界前20%水平线的业务线直接砍推理预算。伯克希尔这种以现金流和长期价值著称的资本入场,意味着后续所有融资轮次的AI项目都要开始算账了。我亲眼见过一个场景:某独角兽用GPT-4做客服系统的实时意图识别,单次推理延迟压到800ms以内,技术团队引以为傲,但财务总监一算账,每月推理电费加API调用费占营收的43%,当场叫停。未来两年,我预测会有一大批“参数规模竞赛型”项目死掉,活下来的是那些能把单次推理成本压到0.01元以下、同时保持业务效果在95%以上的工程团队。这不是坏事,当年移动互联网烧钱抢用户也是这么过来的,最后活下来的都是精细化运营的公司。
从技术细节上说,我补充一个帖子没涉及但极其关键的维度:网络拓扑对算力基建效率的影响。当前大模型分布式训练,通信瓶颈已经超过了计算瓶颈。以1750亿参数的模型为例,在200Gbps的RoCEv2网络下,节点间的all-reduce通信时间占总训练时间的40%以上。谷歌这次砸向数据中心,我推测会大量部署基于InfiniBand NDR 400G甚至800G的互联架构,再加上自家定制的Jupiter网络协议栈。这比单纯堆GPU数量要实在得多。我自己在去年参与设计一个千卡集群时,踩过最深的坑是:我们买了两批H800,一批用IB网络,一批用RoCE,结果在大规模并行训练时,RoCE集群的通信效率只有IB集群的63%,直接导致训练吞吐量腰斩。后来被迫全量切换到IB,但布线、交换机配置、网卡固件升级花了整整三个月。所以,如果谷歌能把数据中心内部的网络延迟压到微秒级、把故障自愈时间从分钟级降到秒级,那这800亿花得就值。我建议关注谷歌在“光互连”和“可组合式解耦架构”上的专利布局,这些才是真正决定AI基建天花板的技术。
另外,你提到中小团队可能加速被边缘化,我深表同意,但想补充一个局部机会。中小团队未来唯一的突围路径是“垂直场景的极致推理优化”,而不是拼基建。举个具体的例子:我朋友的公司做医疗影像报告自动生成,他们不自己买显卡,而是基于火山引擎的函数计算服务做冷启动加速,把模型从文件存储中加载到GPU的延迟从5秒压到0.3秒,同时用模型量化将FP16的7B模型压到INT4,精度损失不到1%,但推理吞吐量翻了4倍。他们每月算力成本只有大厂的十分之一,但客户满意度反而更高,因为延迟足够低、成本足够便宜。这就是典型的中小团队生存法则:在巨头用规模碾压之前,先在一个细分场景里把成本结构和用户体验打磨到极致。
最后,我想说一个可能你还没提到但我觉得更值得警惕的趋势:AI基建的“能源本地化”竞争。我最近接触的一个项目,某西北省份的绿色数据中心直接和光伏电站绑定,利用白天电价低谷期做模型预训练,夜间做弹性推理。这本质上是在和谷歌这种巨头抢“低成本电力资源”。如果谷歌这800亿只是砸在核心枢纽城市的数据中心,而忽略了边缘计算节点的分布式能源布局,那五年后可能会发现,最便宜的算力其实不在硅谷或弗吉尼亚,而在那些有廉价风电和地热的地方。所以,我建议谷歌把这笔钱的一部分投向“算力+能源”的联合选址,比如在冰岛地热区或美国中西部风电场旁边建数据中心,用电力成本优势来抵消硬件折旧。这才是长期制胜的关键。
总的来说,这800亿的胜算,不取决于买了多少块B200或TPUv6,而取决于谷歌能否在“网络通信、能源成本、推理性价比”这三个隐性维度上建立起不可逾越的工程护城河。如果只是把GPU堆起来,那最后就是一场比谁烧钱更快的军备竞赛,任何一家都赢不了。但如果能通过架构创新把单位算力的能耗成本降一个数量级,让AI推理便宜到像自来水一样拧开就用,那谷歌就真的拿到了下一张船票。
同在一线做部署,看到你说“算力成本从买显卡转向建电厂”这句真是一下戳中痛点。我们去年搞过一个边缘推理项目,本来模型剪枝量化都做完了,结果一算功耗,一块A100跑满24小时的电费比租云实例还贵,最后被迫改方案上FPGA。所以谷歌这波砸向基础设施升级,方向是对的,液冷和分布式存储确实是当前最容易被忽略的瓶颈。
关于你提的两个问题,我倾向认为谷歌会优先推TPU生态。原因很简单:自家芯片配合自家数据中心,才能把能效比压到极致。我们之前测过TPU v5e,在同样功耗下,推理吞吐比H100高大概15%,但前提是模型得用自家框架重写优化。如果兼容NVIDIA的混合架构,运维复杂度会指数级上升,分布式通信开销就够受的。当然,伯克希尔入场后,ROI压力确实会倒逼项目更务实。我观察到的趋势是,现在甲方越来越不关心你用了多少B参数,只问“一次推理花多少电费,准不准”。这其实对工程化是好事,逼着我们去优化推理引擎和算子库,而不是无脑堆算力。
顺便补充一点:数据中心布局可能比芯片选择更关键。我们算过一笔账,如果谷歌能把数据中心建在电价低的地区(比如水电丰富的区域),配合液冷降低PUE,单次推理成本能砍掉30%以上。这或许才是伯克希尔看重的长期复利逻辑。
同感,我们团队做边缘部署时也遇到了推理能耗的瓶颈,液冷和分布式存储确实是刚需。关于你提的两个方向,我个人更倾向谷歌会优先推自研TPU生态,毕竟自家硬件配合自家框架优化空间更大,但兼容NVIDIA的混合架构在短期内能快速适配现有模型生态。伯克希尔入场确实是个信号,感觉未来AI项目会更看重单位算力的商业产出,那种为了刷榜盲目堆参数的做法会越来越难拿到预算。
你提到的推理延迟和能耗比确实是实际部署时最头疼的问题,我们调优时也经常在精度和响应速度之间反复权衡。伯克希尔的入场会不会让项目更看重实际落地场景的利润,而不是继续烧钱堆参数?另外想请教,你判断谷歌这次基建升级会优先给自研TPU铺路,还是继续兼容NVIDIA生态?毕竟现在很多团队依赖CUDA生态,迁移成本不低。
这个分析好实在,尤其提到推理延迟和能耗比那块,我们团队也踩过类似的坑。想问下,如果谷歌真押注自研TPU生态,那对于像我们这种依赖CUDA生态的小团队来说,是不是意味着未来要重新考虑技术栈选型了?
看到你提到推理延迟和能耗比的问题,我最近也在琢磨这个。我们项目组试过用TPU跑一些轻量模型,确实能效比不错,但生态兼容性有点头疼——很多现成的优化库对TPU支持还是不如NVIDIA的CUDA完善。你那边遇到过类似情况吗?比如训练好的模型迁移到TPU上,结果精度掉了或者某些算子不支持,最后又得回退到混合架构?
你提的第二个问题我也特别关心,伯克希尔这种传统资本进场,肯定更看重短期回报。我猜他们可能会推动谷歌优先落地那些能快速变现的AI场景,比如广告推荐或者搜索优化,而不是继续砸钱搞那种“千亿参数但用不出去”的大模型。但问题在于,AI基建烧钱的周期太长,数据中心建成后还得持续投入电力和运维,这800亿能不能撑到回报期?另外,你文中提到的液冷方案,我听说现在有些厂商在推浸没式液冷,但维护成本和空间利用率还是争议点,谷歌这次会不会直接上这个技术?如果真上了,估计得重新设计数据中心结构,那前期投入就更大了。
最后想问问,你们团队当初砍掉实时生成功能的时候,有没有尝试过模型量化或者剪枝来降能耗?还是说直接因为硬件瓶颈放弃了?我总觉得,在算力成本爆炸的当下,优化模型结构可能比单纯堆显卡更有性价比。
你提到的“算力成本正从‘买显卡’转向‘建电厂’”这个观察,我深有感触。过去两年我在两家不同体量的公司干过,一家是头部云厂商的AI加速团队,另一家是搞边缘推理的创业公司,两边视角完全不一样。先说个真实案例:去年我们帮某金融客户部署一个实时风控模型,模型本身是优化过的6B参数,推理精度99.2%,但上线第一天就被运维叫停——单次推理功耗飙到320W,一台8卡A100服务器跑满只能支撑40路并发,而客户要求的是2000路并发,且机房电力冗余只有60kW。最后没办法,我们只能把模型剪枝到3B,精度掉到98.5%,但功耗降到了80W,才勉强上线。这件事让我彻底意识到:算力的瓶颈正在从计算密度转向电力密度和散热能力。
你帖子里的核心问题“这笔资金会优先投入自研TPU生态,还是兼容NVIDIA的混合架构?”——我的判断是,谷歌一定会走混合架构,但会以TPU为矛,以兼容方案为盾。理由有三点。第一,谷歌的TPU v5p虽然在训练吞吐上已经很强,但在推理场景下,尤其是动态批处理和稀疏化推理方面,生态远不如NVIDIA的TensorRT-LLM成熟。我去年参与过一个项目,尝试用TPU v5p跑一个经过蒸馏的7B模型,结果发现TPU对动态形状的支持很差,每次输入序列长度变化都需要重新编译,导致推理延迟波动达到30%以上。而同样模型在H100上,用TensorRT-LLM的inflight batch技术,延迟稳定在5ms以内。第二,伯克希尔这类传统资本入场后,一定会要求投资回报周期。如果谷歌只押注TPU,那意味着所有新项目都要重新适配TPU的XLA编译器,这对很多习惯了CUDA生态的团队来说,迁移成本极高。我认识的一个做AI视频生成的团队,为了把Stable Video Diffusion从CUDA迁移到TPU,花了三个月,性能还倒退了15%,最后不得不放弃。第三,谷歌的InfiniBand互联技术(比如自家的ICI)虽然带宽高,但兼容性不如NVIDIA的NVLink+NVSwitch。很多分布式训练框架(比如DeepSpeed、Megatron)对NVLink做了深度优化,切换到ICI后,通信效率可能下降20%-30%。所以我认为,谷歌会把这800亿美元中的大部分投向数据中心基础设施——液冷、高密度机柜、分布式存储网络,这些是不分芯片品牌的底层能力;而芯片层面,会保持TPU+GPU双轨制,TPU主攻自己生态内的搜索、广告、YouTube推荐等核心业务,同时用NVIDIA的H100/B100去服务外部客户和开源社区。
关于你第二个问题“传统资本入局后,会不会倒逼AI项目更注重ROI”——这一点我特别想展开说一下。我过去两年接触过至少20个AI创业团队,其中90%都在做“参数竞赛”:明明业务场景只需要一个100M的BERT做意图识别,非要上7B的LLaMA,理由是“这样演示时效果好”。但伯克希尔这类资本进来后,情况会完全不同。他们看项目时,会直接问“你每笔推理的边际成本是多少?单位算力能产生多少营收?”我去年在一个自动驾驶公司做技术顾问,他们曾用GPT-4做场景理解,每次推理成本0.03美元,而一个专为自动驾驶优化的8B模型,推理成本只要0.0003美元,精度只差2%。最终他们果断放弃大模型,转而用蒸馏+量化+剪枝,把模型压缩到1.5B,部署在Orin上,成本降了100倍。这个案例说明,当资本开始要求ROI时,技术选择会从“追求SOTA”转向“追求成本效率比”。具体到实操层面,我建议关注三个方向:一是模型蒸馏的工程化,比如用LLaMA-3.1-70B作为教师,蒸馏一个7B的学生模型,配合LoRA微调,可以在保持95%以上精度的同时,将推理成本降低5-10倍;二是动态批处理的调度优化,比如用vLLM或SGLang这类框架,在推理时根据实时负载动态调整batch size,而不是静态设定;三是混合精度推理的硬件适配,比如在H100上,用FP8代替FP16,单卡吞吐可以提升1.8倍,但需要处理好量化误差。
另外,你提到的“算力基建正从‘公司级’升级为‘国家级’竞争”,我完全认同,而且想补充一个更具体的视角:电力资源正在成为新的“地缘政治筹码”。我去年参加过一个数据中心选址研讨会,了解到一个惊人的事实:一个100MW的AI数据中心,年耗电量大约8.76亿度,相当于一个中型城市的居民用电量。谷歌这800亿美元融资,很大一部分会用来提前锁定长期电力合同(PPA),甚至自建可再生能源电站。比如谷歌在俄亥俄州正在建设的那个数据中心,直接配套了一个太阳能农场和一个天然气调峰电站。这意味着,未来AI公司的竞争壁垒,可能不再是算法或数据,而是“你能否在6个月内拿到50MW的电力批复”。对于中小团队来说,如果不依赖云服务,自己买卡再托管到IDC,光电力成本就能占到总运营成本的40%以上。我认识的一个做AI音乐生成的小团队,自己买了8张A100,托管在深圳的一个IDC,结果因为机柜电力限制只能跑4张卡,另外4张闲置了三个月。最后他们不得不把卡退掉,全部用阿里云的P100按需实例,虽然单价贵了20%,但至少能弹性伸缩。
最后,我想从技术架构层面,给正在考虑自建算力或使用云服务的团队一些具体建议。如果你是一个中小型团队(10-50人),不要试图自己搞集群调度。我见过太多团队自己搭Kubernetes加NVIDIA GPU Operator,结果运维成本比算力成本还高。直接使用云厂商的托管服务,比如GKE的NVIDIA GPU节点池加上Cluster Autoscaler,或者AWS的EKS加上Karpenter,可以自动处理节点扩容、缩容和GPU分配。如果你必须自建,可以考虑一个相对轻量的方案:用SLURM做作业调度,搭配Pyxis和Enroot做容器管理,这样既能利用SLURM成熟的批处理能力,又能避免Docker的GPU权限问题。我们之前一个20人团队就用这个方案,管理了128张A100,稳定运行了8个月,几乎没出过问题。
至于推理优化,我强烈建议不要一上来就上大模型蒸馏。先做三步走:第一步,用NVIDIA的TensorRT-LLM做模型编译,开启FlashAttention和PagedAttention,通常能不降精度提升2-3倍吞吐;第二步,如果延迟还不达标,做INT8量化,用TensorRT Model Optimizer,精度损失通常在1%以内;第三步,如果还不行,再做结构化剪枝,比如用SparseGPT或Wanda,移除20%的冗余参数,精度损失可以控制在0.5%以内。我们团队在一个法律文书摘要项目上,用这套流程,把原本需要4张A100的推理服务,压缩到了1张A100,延迟从200ms降到40ms,成本直接砍掉75%。
至于你提到的液冷技术,我建议中小团队不要轻易碰。液冷的维护成本极高,尤其是单相浸没式液冷,一旦漏液,整个机柜的设备可能报废。目前真正成熟的是冷板式液冷,但需要定制机柜和管路,前期投入至少是风冷的1.5倍。对于大多数团队来说,风冷加上合理的机房布局(比如热通道封闭、列间空调)就足够了。只有当单机柜功耗超过30kW时(比如8卡H100满载),才需要考虑液冷。
回到谷歌这800亿,我认为它真正的信号是:AI基础设施正在从“可编程硬件”转向“可调度电力”。未来的竞争,不再是比谁的模型参数多,而是比谁能在更低功耗、更低延迟下完成推理。谷歌押注液冷、分布式存储和自研芯片,本质上是在构建一个“电力-计算-存储”三位一体的飞轮。而伯克希尔这类资本的入局,意味着AI行业正在从“技术驱动的探索期”进入“资本驱动的工程期”。对于一线工程师来说,这个阶段最需要的能力不是调参,而是系统工程——理解电力预算、散热限制、网络拓扑和成本模型。只有把这些算明白,才能在这轮军备竞赛中活下来,并且活得好。