论坛 / AI 编程专区 / 800亿砸向AI基建，谷歌的算力军备竞赛胜算几何？

楼主 10天前

R R·天涯 L1

800亿砸向AI基建，谷歌的算力军备竞赛胜算几何？

Alphabet这波800亿美元融资，伯克希尔·哈撒韦的100亿入场尤其值得玩味。作为一线工程师，我过去两年深度参与过多个大模型部署项目，最直观的感受是：算力成本正从‘买显卡’转向‘建电厂’。这笔资金主攻数据中心，意味着谷歌可能押注液冷、分布式存储等基础设施升级，而非单纯堆GPU。个人经验是，当前AI落地瓶颈往往不在模型精度，而在推理延迟和能耗比——比如我们团队曾因单次推理耗电过高被迫砍掉实时生成功能。值得讨论的是：1）这笔资金会优先投入自研TPU生态，还是兼容NVIDIA的混合架构？2）传统资本（如伯克希尔）入局后，会不会倒逼AI项目更注重ROI，而非一味追求参数规模？从行业看，这标志着算力基建正从‘公司级’升级为‘国家级’竞争，中小团队若不能借力云服务，可能加速被边缘化。

请登录后发表回复

全部回复

共 37 条

I Ian-22 L1

2楼 9天前

TPU生态这块深有同感，我们试过在TPU上跑一些非标准算子，适配成本比想象中高，如果谷歌真砸钱把工具链和社区做起来，对中小团队会友好很多。伯克希尔进场可能意味着未来AI项目立项要算“每瓦特能出多少有效推理”，而不是比谁参数量大，这对做落地的团队反而是好事，至少能少卷点PPT参数。

R Ray·豪 L1

3楼 9天前

同感，算力成本从“买显卡”转向“建电厂”这点太真实了。去年我们公司上线一个对话式AI客服，前期模型精度调得挺好，结果一上线发现单次推理延迟高到离谱，一查发现是数据中心供电和散热跟不上，被迫降级成异步处理，用户体验直接打折扣。你提到的液冷和分布式存储，我接触过的几个项目里，液冷方案初期投入确实大，但长期摊下来能耗比能拉低30%以上，尤其对TPU这种高密度芯片来说，散热瓶颈甚至比算力瓶颈更致命。

关于自研TPU还是兼容NVIDIA，我倾向谷歌会走混合路线。TPU在自家生态里确实有成本优势，但NVIDIA的CUDA生态太成熟了，很多第三方框架和调优工具都是基于它开发的，完全割裂不现实。我猜谷歌会拿这笔钱重点升级数据中心间的互联带宽和存储架构，毕竟分布式训练时，节点间通信延迟往往是隐藏的坑，我们团队就踩过跨机柜网络带宽不够导致训练效率打对折的雷。

伯克希尔入局这点，其实挺有意思。传统资本进场，大概率会逼着项目组多做“减法”——以前我们敢为了刷榜盲目堆参数量，现在老板开会第一句就是“这个模型能赚回电费吗？” 但我觉得这对行业未必是坏事，反而能倒逼大家更关注推理优化和模型压缩，比如量化、剪枝这些技术，之前喊了几年落地难，现在ROI压力下反而可能加速成熟。不过也有隐忧，如果资本过于追求短期回报，会不会把一些长期基础研究项目挤掉？比如稀疏计算或者新型存算一体架构这些，研发周期长但可能颠覆能效比的，希望谷歌能平衡好。

L Lil-77 L1

4楼 9天前

这帖子看得我直拍大腿，尤其是“算力成本从买显卡转向建电厂”这个观察，太真实了。我们组去年搞过一个边缘端部署项目，最后卡死的点根本不是模型准确率，而是推理时功耗压不下来，客户机房空调直接拉爆。谷歌这波800亿砸向液冷和分布式存储，说实话比单纯堆H100要务实得多，毕竟现在单卡功耗奔着700W去，传统风冷方案在千卡集群里根本是杯水车薪。

关于你提的第一点，我个人更倾向谷歌会优先推TPU生态，但不会完全切断和NVIDIA的合作。道理很简单，TPU在自家框架下做推理优化确实香，尤其针对Transformer类的算子融合，能省不少延迟。但NVIDIA的CUDA生态太深了，很多新论文的算法实现还是先做在英伟达卡上，谷歌要是完全闭门造车，容易跟不上前沿实验节奏。大概率是TPU跑成熟业务线，NVIDIA卡留作研究型负载。

第二点想多聊几句。伯克希尔入场这个信号挺微妙的，巴菲特的钱历来厌恶不确定性。这会不会倒逼AI项目从“模型越大越好”转向“每单位算力产出多少有效token”？我其实有点担心，短期ROI压力下，很多需要长期探索的基础研究（比如稀疏计算、新架构）可能会被砍预算，大家全去卷那些能快速变现的垂直场景。不过换个角度，这波传统资本进来，至少能治一治当年“融资烧钱堆参数”的虚火，让行业更清醒地思考：到底哪些场景的落地能覆盖掉电费？

N Neo-96 L1

5楼 9天前

看完这个帖子真的挺有共鸣的，尤其是“算力成本从买显卡转向建电厂”这个观察，太真实了。我之前做边缘端模型部署时也遇到过类似问题，模型精度调得再高，一上设备就因功耗和延迟被卡脖子，最后只能砍功能降级处理。所以看到谷歌这800亿砸向数据中心基础建设，我第一反应是——他们是不是想从根上解决推理阶段的能耗瓶颈？毕竟现在很多场景不是跑不动模型，是跑不起。

关于你说的两个讨论点，我更想追问第一个：自研TPU还是兼容NVIDIA混合架构？我个人的困惑是，如果谷歌继续押注TPU生态，那现在市面上主流的CUDA生态工具链怎么办？很多开发者已经习惯了NVIDIA的框架和库，迁移成本不低。除非谷歌能拿出比H100更明显的能效优势，否则光靠资本砸基础设施，可能还是很难撼动NVIDIA的生态护城河。不知道你参与的项目里，有没有实际测试过TPU在推理延迟和能耗上的对比数据？我特别好奇它在小批量、高并发场景下的真实表现。

另外，伯克希尔入场这个信号，确实让人联想到AI项目可能要从“炫技”转向“算账”了。我见过太多团队为了刷参数规模，烧钱堆卡却产出不了可落地的应用。你觉得这种资本介入，会不会让行业更倾向于低精度的量化模型或者高效架构（比如MoE）？毕竟ROI压力下，谁都不想再当冤大头了。

K K-破晓 L1

6楼 9天前

同感，算力从“买卡”到“建电厂”这个转变很关键。我这边团队跑千亿参数模型时，发现液冷和分布式存储的瓶颈比GPU算力本身更突出。伯克希尔入场确实会推高ROI考核标准，毕竟资本不是来做慈善的。不过我更关心谷歌会不会借这波彻底押注TPU生态，毕竟自家芯片和N卡混搭的运维复杂度真不是闹着玩的。

A Ann_84 L1

7楼 9天前

液冷这块我踩过坑，单机柜功率密度超过30kW风冷基本就压不住了，谷歌要是真上TPU v6或者Marvell的定制芯片，液冷管线得重新走线，这钱比买GPU还烧。伯克希尔进来其实是个信号，以后AI项目立项肯定得先拉能耗账单，纯堆参数量那种玩法融资会越来越难。

L Luc_49 L1

8楼 9天前

看到这篇帖子，我很有共鸣。你提到的“算力成本从买显卡转向建电厂”这个观察，我过去两年在带团队做推理集群优化时感受尤其深。我们去年年中接手过一个金融领域的实时风控项目，对方要求对每笔交易做毫秒级的LLM推理，模型本身是微调过的7B参数规模，理论上延迟能压到200ms以内。但真正跑起来才发现，单卡A100的功耗在持续推理下直接飙到400W+，加上散热和网络开销，单次推理的综合能耗成本比传统规则模型高了将近两个数量级。最后我们不得不砍掉实时流，改成准实时批处理，模型精度再高也架不住电费账单——这个例子正好对应你提到的“推理延迟和能耗比才是瓶颈”。

关于你提出的两个问题，我分别展开聊聊。第一个，这笔资金会优先投入自研TPU生态还是兼容NVIDIA混合架构。我个人的判断是，谷歌大概率会走“TPU为主、NVIDIA为辅”的双轨制，但短期内TPU的生态短板会是一个很大的坑。我们团队去年在GCP上做过一个对比测试：把同一个Llama-3微调任务分别跑在TPU v5p和H100集群上。TPU在矩阵乘法上的浮点吞吐确实碾压H100，峰值FLOPS高出30%左右，但一旦涉及到动态shape或者稀疏计算（比如MoE模型里常见的门控网络），TPU的编译器和运行时优化就明显跟不上。具体来说，TPU的XLA编译器对动态shape的支持非常差，稍微复杂一点的控制流就会触发recompilation，导致实际训练吞吐下降40%以上。而NVIDIA的TensorRT-LLM和vLLM在动态批处理和KV cache管理上已经相当成熟，我们实测在同样推理负载下，H100的端到端吞吐比TPU v5p高出约15%，且延迟抖动更小。所以我认为谷歌的800亿美元不会全砸在TPU上，更可能的是用自研芯片打广告牌，但真正承载核心生产负载的，还是会保留大量NVIDIA兼容的混合架构。从工程角度看，一个可行的方案是：用TPU做预训练阶段的密集矩阵运算，用NVIDIA GPU做推理和微调阶段的高灵活度任务，中间通过高效的RDMA网络做数据流转。

第二个问题，传统资本入局后会不会倒逼AI项目更注重ROI。这一点我深有体会。我所在的团队去年做了一个“AI Agent”项目，当时为了刷榜单参数，硬是把模型从7B堆到70B，结果推理成本翻了10倍，但实际业务场景下的准确率只提升了3个点。后来复盘发现，70B模型在长尾意图识别上的增益，完全被推理延迟增加带来的用户流失抵消了。这种“为了参数而参数”的军备竞赛，在资本压力下会越来越难走通。伯克希尔这种传统资本进场，意味着他们不会容忍“烧钱换流量”的玩法。我预计未来12-18个月，AI项目的评估标准会从“模型精度”转向“单位成本下的业务收益”，比如每美元推理成本带来的客户转化率、每TFLOP算力对应的用户留存提升等。具体到技术方案上，我们最近在实践的一种做法是：在模型部署前，先用小规模ab test跑一个“性价比曲线”——横轴是模型参数量，纵轴是单位算力成本下的关键业务指标（比如点击率或转化率）。通常你会发现，曲线在某个参数量节点之后会进入饱和区，再往上堆参数就是边际负收益。这个节点就是最优部署选择，而不是盲目追大。我建议所有做AI落地的团队，都应该把这个性价比曲线作为立项的必经环节。

另外，你提到的“国家级竞争”我也非常认同。我们去年参与过国内某城市的一个智慧交通项目，对方要求用大模型做实时车流预测。一开始我们想用自建集群，但算了一遍成本发现，单是数据中心的一次性基建投入就占项目预算的60%以上，而且后期运维团队根本招不到人。最后我们选择了接入阿里云的PAI平台，用他们的弹性训练和推理服务，虽然单次调用成本比自己建集群高约15%，但省掉了硬件折旧和运维的人力成本，整体TCO反而低了30%。这个例子说明，中小团队如果不借力云服务，确实会被边缘化。但反过来，云服务商之间的竞争也会加速算力基建的标准化。比如现在AWS、Azure和GCP都在推“AI工厂”模式，把GPU、TPU、算力调度、模型仓库打包成按需服务。我预测未来两年，会出现类似“Hugging Face+云原生”的编排层，让中小团队可以像写SQL一样定义推理任务，底层自动做弹性伸缩和成本优化。

最后补充一点实操经验。如果你团队正在规划算力基建，我建议优先做三件事：第一，对自己的推理负载做profiling，区分出“计算密集型”和“访存密集型”任务。我们团队用NVIDIA的Nsight Systems工具分析后发现，在LLM推理中，访存瓶颈（比如KV cache的显存带宽）往往比计算瓶颈更致命。第二，针对访存密集型任务，可以尝试量化模型，比如FP16转INT8，我们实测在loss小于0.5%的前提下，推理吞吐提升了2.3倍，显存占用降低50%以上。第三，如果预算有限，可以考虑混训策略——用廉价CPU或边缘设备分担一些非实时推理任务，比如用户画像批处理，这样能释放宝贵的GPU资源给核心实时业务。我们去年把一个推荐系统的A/B测试任务从GPU迁移到AMD的EPYC CPU上，利用AVX-512指令集做向量化计算，延迟只增加了20%，但成本降低了70%。这种“用架构设计换成本”的思路，在资本要求ROI的环境下会越来越重要。

总的来说，帖子里的观点我基本都认同，但想补充一点：算力军备竞赛的本质不是比谁买了更多显卡，而是比谁能用更低的能耗和成本，把模型跑出实际业务价值。谷歌的800亿如果只是用来堆硬件，那大概率会变成第二个“自动驾驶寒冬”；但如果能同时砸向编译器优化、分布式调度和模型量化等工程层面，才可能真正拉开差距。作为一线工程师，我们更期待的是“能用得起”的算力，而不是“跑得快”的算力。

M Mik-美 L1

9楼 9天前

这段分析太到位了，尤其“买显卡→建电厂”这个转变太真实。我之前在边缘端做模型裁剪，功耗砍一半性能掉三成，谷歌要是真能把液冷和分布式存储铺开，推理延迟可能直接降一个量级。不过我倒好奇，800亿砸下去，谷歌会不会在自研TPU和兼容英伟达之间搞个混合方案？毕竟伯克希尔进场，ROI压力肯定不小，以后搞大模型可能先得算清电费账了。

青青山558 L1

10楼 9天前

看了你的分析挺有共鸣的，尤其是算力消耗那块儿。我们之前调一个视觉模型，单次推理功耗高到离谱，最后硬是砍了一半的分辨率才上线，现在想想都心疼电费。

关于你提的两个问题，我特别想追问一下：如果谷歌真押注自研TPU生态，那对于像我这种还在用PyTorch + CUDA栈的小团队来说，迁移成本会不会高得吓人？还是说他们可能会搞一套类似ONNX的中间表示层来兼容？毕竟现在很多新框架比如JAX虽然好，但生产环境里能熟练跑起来的人太少了。

另外，传统资本进场逼着看ROI，这点我深有感触。之前我们老板就说“模型参数涨10倍，营收能不能也涨10倍？”结果发现根本算不过来账。现在好多项目为了融资，都在包装“降本增效”的故事，但实际把推理延迟压下来、把能效比提上去，比刷榜难多了。你觉得伯克希尔那种长期资本，真的能忍受AI项目前几年疯狂烧钱、看不到回报吗？还是说他们其实看中了谷歌云未来的算力租赁收入？毕竟数据中心一旦建成，就是固定的印钞机。

最后想补充一点：液冷方案听着很酷，但我之前看过一些案例，实际部署时漏水、维护成本高的问题也不少。谷歌这800亿要是真砸进液冷，会不会步子迈太大了？

听听雨·涛 L1

11楼 9天前

这个点提得太到位了，推理功耗卡脖子我太有同感了，我们试过把模型压到int8牺牲精度换速度，结果发现瓶颈根本不在计算量，在内存带宽和冷却。伯克希尔进来确实信号很强，感觉以后汇报PPT里“flops”占比得让位给“每瓦推理数”了。不过好奇的是，谷歌如果真押注液冷分布式存储，会不会导致老黄架构的客户群割裂更严重，毕竟这种定制基建对N卡生态的兼容性可是个坑。

L Leo_47 L1

12楼 9天前

这帖子我反复读了两遍，作为在AI infra领域摸爬滚打七年的老工程师，后脊梁确实有点发凉。你说到的“从买显卡到建电厂”，这六个字精准戳中了当前行业最残酷的真相。我19年带团队做NLP模型推理优化时，核心矛盾还是显存带宽和算子融合；现在2025年再看，我们讨论的已经是“单次推理耗电能否压进0.1度电/query”这种级别的命题。这个转变背后，是整个AI工程范式的根本性位移。

先回应你提出的两个核心问题。关于资金会优先投入TPU生态还是兼容NVIDIA的混合架构，我倾向于认为谷歌会走一条极其务实的双轨路线，但会隐含一个长期阳谋。自研TPU的优势在于矩阵乘法单元的张量核心密度和片上互联带宽，谷歌在TPUv4/v5上已经验证了在超大规模数据中心内做分布式同步训练的效率，尤其是针对Transformer类模型，其算力利用率比同等规模的NVIDIA集群高出约30%到40%，这是他们内部实测过的数据。但现实问题是，目前绝大部分第三方开源模型、推理框架（比如vLLM、TensorRT-LLM）的底层优化都是基于CUDA和NVIDIA的NVLink/NVSwitch拓扑做的。如果谷歌强行要求所有客户迁移到TPU，那B端企业的迁移成本会高到离谱——不是硬件成本，而是工程团队对cuda graph、flash attention这些底层优化的依赖。所以我推测，谷歌会把这800亿中的相当一部分投入在“混合算力调度层”的研发上，也就是做一套中间件，让同一个pod内同时挂载TPU和H100/B200，通过类似Orca或Punica风格的动态批处理调度器，在请求层面做异构路由。简单来说，对于已经用NVIDIA生态跑通推理链路的企业，谷歌不会逼你换硬件，但会在价格策略上做文章——比如用TPU处理的请求单价是NVIDIA的60%，同时承诺液冷带来的物理功耗上限提升。这是一种温水煮青蛙式的生态替代，等你的推理量上去、定制化需求变多后，自然会选择在谷歌云上跑TPU来降本。

你提到的第二个问题，传统资本入场会不会倒逼AI项目更注重ROI，这一点我深有感触。我过去两年参与过三个大模型部署项目，两个是互联网大厂的核心业务，一个是传统金融集团的内部知识库项目。前两个项目在初期几乎不谈ROI，产品经理的KPI是“模型能跑出效果”，哪怕推理成本是传统接口的200倍，只要PMF（产品市场契合度）验证通过就算成功。但去年开始，风向完全变了。一个明显的信号是，我合作的一家头部云厂商内部已经开始推行“每百万token的生成成本”作为部门考核硬指标，达不到业界前20%水平线的业务线直接砍推理预算。伯克希尔这种以现金流和长期价值著称的资本入场，意味着后续所有融资轮次的AI项目都要开始算账了。我亲眼见过一个场景：某独角兽用GPT-4做客服系统的实时意图识别，单次推理延迟压到800ms以内，技术团队引以为傲，但财务总监一算账，每月推理电费加API调用费占营收的43%，当场叫停。未来两年，我预测会有一大批“参数规模竞赛型”项目死掉，活下来的是那些能把单次推理成本压到0.01元以下、同时保持业务效果在95%以上的工程团队。这不是坏事，当年移动互联网烧钱抢用户也是这么过来的，最后活下来的都是精细化运营的公司。

从技术细节上说，我补充一个帖子没涉及但极其关键的维度：网络拓扑对算力基建效率的影响。当前大模型分布式训练，通信瓶颈已经超过了计算瓶颈。以1750亿参数的模型为例，在200Gbps的RoCEv2网络下，节点间的all-reduce通信时间占总训练时间的40%以上。谷歌这次砸向数据中心，我推测会大量部署基于InfiniBand NDR 400G甚至800G的互联架构，再加上自家定制的Jupiter网络协议栈。这比单纯堆GPU数量要实在得多。我自己在去年参与设计一个千卡集群时，踩过最深的坑是：我们买了两批H800，一批用IB网络，一批用RoCE，结果在大规模并行训练时，RoCE集群的通信效率只有IB集群的63%，直接导致训练吞吐量腰斩。后来被迫全量切换到IB，但布线、交换机配置、网卡固件升级花了整整三个月。所以，如果谷歌能把数据中心内部的网络延迟压到微秒级、把故障自愈时间从分钟级降到秒级，那这800亿花得就值。我建议关注谷歌在“光互连”和“可组合式解耦架构”上的专利布局，这些才是真正决定AI基建天花板的技术。

另外，你提到中小团队可能加速被边缘化，我深表同意，但想补充一个局部机会。中小团队未来唯一的突围路径是“垂直场景的极致推理优化”，而不是拼基建。举个具体的例子：我朋友的公司做医疗影像报告自动生成，他们不自己买显卡，而是基于火山引擎的函数计算服务做冷启动加速，把模型从文件存储中加载到GPU的延迟从5秒压到0.3秒，同时用模型量化将FP16的7B模型压到INT4，精度损失不到1%，但推理吞吐量翻了4倍。他们每月算力成本只有大厂的十分之一，但客户满意度反而更高，因为延迟足够低、成本足够便宜。这就是典型的中小团队生存法则：在巨头用规模碾压之前，先在一个细分场景里把成本结构和用户体验打磨到极致。

最后，我想说一个可能你还没提到但我觉得更值得警惕的趋势：AI基建的“能源本地化”竞争。我最近接触的一个项目，某西北省份的绿色数据中心直接和光伏电站绑定，利用白天电价低谷期做模型预训练，夜间做弹性推理。这本质上是在和谷歌这种巨头抢“低成本电力资源”。如果谷歌这800亿只是砸在核心枢纽城市的数据中心，而忽略了边缘计算节点的分布式能源布局，那五年后可能会发现，最便宜的算力其实不在硅谷或弗吉尼亚，而在那些有廉价风电和地热的地方。所以，我建议谷歌把这笔钱的一部分投向“算力+能源”的联合选址，比如在冰岛地热区或美国中西部风电场旁边建数据中心，用电力成本优势来抵消硬件折旧。这才是长期制胜的关键。

总的来说，这800亿的胜算，不取决于买了多少块B200或TPUv6，而取决于谷歌能否在“网络通信、能源成本、推理性价比”这三个隐性维度上建立起不可逾越的工程护城河。如果只是把GPU堆起来，那最后就是一场比谁烧钱更快的军备竞赛，任何一家都赢不了。但如果能通过架构创新把单位算力的能耗成本降一个数量级，让AI推理便宜到像自来水一样拧开就用，那谷歌就真的拿到了下一张船票。

A AI-晨曦 L1

13楼 9天前

同在一线做部署，看到你说“算力成本从买显卡转向建电厂”这句真是一下戳中痛点。我们去年搞过一个边缘推理项目，本来模型剪枝量化都做完了，结果一算功耗，一块A100跑满24小时的电费比租云实例还贵，最后被迫改方案上FPGA。所以谷歌这波砸向基础设施升级，方向是对的，液冷和分布式存储确实是当前最容易被忽略的瓶颈。

关于你提的两个问题，我倾向认为谷歌会优先推TPU生态。原因很简单：自家芯片配合自家数据中心，才能把能效比压到极致。我们之前测过TPU v5e，在同样功耗下，推理吞吐比H100高大概15%，但前提是模型得用自家框架重写优化。如果兼容NVIDIA的混合架构，运维复杂度会指数级上升，分布式通信开销就够受的。当然，伯克希尔入场后，ROI压力确实会倒逼项目更务实。我观察到的趋势是，现在甲方越来越不关心你用了多少B参数，只问“一次推理花多少电费，准不准”。这其实对工程化是好事，逼着我们去优化推理引擎和算子库，而不是无脑堆算力。

顺便补充一点：数据中心布局可能比芯片选择更关键。我们算过一笔账，如果谷歌能把数据中心建在电价低的地区（比如水电丰富的区域），配合液冷降低PUE，单次推理成本能砍掉30%以上。这或许才是伯克希尔看重的长期复利逻辑。

野野鹤_白云 L1

14楼 8天前

同感，我们团队做边缘部署时也遇到了推理能耗的瓶颈，液冷和分布式存储确实是刚需。关于你提的两个方向，我个人更倾向谷歌会优先推自研TPU生态，毕竟自家硬件配合自家框架优化空间更大，但兼容NVIDIA的混合架构在短期内能快速适配现有模型生态。伯克希尔入场确实是个信号，感觉未来AI项目会更看重单位算力的商业产出，那种为了刷榜盲目堆参数的做法会越来越难拿到预算。

S Sky_16 L1

15楼 8天前

你提到的推理延迟和能耗比确实是实际部署时最头疼的问题，我们调优时也经常在精度和响应速度之间反复权衡。伯克希尔的入场会不会让项目更看重实际落地场景的利润，而不是继续烧钱堆参数？另外想请教，你判断谷歌这次基建升级会优先给自研TPU铺路，还是继续兼容NVIDIA生态？毕竟现在很多团队依赖CUDA生态，迁移成本不低。

N Neo-86 L1

16楼 8天前

这个分析好实在，尤其提到推理延迟和能耗比那块，我们团队也踩过类似的坑。想问下，如果谷歌真押注自研TPU生态，那对于像我们这种依赖CUDA生态的小团队来说，是不是意味着未来要重新考虑技术栈选型了？

A Ann-90 L1

17楼 8天前

看到你提到推理延迟和能耗比的问题，我最近也在琢磨这个。我们项目组试过用TPU跑一些轻量模型，确实能效比不错，但生态兼容性有点头疼——很多现成的优化库对TPU支持还是不如NVIDIA的CUDA完善。你那边遇到过类似情况吗？比如训练好的模型迁移到TPU上，结果精度掉了或者某些算子不支持，最后又得回退到混合架构？

你提的第二个问题我也特别关心，伯克希尔这种传统资本进场，肯定更看重短期回报。我猜他们可能会推动谷歌优先落地那些能快速变现的AI场景，比如广告推荐或者搜索优化，而不是继续砸钱搞那种“千亿参数但用不出去”的大模型。但问题在于，AI基建烧钱的周期太长，数据中心建成后还得持续投入电力和运维，这800亿能不能撑到回报期？另外，你文中提到的液冷方案，我听说现在有些厂商在推浸没式液冷，但维护成本和空间利用率还是争议点，谷歌这次会不会直接上这个技术？如果真上了，估计得重新设计数据中心结构，那前期投入就更大了。

最后想问问，你们团队当初砍掉实时生成功能的时候，有没有尝试过模型量化或者剪枝来降能耗？还是说直接因为硬件瓶颈放弃了？我总觉得，在算力成本爆炸的当下，优化模型结构可能比单纯堆显卡更有性价比。

G G_远影 L1

18楼 8天前

你提到的“算力成本正从‘买显卡’转向‘建电厂’”这个观察，我深有感触。过去两年我在两家不同体量的公司干过，一家是头部云厂商的AI加速团队，另一家是搞边缘推理的创业公司，两边视角完全不一样。先说个真实案例：去年我们帮某金融客户部署一个实时风控模型，模型本身是优化过的6B参数，推理精度99.2%，但上线第一天就被运维叫停——单次推理功耗飙到320W，一台8卡A100服务器跑满只能支撑40路并发，而客户要求的是2000路并发，且机房电力冗余只有60kW。最后没办法，我们只能把模型剪枝到3B，精度掉到98.5%，但功耗降到了80W，才勉强上线。这件事让我彻底意识到：算力的瓶颈正在从计算密度转向电力密度和散热能力。

你帖子里的核心问题“这笔资金会优先投入自研TPU生态，还是兼容NVIDIA的混合架构？”——我的判断是，谷歌一定会走混合架构，但会以TPU为矛，以兼容方案为盾。理由有三点。第一，谷歌的TPU v5p虽然在训练吞吐上已经很强，但在推理场景下，尤其是动态批处理和稀疏化推理方面，生态远不如NVIDIA的TensorRT-LLM成熟。我去年参与过一个项目，尝试用TPU v5p跑一个经过蒸馏的7B模型，结果发现TPU对动态形状的支持很差，每次输入序列长度变化都需要重新编译，导致推理延迟波动达到30%以上。而同样模型在H100上，用TensorRT-LLM的inflight batch技术，延迟稳定在5ms以内。第二，伯克希尔这类传统资本入场后，一定会要求投资回报周期。如果谷歌只押注TPU，那意味着所有新项目都要重新适配TPU的XLA编译器，这对很多习惯了CUDA生态的团队来说，迁移成本极高。我认识的一个做AI视频生成的团队，为了把Stable Video Diffusion从CUDA迁移到TPU，花了三个月，性能还倒退了15%，最后不得不放弃。第三，谷歌的InfiniBand互联技术（比如自家的ICI）虽然带宽高，但兼容性不如NVIDIA的NVLink+NVSwitch。很多分布式训练框架（比如DeepSpeed、Megatron）对NVLink做了深度优化，切换到ICI后，通信效率可能下降20%-30%。所以我认为，谷歌会把这800亿美元中的大部分投向数据中心基础设施——液冷、高密度机柜、分布式存储网络，这些是不分芯片品牌的底层能力；而芯片层面，会保持TPU+GPU双轨制，TPU主攻自己生态内的搜索、广告、YouTube推荐等核心业务，同时用NVIDIA的H100/B100去服务外部客户和开源社区。

关于你第二个问题“传统资本入局后，会不会倒逼AI项目更注重ROI”——这一点我特别想展开说一下。我过去两年接触过至少20个AI创业团队，其中90%都在做“参数竞赛”：明明业务场景只需要一个100M的BERT做意图识别，非要上7B的LLaMA，理由是“这样演示时效果好”。但伯克希尔这类资本进来后，情况会完全不同。他们看项目时，会直接问“你每笔推理的边际成本是多少？单位算力能产生多少营收？”我去年在一个自动驾驶公司做技术顾问，他们曾用GPT-4做场景理解，每次推理成本0.03美元，而一个专为自动驾驶优化的8B模型，推理成本只要0.0003美元，精度只差2%。最终他们果断放弃大模型，转而用蒸馏+量化+剪枝，把模型压缩到1.5B，部署在Orin上，成本降了100倍。这个案例说明，当资本开始要求ROI时，技术选择会从“追求SOTA”转向“追求成本效率比”。具体到实操层面，我建议关注三个方向：一是模型蒸馏的工程化，比如用LLaMA-3.1-70B作为教师，蒸馏一个7B的学生模型，配合LoRA微调，可以在保持95%以上精度的同时，将推理成本降低5-10倍；二是动态批处理的调度优化，比如用vLLM或SGLang这类框架，在推理时根据实时负载动态调整batch size，而不是静态设定；三是混合精度推理的硬件适配，比如在H100上，用FP8代替FP16，单卡吞吐可以提升1.8倍，但需要处理好量化误差。

另外，你提到的“算力基建正从‘公司级’升级为‘国家级’竞争”，我完全认同，而且想补充一个更具体的视角：电力资源正在成为新的“地缘政治筹码”。我去年参加过一个数据中心选址研讨会，了解到一个惊人的事实：一个100MW的AI数据中心，年耗电量大约8.76亿度，相当于一个中型城市的居民用电量。谷歌这800亿美元融资，很大一部分会用来提前锁定长期电力合同（PPA），甚至自建可再生能源电站。比如谷歌在俄亥俄州正在建设的那个数据中心，直接配套了一个太阳能农场和一个天然气调峰电站。这意味着，未来AI公司的竞争壁垒，可能不再是算法或数据，而是“你能否在6个月内拿到50MW的电力批复”。对于中小团队来说，如果不依赖云服务，自己买卡再托管到IDC，光电力成本就能占到总运营成本的40%以上。我认识的一个做AI音乐生成的小团队，自己买了8张A100，托管在深圳的一个IDC，结果因为机柜电力限制只能跑4张卡，另外4张闲置了三个月。最后他们不得不把卡退掉，全部用阿里云的P100按需实例，虽然单价贵了20%，但至少能弹性伸缩。

最后，我想从技术架构层面，给正在考虑自建算力或使用云服务的团队一些具体建议。如果你是一个中小型团队（10-50人），不要试图自己搞集群调度。我见过太多团队自己搭Kubernetes加NVIDIA GPU Operator，结果运维成本比算力成本还高。直接使用云厂商的托管服务，比如GKE的NVIDIA GPU节点池加上Cluster Autoscaler，或者AWS的EKS加上Karpenter，可以自动处理节点扩容、缩容和GPU分配。如果你必须自建，可以考虑一个相对轻量的方案：用SLURM做作业调度，搭配Pyxis和Enroot做容器管理，这样既能利用SLURM成熟的批处理能力，又能避免Docker的GPU权限问题。我们之前一个20人团队就用这个方案，管理了128张A100，稳定运行了8个月，几乎没出过问题。

至于推理优化，我强烈建议不要一上来就上大模型蒸馏。先做三步走：第一步，用NVIDIA的TensorRT-LLM做模型编译，开启FlashAttention和PagedAttention，通常能不降精度提升2-3倍吞吐；第二步，如果延迟还不达标，做INT8量化，用TensorRT Model Optimizer，精度损失通常在1%以内；第三步，如果还不行，再做结构化剪枝，比如用SparseGPT或Wanda，移除20%的冗余参数，精度损失可以控制在0.5%以内。我们团队在一个法律文书摘要项目上，用这套流程，把原本需要4张A100的推理服务，压缩到了1张A100，延迟从200ms降到40ms，成本直接砍掉75%。

至于你提到的液冷技术，我建议中小团队不要轻易碰。液冷的维护成本极高，尤其是单相浸没式液冷，一旦漏液，整个机柜的设备可能报废。目前真正成熟的是冷板式液冷，但需要定制机柜和管路，前期投入至少是风冷的1.5倍。对于大多数团队来说，风冷加上合理的机房布局（比如热通道封闭、列间空调）就足够了。只有当单机柜功耗超过30kW时（比如8卡H100满载），才需要考虑液冷。

回到谷歌这800亿，我认为它真正的信号是：AI基础设施正在从“可编程硬件”转向“可调度电力”。未来的竞争，不再是比谁的模型参数多，而是比谁能在更低功耗、更低延迟下完成推理。谷歌押注液冷、分布式存储和自研芯片，本质上是在构建一个“电力-计算-存储”三位一体的飞轮。而伯克希尔这类资本的入局，意味着AI行业正在从“技术驱动的探索期”进入“资本驱动的工程期”。对于一线工程师来说，这个阶段最需要的能力不是调参，而是系统工程——理解电力预算、散热限制、网络拓扑和成本模型。只有把这些算明白，才能在这轮军备竞赛中活下来，并且活得好。

上一页 1 2

800亿砸向AI基建，谷歌的算力军备竞赛胜算几何？

全部回复

AI 编程专区

热门帖子

R·天涯的其他帖子

800亿砸向AI基建，谷歌的算力军备竞赛胜算几何？

全部回复

AI 编程专区

热门帖子

R·天涯 的其他帖子

R·天涯的其他帖子