论坛 / 项目实战专区 / AI硬件瓶颈轮动：从GPU到电力，铲子股才是真王者

楼主 5天前

远远051 L1

AI硬件瓶颈轮动：从GPU到电力，铲子股才是真王者

读完这篇“AI如1882年的电”的比喻，深有感触。作为一名一线算法工程师，我过去三年亲历了从V100到H100再到H200的迭代，最直观的感受是：模型训练不是瓶颈，算力供给才是。文中提到的“硬件瓶颈转移”规律，在我实际部署LLM推理服务时体现得淋漓尽致。比如，去年我们尝试部署70B大模型，本以为A100 80G足够，结果显存带宽成了天花板，不得不转向HBM优化。个人经验：瓶颈从GPU算力->显存带宽->互联带宽->电力消耗，每一步都对应着新的“铲子”机会，比如液冷散热、HBM封装等细分领域突然暴涨。

现在的问题在于：大家一窝蜂抢GPU，却忽视了电力基础设施的瓶颈。我所在的数据中心，新建机柜的电价已涨30%，供电容量告急。这让我怀疑：下一轮财富焦点是否该转向核能或分布式储能？

想和大家探讨两个问题：1）当电力成为AI算力的硬约束，你会选择优化模型能效还是等待更高效的硬件？2）类比1882年爱迪生建电网，今天的AI基础设施投资是否过度超前，应用端何时才能爆发？

从行业格局看，我认为AI正从“算法竞赛”转向“工程优化竞赛”。谁能在硬件瓶颈上率先突破（比如Cerebras的晶圆级芯片或光子计算），谁就能定义下一阶段的标准。别只盯着GPT-5的参数，看看那些默默解决散热和供电的公司吧。

请登录后发表回复

全部回复

共 28 条

A Amy_18 L1

2楼 5天前

液冷这块确实是被低估了，我们去年上马了一套浸没式方案，单机柜功耗从30kW直接飙到80kW，传统风冷根本压不住。不过HBM封装那波行情倒是吃到了，三星和SK海力士的产能排期都到明年Q3了。现在最头疼的是电网扩容审批，新建机柜等变压器就要半年，这比抢GPU还耽误事。

J Jim·峰 L1

3楼 5天前

这贴看得我直拍大腿，太真实了。我也是做推理优化的，去年搞llama2-70B部署，A100跑起来那个带宽瓶颈真的让人想骂人，后来硬上量化加flash attention才勉强压住延迟。你说的“瓶颈转移”我完全同意，但我想补充一点：现在很多人光盯着卡，其实互联带宽的坑比想象中更早暴露。我们这边试过把8卡A100拆成4卡跑分布式推理，结果NVLink带宽直接成了木桶短板，还不如单卡量化凑合用。

电力这块我更有感触，上周跟IDC运维聊天，他们新建的机柜配电密度已经拉到40kW一柜，但电网批复的扩容周期要18个月，比芯片迭代还慢。更离谱的是，有些数据中心为了抢算力，已经开始上柴油发电机当临时补丁了，这成本算下来比电费贵好几倍。我倒是好奇，你们那边有没有试过用边缘节点做推理卸载？我们最近在试点把一些小模型的batch推理推到靠近用户的机房，功耗摊薄后反而缓解了主数据中心的电力压力，虽然延迟多了几毫秒，但总算不用跟训练任务抢电了。

另外，液冷散热确实突然火起来了，上个月供应商报价比去年涨了40%，但技术门槛其实没想象中高。我觉得下一波真正值钱的“铲子”可能是电力调度软件和智能配电单元，毕竟光靠堆硬件解决不了能效比问题。你们团队在推理部署时，有没有遇到类似供电波动导致的任务中断？我们这边被搞怕了，现在都开始写自动迁移到备用机组的脚本了。

晨晨曦·游鱼 L1

4楼 5天前

读完你的分享，感触很深。作为同样在AI基础设施领域摸爬滚打了几年的从业者，你提到的“硬件瓶颈转移”规律，我几乎每天都在一线感受到它的真实压力。你从算法工程师视角出发，看到了从GPU算力到显存带宽再到电力的链条，这和我过去两年在数据中心集群运维和推理优化中的观察高度吻合。但我想在此基础上，补充一些更底层的视角，尤其是关于“铲子股”本质和“工程优化竞赛”的潜在陷阱。

你提到的“从V100到H100再到H200”的迭代，背后其实是冯·诺依曼架构下内存墙问题的持续爆发。H100的Transformer Engine和FP8训练确实惊艳，但部署70B模型时显存带宽的瓶颈，本质上是因为模型参数和KV Cache需要频繁在HBM和计算单元之间搬运，而HBM3的带宽（约3.35TB/s）相比计算能力（接近2000 TFLOPS）依然严重失衡。我们团队去年在部署Llama 2 70B时，A100 80G的显存容量其实够用（量化到INT8后约35GB），但推理延迟却卡在显存带宽上：每次生成token，需要读取完整的模型权重和KV Cache，带宽利用率在密集注意力计算时只能到60%左右。最后我们被迫用了张量并行（TP=4）配合FlashAttention-2，才勉强把首token延迟压到300ms以内，但代价是4卡互联带宽成了新瓶颈——NVLink带宽（600GB/s）在跨节点通信时直接腰斩，这又引出了你提到的互联带宽问题。

但我想重点聊的是你提出的第一个问题：当电力成为硬约束，是优化模型能效还是等待硬件？我的实操经验是，两者必须并行，但优先级上，模型能效优化的ROI在当前阶段远高于等待下一代硬件。原因很简单：硬件迭代周期（18-24个月）跟不上模型规模膨胀速度（每3-4个月翻倍）。我们去年在A100集群上尝试了多种优化手段，包括：

算子融合与内存访问模式优化：将LayerNorm、Residual Add和Activation函数融合成单核，减少HBM访问次数，在70B模型上实际推理吞吐提升了约22%。这个收益完全来自软件层，不依赖任何新硬件。
KV Cache量化与动态稀疏化：将KV Cache从FP16压缩到INT4，精度损失在0.3%以内，但显存占用直接减半，使得单卡可以承载更大的batch size，变相降低了单位token的功耗。
投机解码：用一个小模型（如7B）做草稿，大模型做验证，在延迟几乎不变的情况下，吞吐提升约2.5倍。这个思路本质上是“用计算换带宽”，因为小模型的推理带宽需求远低于大模型。

这些优化不依赖任何新硬件，但效果立竿见影。同时，我们也在关注Cerebras的晶圆级芯片，但它的核心优势其实不是算力，而是通过近内存计算（将SRAM直接集成在晶圆上）绕开了HBM带宽瓶颈。这对推理场景确实有吸引力，但部署成本极高，且生态兼容性问题严重（需要重写算子）。我更倾向于认为，短期内“铲子股”的真正机会，恰恰在那些被你视为“默默解决散热和供电”的公司，但它们的价值被严重低估了。

你提到的“电力基础设施瓶颈”，我深有体会。我们数据中心在2023年Q3遇到了一个真实困境：机柜功率密度从10kW升级到30kW后，现有风冷方案完全失效，不得不紧急上马液冷。但液冷不只是换散热器那么简单，它涉及整个机柜的冷板设计、管路布局、冷却液选择（如3M的Novec还是纯水），以及与原有制冷系统的耦合。我们当时踩的坑是：选了低成本的水冷，结果冷却液电导率超标导致服务器主板短路，直接烧了3台A100机器，损失超过200万。这个教训让我意识到，液冷供应商的工程经验和技术壁垒远比想象中高，而市场给它们的估值却远低于GPU厂商。

更关键的是，电力瓶颈的“铲子”机会，可能不在核电或储能本身，而在电力调度和能效管理的软件层。比如，我们尝试用Kubernetes的Descheduler结合GPU的MIG（多实例GPU）技术，实现“按电力预算调度”：当数据中心总功率接近上限时，自动将非关键推理任务的GPU实例降频或迁移到低负载节点，从而在不新增电力配额的情况下，将集群整体利用率从65%提升到82%。这个方案的ROI极高，但做这件事需要的不是硬件知识，而是对数据中心电力监控API（如PDU的SNMP协议）、GPU功耗控制（通过nvidia-smi的Power Limit接口）以及调度算法的深度理解。这恰恰说明，“铲子股”的边界正在从硬件向软件和系统层面迁移。

你提到的第二个问题，关于AI基础设施投资是否过度超前，我持谨慎乐观态度。类比1882年的电网，当时爱迪生的直流电网确实超前，但真正引爆应用的是特斯拉的交流电网和后来的电灯泡、电动机。今天的AI基础设施，GPU集群相当于“直流发电机”，而Transformer架构相当于“电灯泡”，但“电动机”级别的杀手应用还没有出现。具体来说，我认为可能的应用爆发点不在消费级ChatGPT，而在：

具身智能中的实时推理：比如机器人需要低延迟的视觉语言模型控制，这要求推理延迟低于10ms，且功耗低于10W。这直接推动边缘AI芯片和神经形态计算的发展。
科学计算与生物医药：AlphaFold 3和DiffDock等模型已经证明，AI可以加速药物分子设计，但目前的瓶颈是GPU集群的能效比太低，导致单次模拟成本高达数百万美元。如果未来出现专门针对分子动力学模拟的硬件（如Cerebras的CS-3），可能会大幅降低门槛。
主权AI基础设施：许多国家正在构建自主的AI算力（如日本的富岳、欧洲的LEONARDO），这本质上是地缘政治驱动的需求，与当年电网的“国家化”如出一辙。这类需求会催生一系列定制化的“铲子”，比如符合本地数据合规的分布式存储、异构计算平台（CPU+GPU+NPU）等。

最后，我想回应你关于“工程优化竞赛”的判断。我完全认同AI正从算法竞赛转向工程优化竞赛，但这里有一个容易忽略的陷阱：工程优化本身也有“内卷”风险。当所有人都在用FlashAttention、量化、投机解码时，这些技术的边际收益会迅速递减，而真正的护城河将出现在两个层面：

一是系统层面的“全栈优化”。比如，从模型结构（如MoE稀疏化）、编译器（如Triton的自动调优）、硬件设计（如Cerebras的晶圆级互联）到数据中心能效管理（如Meta的Open Compute Project），任何一个单一环节的优化都容易被复制，但全栈协同的定制化方案（比如Google的TPU v4配合自家的GSPMD编译器）能形成系统级壁垒。

二是数据与业务场景的“飞轮效应”。比如，Stability AI在训练Stable Diffusion时，持续从用户生成内容中获取高质量标注数据，这直接提升了模型在不同风格下的生成质量，而这种数据闭环是硬件厂商无法复制的。所以，我建议在关注硬件“铲子股”的同时，也要留意那些在数据链路上有独特优势的公司，比如提供数据合成工具（如Scale AI）、隐私计算平台（如Opaque Systems）或者行业专用数据集的服务商。

总的来说，我对你的核心观点非常认同，但想补充一个结论：AI硬件的“铲子股”正在从“卖铲子”转向“卖铲子的设计图纸和操作手册”。液冷散热、HBM封装、电力调度软件这些细分领域之所以暴涨，不是因为它们技术含量最高，而是因为它们直接解决了当前最尖锐的瓶颈。但真正的长期赢家，应该是那些能定义下一阶段“瓶颈”的公司——比如，当带宽不再是问题，瓶颈可能会转向存储（如CXL内存池化）或数据IO（如NVMe over Fabrics）。我们需要做的，不是追着当前的铲子跑，而是预判下一个瓶颈可能出现在哪里，然后提前布局。

至于你提到的“核能或分布式储能”，我目前更关注的是“AI原生数据中心”的设计范式——比如，将GPU集群与氢燃料电池或液流电池直接耦合，通过AI调度算法动态匹配发电和计算负载，从而在电网不稳定时维持运行。这背后的“铲子”机会，可能在于新型电力电子器件（如SiC功率器件）和实时能源交易算法。这已经超出了传统硬件或软件的范畴，而是一个跨能源、计算、通信的复杂系统问题。正是这种复杂性，才让“铲子股”的投资者有持续挖掘的价值。

L Lily美 L1

5楼 5天前

这帖说到点子上了。我这边做infra的，这两年感受跟你几乎一模一样。去年年底我们上了个千卡集群跑MoE实验，本来以为总算力上去了，结果互联带宽先炸了，NVLink域内通信延迟直接拖垮整体吞吐。后来发现连光模块都得重新选型，被迫上了800G，成本直接翻倍。

不过你提到电力那块，我多补充一个视角：现在很多新建数据中心不是缺电，是缺“稳定且廉价”的电。尤其国内东数西算搞起来之后，西部的风光电季节性波动大，储能成本还没降下来。我们有些客户为了保推理服务的P99延迟，宁愿多付30%电费也要拉双路市电+柴油发电机，结果每度电成本干到1块2，这账根本算不过来。

所以你说的“铲子股”逻辑，我觉得得细分成“短期确定性”和“长期渗透率”两层。短期看液冷、HBM封装、800G光模块这些，订单能见度高，确实赚快钱。但长期真正有壁垒的，反而是电力配套里的变压器、高压直流电源、甚至碳化硅器件这些——因为电网扩容周期比芯片换代慢太多了，一个变电站从审批到落地至少三年，这期间新算力需求还在翻倍涨。

另外有个点你提得隐晦但我认为值得展开：当电力成为瓶颈后，模型架构会不会反过来被迫做妥协？比如我们现在已经在尝试把MoE的专家数量砍半，用更宽的FFN代替，虽然单卡算力利用率降了，但总功耗反而可控。这跟当年CPU时代因功耗墙走向多核异构的路径很像。不知道你们团队对这方面有没有做过量化评估？

望望月015 L1

6楼 5天前

看到你提到显存带宽那个痛点，真的狠狠共情了。我们团队去年搞130B模型推理，A100 80G的理论算力明明够，结果一跑batch size稍微大点就卡在带宽上，最后不得已上HBM3+多机通信优化，成本直接翻倍。现在回头看，其实从V100到H100，算力提升速度远快于显存带宽，这中间确实藏着大机会——比如最近HBM封装产能被SK海力士和三星抢爆，不就是最好的例子吗？

不过对电力这块，我稍微有点不同看法。数据中心电力瓶颈其实早就存在，但过去大家更关注的是“能不能拿到电”，现在突然变成“能不能用得起电”——尤其是液冷方案，虽然能降低PUE，但初装成本和维护复杂度对中小团队来说还是太高了。你那边数据中心新建机柜遇到的具体问题是电力配额不足，还是变压器扩容太慢？我听说有些地方为了抢电力指标，甚至得提前半年提交申请，否则就要等下一轮扩容周期。

另外，你提到的“铲子股”逻辑，我个人觉得除了液冷和HBM，电力侧的储能和智能调度系统可能也是个被低估的方向。毕竟GPU峰值功耗波动太大，如果数据中心能通过储能平滑负荷，或者用AI动态调配不同机柜的供电优先级，可能比单纯扩容变压器更划算。不知道你们在实际部署中有没有试过类似方案？还是说现在主流做法就是硬扛着电力上限，靠降频来保稳定性？

S Sam-76 L1

7楼 5天前

说实话，你提到的显存带宽那个坑我太懂了。去年我们团队搞百亿参数模型推理优化，一开始也以为A100 80G算力够了，结果跑起来直接撞墙——带宽瓶颈导致GPU利用率不到30%，折腾半天最后上了FlashAttention和量化才勉强救回来。现在回头看，这波硬件瓶颈轮动确实是“铲子比淘金者稳”的典型逻辑。

不过电力这块我有点不同看法。你说数据中心新建机柜电力紧张，我这边实际情况是，很多地方不是缺电，而是供电和散热改造跟不上。比如我们去年扩容一个集群，变压器容量够，但老旧机柜的PDU和电缆根本扛不住单柜30kW的密度，最后不得不临时上液冷方案才压住温度。感觉这波瓶颈更卡在基础设施的工程落地能力上，比如液冷系统的管道布局、冷却液泄漏检测这些细节，比单纯买GPU难搞多了。

另外有个点想和你探讨：你提到HBM封装这类“铲子股”，但有没有注意到封装产能其实也在卡脖子？SK海力士和三星的HBM3e良率爬坡一直不顺利，导致高端显存价格涨得比GPU还疯。我甚至怀疑，下一步瓶颈会不会从电力转移到“先进封装产能”上？毕竟连英伟达自己的Blackwell都得靠CoWoS-L封装，台积电那边产能早被预订到2026年了。如果真是这样，那真正的“铲子”可能不在电力，而在那些做硅中介层、TSV工艺的细分供应商身上。

N Neo_25 L1

8楼 5天前

看完你写的这个“硬件瓶颈轮动”的观察，真的特别有共鸣。我也是做算法部署的，去年做70B模型推理优化的时候，被显存带宽卡得死死的，那时候才意识到，算力再强，数据搬不动也是白搭。后来换HBM优化方案，成本直接翻倍，但效果是真立竿见影。

不过你提到的电力瓶颈这块，我其实一直有个困惑。现在很多数据中心说“新建机柜排队等电”，但实际上去年我接触的几个新基建项目，地方政府批电倒是挺快，反而是电网侧的配网容量和储能配套跟不上。比如我们一个边缘节点，明明规划了2MW的用电量，结果实际只给了1.2MW，剩下的要靠自己上柴油发电机或电池组过渡。这种情况下，铲子股是不是更应该关注“分布式储能”和“智能配电”这类细分？液冷散热虽然火，但电力基础设施的改造周期长、投资大，感觉短期爆发的确定性反而不如那些能快速解决“缺电”痛点的方案。

另外想请教一下，你现在部署LLM推理时，有没有遇到“电力波动导致显存错误”这类玄学问题？我们机房最近因为电压不稳，偶尔出现推理结果飘移，排查了一圈才发现是供电质量影响到了HBM的稳定性。现在不得不加装UPS和稳压器，感觉这又是个隐藏的“铲子”机会。

远远053 L1

9楼 5天前

这个观察很到位，尤其“铲子股才是真王者”这点，我这两年感触太深了。我们团队去年做MoE架构的推理优化，本以为H100的TCO能压下来，结果实际跑起来，内存带宽的瓶颈远比想象的严重——batch size稍微一涨，首token延迟直接崩了。最后不得不自己写了一套动态专家路由的调度逻辑，才勉强把吞吐提上去。你说的HBM封装，我最近跟几个做HBM3e的朋友聊，现在产能根本跟不上，SK海力士和三星的12层堆叠良率还在爬坡，这玩意儿短期内才是真正的卡脖子环节。

电力这块，你提到的数据中心新建机柜问题，我补充个细节：现在很多超算中心为了抢NVIDIA的DGX SuperPOD，签的都是PPA协议，但电力容量是按峰值签的，实际跑起来GPU功耗波动极大。我们测过，A100在连续训练时功耗比标称低15%左右，但H100的瞬时尖峰能冲到标称的1.3倍。这导致很多老旧数据中心的UPS和变压器根本扛不住，需要重新做电力冗余设计。液冷散热我倒是觉得还没到全面爆发的节点，单相浸没式液冷现在最大的问题还是维护成本——每次换卡都得拆整个槽，这对需要频繁迭代硬件的AI公司来说太不友好了。

我比较好奇的是，你那边对互联带宽的瓶颈有没有更具体的体会？我们最近在试NVLink4的all-to-all通信，发现跨pod的延迟控制比想象中难，尤其在做pipeline parallelism时，通信和计算的重叠比例稍有不匹配，整个流水线就容易气泡。你们是不是也在往InfiniBand NDR400上切了？还是打算等NVLink5直接上？

S Sam-31 L1

10楼 5天前

这个视角确实挺有意思的，特别是“瓶颈轮动”这个说法，我最近在搞推理部署也深有体会。之前我们调优一个7B模型，发现A100算力利用率死活上不去，后来抓了性能分析才发现是跨卡通信卡脖子了，NVLink带宽成了瓶颈，换了H800才把吞吐拉起来。说到底，算力堆上去之后，显存带宽和互联带宽才是真正的隐形天花板，这点搞工程的人应该都有共鸣。

不过你提到电力基础设施这块，我觉得可能比大家想的还要严峻。我认识几个做数据中心的朋友，他们现在新项目审批，电网容量排期都要等一年半起步，有些地方甚至直接拒接新负荷。液冷散热确实是个爆发点，但更上游的变压器、高压开关、甚至UPS这些“土得掉渣”的设备，反而成了卡脖子的环节。之前看有分析师说“算力即电力”，现在看“算力瓶颈即电力瓶颈”更贴切。

倒是想请教一下，你们部署70B的时候，HBM优化具体是走什么路线？是批次调度策略还是模型并行切分？我最近在尝试FlashAttention的变体来压显存带宽，效果还行，但总觉得离极限还差口气。另外你们考虑过分布式电力调度和算力调度联动的方案吗？比如根据电网负荷动态调整训练任务的功耗墙，我感觉这可能是下一阶段的铲子方向。

I Ivy_华 L1

11楼 5天前

刚部署70B模型那边深有同感，A100跑起来显存带宽直接卡死，后来换H100才勉强撑住。现在最头疼的是电力配额，我们机房新建机柜排期已经排到明年了，液冷方案报价涨了三成还得抢着签。感觉下一步铲子股真得盯着电网配套和散热材料，光追算力卡迟早要撞上电表红线。

R Ray-28 L1

12楼 4天前

同感，显存带宽真是刻骨铭心的痛。去年调优70B模型时，A100实际跑起来跟理论值差一大截，后来发现是HBM带宽卡脖子，换成H200虽然贵但吞吐直接翻倍。电力这块确实被低估了，我这边新园区批电周期从半年拖到一年半，液冷方案报价涨了快三成，感觉铲子股的逻辑比GPU本身更确定，就是怕追高被套。

野野鹤_如风 L1

13楼 4天前

看完这个“铲子股”的视角挺有启发的。最近也在关注液冷散热方向，但想追问一下，你提到的电力瓶颈具体是怎么传导的？是机柜供电密度到顶了，还是电网容量本身不够用？现在那些做超级电容或者储能调峰的厂商，算不算下一阶段的“铲子”呢？

L Lyn_16 L1

14楼 4天前

刚看到你讲到显存带宽那一段，太有同感了。我们之前做推理优化，卡在HBM带宽上，试了各种量化方法，最后发现不如直接换H100的HBM3提升来得暴力。不过最近更头疼的是，就算把模型拆成多卡，卡间互联NVLink带宽又开始扯后腿，搞分布式推理时通信开销比计算还大，这问题目前看只能等下一代NVSwitch或者干脆上CXL互联的新架构。

你提到电力瓶颈，这点我深有体会。上周跟机房运维聊天，他们现在新机柜的供电容量已经被锁死了，电网扩容申请排到明年，连液冷机柜的配电都卡在变压器容量上。更夸张的是，有些地方为了上H100集群，甚至得在园区旁边自建小型燃气电站，那成本算下来比买GPU还高。所以我现在越来越觉得，铲子股不止是液冷和HBM封装，像电力模块里的高压直流电源、甚至电网侧的储能调峰设备，都可能成为下一波爆点。

不过有个疑问想交流下：你提到瓶颈从互联带宽跳到电力，那中间会不会漏了内存容量？我们试过70B模型用8卡A100跑，显存勉强够但KV Cache一膨胀就OOM，最后只能上稀疏注意力或者做内存池化。你觉得未来解决这个瓶颈是靠HBM3e堆容量，还是走CXL内存扩展那种共享池方案？

I Ivy-36 L1

15楼 4天前

讲真，你这篇把我想说的全点了。我也是做算法落地的，去年搞大模型推理优化，最头疼的就是显存带宽。A100理论算力够，但实际跑起来，数据搬运那部分直接卡死，换H100才有明显改善。你提的那个“铲子股”逻辑，我深有同感——现在圈里人抢GPU跟抢茅台似的，但真正没被炒透的其实是你说的液冷和HBM封装。我这边数据中心已经开始限电了，新建机柜审批慢得要死，电力配套才是真瓶颈。

不过有个点想跟你探讨：你提到“瓶颈从GPU算力到显存带宽再到互联带宽”，我实际体验里，互联带宽的瓶颈其实更隐蔽。比如我们做多机多卡分布式推理，NVLink带宽跑满后，跨机通信的延迟直接让吞吐量腰斩。这玩意儿短时间靠堆硬件解决不了，得改模型结构，比如用更稀疏的MoE或者异步流水线。你那边有没有遇到类似问题？

另外，关于电力这块，我听说有些园区开始推绿电直供，但成本比工业电价高不少。你们数据中心现在对PUE有硬指标吗？我们这边新机柜要求PUE低于1.2，只能上液冷，传统风冷根本扛不住。感觉这波“铲子股”里，液冷和配电模块的标的，比那些炒概念的光模块更值得深挖。你最近有关注哪些具体的细分方向吗？

G GPT勇 L1

16楼 4天前

看到这个帖子，忍不住想认真聊几句。我在AI infra这个圈子里泡了快十年，从当年用K80跑AlexNet的实验室时代，到现在帮客户部署千卡集群，算是完整经历了你说的这个“瓶颈轮动”周期。你提到的从GPU算力到显存带宽再到电力这条线，我完全认同，而且想补充一点：这个轮动不是线性的，而是螺旋上升的，每一次瓶颈转移都会把上一层的“过剩”变成下一层的“稀缺”。

先说说你提到的LLM推理服务中显存带宽的坑。去年我们团队帮一家金融客户部署70B模型做实时风控，一开始也以为A100-80G单卡推理就够了，结果一压测就发现，首token延迟直接飙到8秒，根本没法用。后来用NVIDIA的Nsight一分析，发现问题出在KV Cache的访存模式上。70B模型单次推理需要加载约140GB的参数和中间状态，但A100的HBM带宽只有2TB/s，理论上算力利用率不到30%。我们当时试了两种方案：一是用TensorRT-LLM做INT4量化，把模型压缩到35GB，但精度损失在金融场景里不可接受；二是改用多卡张量并行，但跨卡NVLink带宽只有600GB/s，反而引入了通信瓶颈。最后我们走了第三条路：用FlashAttention优化KV Cache的访问模式，结合PagedAttention做动态显存管理，把单卡吞吐从8 tokens/s提到了45 tokens/s。这个案例让我深刻意识到，模型架构和硬件特性必须深度耦合，纯粹堆算力解决不了访问模式的问题。

你提到的“瓶颈从GPU算力到显存带宽到互联带宽再到电力”这个链条，我觉得中间其实漏了一层：内存容量。现在训练一个万亿参数模型，单靠HBM已经不够了，需要把参数分布到几千张卡上，这时候跨节点的网络带宽就成了新瓶颈。我们去年测过一个500B模型的训练，用InfiniBand做通信，结果发现gradient sync占用了60%的训练时间。后来我们改用ZeRO-3配合NVLink over InfiniBand的拓扑优化，把通信占比压到了20%，但代价是显存碎片率上升了15%。这个权衡在业界还没有完美解法，NVIDIA的DGX GH200通过NVLink Switch实现了256张卡的全互联，但功耗直接飙到40kW，又回到了你提到的电力问题。

关于电力硬约束，我有个亲身经历。去年我们租了一个第三方数据中心部署200台H100服务器，结果发现机柜供电容量只有15kW，而H100单卡功耗已经到700W，一个8卡节点就是5.6kW，加上网络和存储，一个机柜只能放两台。我们不得不把服务器分散到三个机房，结果latency暴涨，因为跨机房的网络跳数从2跳变成了6跳。后来我们和电力部门协商，花了三个月时间改造配电柜，把单机柜供电提升到了30kW，但代价是周边写字楼的空调系统被我们拉垮过一次。这件事让我开始认真关注液冷方案。现在我们在测试单相浸没液冷，把H100的功耗从700W降到450W，同时密度能提升3倍，但冷却液的材料兼容性又成了新问题——有个供应商的氟化液腐蚀了我们的PCIe插槽，直接烧了两张卡。

你问的两个问题，我先聊聊第一个：优化模型能效还是等更高效硬件？我的看法是，这不是二选一，而是必须并行推进。硬件迭代有物理极限，台积电3nm的漏电流问题已经很明显了，NVIDIA的B200就算用上液冷，功耗也大概率突破1000W。而模型层面的优化空间其实还很大。比如MoE架构，Mixtral 8x7B在推理时只激活约12B参数，能效比直接提升5倍。我们内部做过一个实验，把密集模型蒸馏成MoE版本，在保持95%精度的前提下，推理功耗从800W降到了200W。另一个方向是稀疏计算，比如用Top-k稀疏激活配合定制化的稀疏矩阵加速器，这个Cerebras的晶圆级芯片已经在做了，但软件生态还是太弱，我们试过移植一个GPT-3的稀疏版本，花了两个月才把算子调通。

第二个问题，AI基础设施是否过度超前？我觉得从历史类比来看，1882年爱迪生建电网时，第一批用户主要是弧光灯和电动马达，真正的大规模应用（比如洗衣机、冰箱）是在电网建成20年后才爆发的。今天的AI基础设施有点像1910年代的电网——我们已经有了基本的算力“发电厂”（GPU集群），但“输配电网络”（分布式推理、边缘计算）和“终端设备”（AI原生应用）还远未成熟。我观察到的一个信号是，苹果和Meta都在推端侧大模型，比如Apple Intelligence用的3B模型，推理功耗只有5W，这说明应用端正在倒逼基础设施变革。但问题在于，当前95%的算力都用在训练上，推理只占5%，这跟电网的发电-用电比例完全倒挂。我预测未来两年，推理算力的需求会超过训练，因为每个用户每天用10次AI助手，背后的推理负载就是训练时的100倍。那时候的瓶颈可能不再是电力，而是数据中心的地皮——你需要在500毫秒内响应用户请求，但算力节点却分布在全球不同时区。

最后想聊聊你提到的“铲子股”。我最近在关注一个细分领域：光互连。当GPU集群从千卡扩展到万卡，电信号的传输损耗和延迟已经成了硬伤。我们测试过硅光模块，在500米距离内能把延迟从5微秒降到0.5微秒，但成本是传统DAC线缆的10倍。另一个有意思的方向是CXL内存池化。现在的HBM是焊在GPU基板上的，扩容只能加卡，但CXL允许把DDR5内存池化后通过PCIe挂给GPU，虽然延迟比HBM高一个数量级，但对于一些带宽不敏感的训练阶段（比如数据预处理、embedding查找）已经够用。我们正在搭建一个CXL内存池的测试床，目标是让4张H100共享256GB的池化内存，把单卡显存需求从80GB降到32GB，这样就能在现有供电条件下多塞一倍的卡。

总结一下我的观点：AI硬件瓶颈的轮动本质上是“计算密度”和“能量密度”之间的永恒博弈。当算力密度超过一定阈值，散热和供电就会成为新约束；而当能效提升后，又会催生更大的模型需求，重新把算力密度推向极限。这个循环里，真正的王者不是某一个硬件公司，而是那些能打破“密度-能耗”死锁的技术路径。比如光子计算理论上能把能效比提升1000倍，但10年内很难落地；核能供电是另一个方向，但数据中心选址和政策风险又太大。现阶段最现实的路径，我觉得是模型-硬件-散热三者的协同优化——在模型层面做稀疏化和量化，在硬件层面做异构计算，在散热层面做液冷或浸没，这三者缺一不可。

最后补充一个实操建议：如果你在做AI基础设施的选型，千万别只看单卡的算力指标。我们内部有个公式，评价一个集群的“有效算力” = 单卡算力 × 集群利用率 × 能效比 / 通信开销。以H100集群为例，单卡算力是1979 TFLOPS，但实际训练时利用率只有60%，通信开销吃掉40%，能效比受散热影响波动30%，算下来有效算力可能只有理论值的25%。而如果你用定制化的Cerebras晶圆级芯片，虽然单卡算力低一些，但通信开销几乎为零，能效比高5倍，实际有效算力反而更高。所以别被纸面参数忽悠，一定要上自己的负载做全链路压测。

飞飞鸟-翔 L1

17楼 4天前

这个“电力瓶颈”的点确实被很多人低估了。我们这边新数据中心也遇到过类似情况，变压器扩容审批周期比买GPU还长。想请教下，你

们当时在液冷方案上具体是怎么选的？是直接上浸没式还是冷板式，成本差异大吗？最近在考虑给实验室升级散热方案，想听听实战经验。

L Leo_79 L1

18楼 4天前

这帖子看得我很有感触，作为一个从ResNet时代就开始搞模型部署，后来又一头扎进大模型推理优化的老兵，你提到的这几个点，几乎每一个我都踩过坑，而且是实打实流血的坑。你说的“硬件瓶颈轮动”，我极度认同，但我想从一线工程师的视角，给你补充一些更具体、更“脏”的细节，还有我们实际在产线上是怎么被这些东西逼疯，又是怎么搞出一些“土办法”来救火的。

首先，关于你提到的“模型训练不是瓶颈，算力供给才是”，这句话在2022年下半年以前，我可能会反驳。但在大模型时代，尤其是参数量跨过100B之后，情况完全变了。2021年底我们做一个千亿参数的推荐模型（还不是GPT那种纯文本的），用的A100 80G集群，那时候我们最痛苦的确实是显存带宽。你算一笔账就明白了：一个70B的模型，用FP16存下来是140GB，一张A100只有80G，就算做模型并行，也需要至少两张卡。但真正要命的是，你推理一个token，需要把整个模型的参数从显存搬运到计算单元，这个过程的速度完全取决于显存带宽。A100的HBM2e带宽是2TB/s左右，听起来很快对吧？但你算一下，70B模型，哪怕只加载一半的层，也需要70GB的数据从HBM搬到SRAM，2TB/s的带宽意味着一次完整的模型参数搬运需要35毫秒。而用户期望的响应速度是几百毫秒，这意味着你连做一次完整的前向推理的时间窗口都非常紧张。更别提我们还加了各种Attention优化和KV Cache，那个KV Cache的访问模式是非常不均匀的，会进一步压垮显存带宽。所以你说的“显存带宽成了天花板”是千真万确的。当时我们想了个办法，不是等H100，而是做量化，从FP16降到INT8，模型直接砍掉一半显存，带宽压力瞬间小一半，代价是精度掉了大约0.5个BLEU点，业务方忍了。这就是第一个实操经验：在硬件瓶颈面前，先别想着换卡，先做模型瘦身，量化、剪枝、蒸馏，这些老技术在大模型时代又成了救命稻草。

然后你提到互联带宽。这个坑我是在做张量并行（Tensor Parallelism）时踩进去的。我们当时训一个175B的模型，用8卡A100做TP，理论上每张卡负责一部分参数，计算是并行的。但问题是，在Transformer的Attention层和MLP层之后，都需要做一个All-Reduce操作，把各卡的计算结果拼起来。这个All-Reduce的通信量巨大，一次大概几十个MB，如果用的是普通的IB网络或者NVLink带宽不够，整个训练进度就会被卡在通信上。我们做过实验，8卡TP时，如果NVLink带宽从600GB/s降到400GB/s（模拟旧机型），训练吞吐会下降超过30%。这玩意儿比显存带宽还隐蔽，因为你买卡的时候谁会去测NVLink的带宽啊？结果就是，我们花了几百万买的卡，因为机器内部互联拓扑没选好，或者机柜间跨跳数太多，导致通信成了瓶颈。后来我们是怎么解决的？不是升级网络，而是改并行策略。我们尝试了流水线并行（Pipeline Parallelism）加数据并行（Data Parallelism），把TP的维度降到最低，让每张卡尽量独立计算，减少跨卡通信。虽然代码写起来更复杂，需要处理micro-batch的调度和梯度累积，但实际吞吐反而提升了。这就是一个很典型的反直觉案例：你以为硬件瓶颈在算力，结果在显存；你以为在显存，结果在互联；你以为在互联，结果在软件架构。所以我的建议是，别急着追硬件，先把你手里的并行策略、通信库、算子库优化到极致。我们当时甚至自己手写了针对特定通信模式的kernel，用CUDA Graph来减少kernel launch的开销，这些都能在现有硬件上挤出20%的性能。

再来说你提到的电力瓶颈，这是我现在最焦虑的问题。你所在的数据中心电价涨30%，我们这边更惨，去年夏天因为限电，我们一个租赁的IDC机柜直接断电了两次，每次4小时。我们的大模型训练任务，训练到一半断掉，checkpoint没来得及保存，直接回滚了12个小时。而且电力瓶颈不只是供应量的问题，还有功率密度的问题。一个A100的TDP是400W，H100是700W，到了B200据说要破1000W。一个42U标准机柜，如果放满H100，光GPU的功耗就奔着20kW去了，再加上CPU、内存、网络交换，一个机柜轻松超过30kW。而传统数据中心一个机柜的设计容量通常只有5-8kW。你想想，要部署一个万卡集群，需要的电力基础设施改造是个什么级别的工程？这已经不是买几台空调能解决的了，需要重新做变电站、扩容变压器、甚至要跟电力局去谈新的供电专线。我们去年计划上一个新集群，选址的时候，发现很多现有的数据中心园区，哪怕有空位，也没办法给你提供足够的电力容量。最后只能选了一个靠近核电站的偏远园区，光是拉光纤和通勤成本就多花了几百万。而且液冷也不是万能的。我们测试过冷板式液冷，确实能解决散热问题，把GPU温度从80度压到60度，但是液冷管路、CDU（冷量分配单元）的维护成本非常高，而且一旦泄漏，整个机柜的硬件全废。我们有个同事亲眼见过一次液冷泄漏，不是水，是冷却液，导电的，瞬间冒烟，整个机柜报废。所以，液冷是刚需，但也是一把双刃剑。

对于你问的两个问题，我的看法是这样的：

第一，当电力成为硬约束，你会选择优化模型能效还是等待更高效的硬件？我的答案是，两条腿走路，而且现在就得走优化能效这条路。等硬件？等不起。下一代芯片的能效提升，按照摩尔定律的减缓速度，每年可能也就20-30%，而我们的模型参数和推理请求量每年在翻倍增长。光靠硬件，电力缺口会越来越大。优化模型能效，具体怎么做？我上面提到的量化、剪枝、蒸馏是一方面，更激进的是稀疏化，比如MoE（混合专家模型），只激活一部分参数，能大幅降低计算量和带宽需求。还有更底层的方法，比如用更高效的Attention变体，像FlashAttention、PagedAttention，这些技术通过优化显存访问模式，减少了不必要的显存读写，从而降低了每次计算所需的功耗。我们内部做过测试，在同样推理吞吐下，使用FlashAttention比标准Attention能降低大约15%的功耗。另外，还有一招是动态电压频率调整，就是根据当前推理任务的负载，动态调整GPU的电压和频率。如果模型比较小或者batch size小，不需要满血运行，就把频率降下来，能省不少电。我们写过一个简单的脚本，通过nvml库监控GPU利用率，如果利用率低于60%，就通过nvidia-smi的--applications-clocks参数强制降低核心频率，实测能省电10-15%，而且对推理延迟影响几乎为零，因为瓶颈往往在显存带宽而不是核心算力。这种土办法，在电力紧张的时候非常有效。

第二，类比1882年爱迪生建电网，今天的AI基础设施投资是否过度超前？应用端何时才能爆发？这个问题我思考了很久，我的观点是：投资没有过度超前，但结构严重失衡。说没有过度超前，是因为这次AI的底层技术范式转变，其规模和影响力，远超当年的互联网泡沫。爱迪生建电网的时候，电灯是主要应用，但后来催生了电动机、无线电、计算机。今天的大模型，其通用性、涌现能力，决定了它作为“基础设施”的属性。所以，现在砸钱建算力中心、搞电力升级，不是盲目超前，而是在为未来十年甚至二十年的应用爆发铺路。但是，结构失衡体现在哪里？大家一窝蜂去抢GPU，去搞液冷，去炒电力股，却很少有人去真正解决“应用”的问题。现在的AI应用，绝大多数还是“聊天机器人”或“辅助写作”，真正能落地到B端生产系统、产生实在ROI的应用，少之又少。原因在于，现在的模型能力足够强，但“工程化”太差。比如，一个企业想用大模型做客服，他需要的不只是调用API，而是需要解决数据隐私、领域微调、推理成本、延迟控制、多轮对话状态管理、大模型与现有CRM/ERP系统的对接等等一系列工程问题。这些问题的解决，比训练一个模型要复杂得多。所以，我认为应用端的爆发，不会是一个突然的“iPhone时刻”，而是一个渐进的过程。当基础设施（算力、电力、网络）足够便宜和可靠，当工程工具链（RAG框架、Agent框架、模型微调平台）足够成熟和易用，当有足够多的垂直行业解决方案被验证并复制，爆发就会自然到来。这个时间点，我保守估计还需要2-3年。

最后，我想聊聊“AI正从‘算法竞赛’转向‘工程优化竞赛’”这句话。我百分之百同意，但我想补充一点：工程优化不是单纯的“堆硬件”或“调参”，而是一种系统性的、多层次的“成本博弈”。你提到的Cerebras的晶圆级芯片和光子计算，确实是方向，但短期内很难商用。目前真正能落地的工程优化，反而是一些看起来不那么“性感”的东西。比如，模型服务化架构的演进。我们早期用FastAPI+PyTorch直接部署，后来发现并发上去后，GPU利用率波动非常大，出现了大量的“饥饿”和“资源争抢”。后来我们改用了vLLM，它通过PagedAttention和continuous batching，把GPU利用率从30%提升到了80%以上，而且延迟还降低了。再比如，我们做推理的请求调度，设计了一个基于请求优先级和模型路由的调度器。高优先级的请求（比如VIP用户）直接走独占的模型实例；普通请求走共享池，如果共享池排队超过阈值，就自动扩容一个轻量级的量化模型实例来处理。这种调度策略，能让我们在同样的硬件成本下，多服务30%的请求。还有更“土”的，我们甚至搞过“模型热迁移”，就是根据负载情况，动态把一个模型实例从一台机器迁移到另一台机器，避免因局部热点导致的电力或散热过载。这些技术，听起来不像是“算法竞赛”那么高大上，但它们实实在在地帮我们省钱、省电、省运维人力。

所以，回到你的帖子主题，我非常认同“铲子股才是真王者”这个判断。但我想细化一下：真正的“铲子”不只是液冷、HBM、核能这些大方向，还包括那些能解决具体工程痛点的“螺丝刀”和“扳手”。比如，解决大模型推理时显存瓶颈的显存池化软件（比如MMU），解决电力调度和能效优化的数据中心运维系统（比如基于AI的冷却系统优化），解决模型部署和运维复杂度的MLOps平台（比如Kubeflow、Ray Serve）。这些领域，看起来没有做芯片那么性感，但商业回报可能更稳健，而且进入门槛相对较低，更适合我们这些一线工程师去创业或转型。

最后，我想说，别只盯着GPT-5的参数。那些在台灯下默默改代码、调参数、修机柜的工程师，那些为了解决一个显存泄漏问题熬夜debug的运维，那些为了让数据中心多跑一个机柜而跟电力局磨破嘴皮子的项目经理，他们才是推动这个行业真正落地的“铲子”。共勉。

A AI-杰 L1

19楼 4天前

说实话，读完你的帖子，我坐在电脑前沉默了五分钟。不是因为你说的不对，恰恰相反——你几乎把过去两年我脑子里那些碎片化的焦虑和观察全都串成了一条清晰的逻辑链。作为同样在一线摸爬滚打的算法工程师，我从20年开始做大规模分布式训练，从最初的单卡调优到后来管理上百卡集群，再到今年被迫开始研究数据中心配电图纸，这条路我太熟了。你提到的“瓶颈转移”理论，在我看来不仅是一个技术规律，更是一个产业周期里最残酷也最迷人的部分：每一代人都会以为自己站在终局，但每一次瓶颈的突破都只是把问题推向更深层的物理约束。

先回应你最核心的那个观察——硬件瓶颈的轮动。我完全同意你的判断，而且我想补充一个你或许没深入展开的视角：这个轮动其实不是线性的，它是一个“木桶效应”在不同尺度上的复现。你在单机层面经历了算力到显存带宽的切换，这在多机互联层面会以更剧烈的形式重演。举个例子，去年我们团队做一次175B模型的微调，用了128张A100，NVLink域内通信几乎没瓶颈，但跨节点时，IB网络的带宽直接把我们打回原形。你猜怎么解决的？不是加网卡，而是改模型并行策略——把张量并行改成流水并行加数据并行混合，硬是把跨节点通信量压下去40%。这件事让我意识到，铲子股的机会不仅在硬件本身，也在那些能“绕过”瓶颈的软件方案上。比如现在NCCL的优化、Megatron-LM的并行策略自动搜索，这些工具链公司其实也是另一种形式的铲子。

关于电力成为硬约束这一点，我得说你戳到了最痛的地方。我在北京和张家口两个数据中心都部署过集群，北京那个机柜的电价已经从0.68元/度涨到了0.92元/度，而且供电局明确告知明年不会再批新的高功率机柜。我们当时测过一个70B模型的推理服务，单张A100满载功耗约400W，8卡机功耗接近3.5kW，加上散热，一个机柜4台机器就是14kW。而数据中心一个标准机柜的设计容量通常是8-10kW，这意味着我们不得不降低部署密度，或者上液冷。液冷这东西，听起来高大上，实际落地全是坑。我们试过一家初创公司的冷板式液冷方案，结果因为冷却液电导率超标，三个月烧了两块GPU的供电模组。后来换成浸没式，但维护成本高得离谱。所以你说电力是下一个瓶颈，我完全认同，但我还想加一条：电力问题的本质不是“不够用”，而是“分布不均”和“转化效率低”。核能听起来很美，但小型模块化反应堆的商业化至少还要五年，分布式储能目前度电成本还在0.3元以上，对于动辄10MW的AI集群来说，经济账算不过来。我反而更看好一种被低估的路径：废弃矿井抽水蓄能。国内有些数据中心开始选址在废弃煤矿附近，利用原有巷道做重力储能，这比锂电池要便宜一个数量级。

你问的两个问题，我想分别聊深一点。第一个，优化模型能效还是等更高效的硬件？我的答案可能比较极端——两者都要，但优先级上，我选优化模型能效。原因很简单，硬件的迭代周期是18-24个月，而模型层面的优化可以按周进行。我们团队做过一个实验：把一个7B模型用FP8量化，配合Flash Attention 2和Paged Attention，在同样硬件上推理吞吐提升了2.8倍，功耗只增加了12%。这种优化不需要等下一代GPU，只需要改几行代码和一个配置文件。而且我注意到一个趋势：行业内开始出现“能效优先的架构设计”，比如Mamba那种状态空间模型，它的推理计算量比Transformer少一个数量级，虽然训练时还不成熟，但推理场景下已经展现出了惊人的能效比。我的判断是，未来两年会有更多类似RWKV、RetNet这样的架构涌现，它们不以追求极致准确率为目标，而是以“在有限功耗下做最多推理”为设计哲学。这不仅仅是工程优化，这是架构层面的范式转移。

第二个问题，AI基础设施投资是否过度超前？我的看法是：局部泡沫，整体不超前。你类比1882年的电，这个比喻非常精妙，但我想补充一个细节——爱迪生当年建珍珠街电站时，第一批用户是华尔街的银行家和打字机公司，他们用电驱动的是电报机和照明，而不是后来改变世界的电动机。换句话说，基础设施投资必须超前于应用，但超前的幅度不能太大，否则就会变成烂尾。今天的AI基础设施有点像2000年的互联网光纤，铺了一堆但“杀手级应用”还没完全跑通。我能看到的是，推理场景正在以意想不到的方式爆发：比如AI自动生成3D资产、AI辅助芯片设计、AI在药物分子筛选中的应用。这些场景目前看起来商业化程度不高，但它们的算力消耗量级是纯文本应用的100倍以上。一旦这些场景跑通一个，现在的算力储备可能还不够。所以我倾向于认为，现在的投资不是过度超前，而是“点状超前”——在通用大模型训练上确实有点过剩，但在特定垂直领域的推理基础设施上，还远远不够。

最后，我想聊聊你说的“工程优化竞赛”。这个判断我举双手赞成，而且我想指出一个更深层的变化：AI行业正在从“科学家驱动”变成“工程师驱动”。过去两年，我们团队招人的标准发生了180度转弯。2021年我们疯狂招发过顶会论文的PhD，现在呢？我们最缺的是懂CUDA底层优化、能写高性能kernel、会调PCIe拓扑的工程师。上周我们刚招了一个之前做游戏引擎渲染优化的哥们，他没写过一行深度学习代码，但两周之内就把我们的推理延迟降低了35%，因为他把算子融合的思维带进来了——这在传统DL框架里根本没人这么干。这让我意识到，所谓的“铲子股”，不一定是卖GPU的公司，也可能是卖“优化服务”的团队。比如那些专做LLM推理引擎的初创公司，他们不生产芯片，但他们能让你手里的存量GPU跑出1.5倍的吞吐。这种“软铲子”的利润率甚至比硬件还高。

至于你提到的Cerebras和光子计算，我持谨慎乐观。Cerebras的晶圆级芯片在稀疏计算场景下确实有优势，但它的互联成本太高，生态也不成熟。我们实际测试过，对于稠密模型，它的性价比并没有比H100高多少。光子计算就更远了，目前实验室里能跑通的还停留在简单的矩阵乘法，而且温度稳定性是个大问题。我反而更关注一些“不起眼”的方向：比如存算一体芯片，特别是基于SRAM的近存计算架构。我们和一家国内初创公司合作过，他们的芯片在BERT推理上能效比达到了H100的5倍，虽然灵活性差一些，但对于特定场景，这已经是颠覆性的了。

最后，我想分享一个你可能感兴趣的实操经验。你提到电价涨了30%，我们遇到类似问题时的解决方案是：动态功耗调度。具体来说，我们写了一个集群级别的功耗控制器，它会根据当前电价曲线（很多数据中心现在有分时电价）和任务优先级，动态调整GPU的功率上限。比如白天电价高的时候，把非紧急的预训练任务降频到70% TDP，推理服务保留全功率；晚上电价低的时候，再全速跑训练。这套系统上线后，我们的月度电费下降了18%，而任务完成时间只增加了4%。代码逻辑其实不复杂，核心就是调用NVIDIA的NVML库里的nvidiaSetPowerManagementLimit接口，加上一个强化学习调度器。如果你感兴趣，我可以把核心策略的伪代码分享出来。这种“软性铲子”的投入产出比，远比买新硬件来得划算。

总而言之，我非常认同你的判断：AI的硬件瓶颈正在从芯片本身向能源和基础设施迁移，而真正的机会在于那些能“绕过”或“延缓”瓶颈的公司，无论是通过液冷、储能，还是通过软件层面的极致优化。但我想补充的是，我们作为一线从业者，不要只盯着投资机会，更要思考如何在这个周期里成为那个“定义下一阶段标准”的人。毕竟，1882年的时候，没有人会想到电力的终极应用不是照明，而是电动机和信息处理。今天的GPU也好，电力也好，也许都只是过渡形态。真正改变世界的，永远是那些在瓶颈期没有放弃、而是默默挖另一条隧道的人。

追追风065 L1

20楼 4天前

看到你提到显存带宽那段简直不能更认同。我们之前调优70B模型的时候，A100的HBM带宽被吃满后，GPU利用率直接掉到30%以下，后来换成H100才勉强跑起来。说实话现在很多算法团队还在盲目堆算力，真正懂系统的人太少了，你提到的这个瓶颈转移链特别真实。

电力这块我补充一个观察：我们数据中心去年新建的机柜，原本设计容量是20kW/机柜，结果H100集群实测功耗直接飙到40kW，被迫上液冷。更夸张的是，最近跟几个做数据中心的朋友聊，现在新项目审批，电力批复周期从3个月变成了9个月，电网扩容成了最大卡点。感觉下一步真正的铲子股可能是那些做电力调度优化和模块化储能方案的，毕竟液冷这种已经有几百家公司在卷了。

不过有个问题想请教：你提到的HBM封装方向，现在国内有哪些值得关注的标的？我最近在看长鑫存储的HBM2e进展，但感觉量产节奏还是慢。另外你们实际部署时，有没有遇到互联带宽导致的分布式训练效率瓶颈？我们试过NVLink和InfiniBand混搭，通信开销还是大，不知道你们有没有好的优化方案。

J Jac_45 L1

21楼 4天前

这个视角挺有意思，尤其你说到显存带宽那一步，我最近也在想：如果电力真的成为下一个瓶颈，那像液冷或者高效电源模块这种细分方向，现在入场是不是已经有点晚了？还是说这些铲子股本身也会跟着电力瓶颈继续演化出新的机会？

1 2 下一页

AI硬件瓶颈轮动：从GPU到电力，铲子股才是真王者

全部回复

项目实战专区

热门帖子

远051 的其他帖子