作为一个在AI基础设施领域摸爬滚打多年的工程师,看到DeepSeek这轮500亿融资,第一反应不是“好厉害”,而是“这算力成本到底多高”。资讯里提到腾讯和宁德时代领投,梁文锋个人出资200亿,这比例很有意思——创始人扛大头,说明他对技术路线有绝对信心。但从工程实践看,大模型训练的边际成本递减并不明显,尤其是千亿参数级别的模型,单次训练耗电就能烧掉一个小型数据中心的年度预算。DeepSeek之前宣称的MoE架构和稀疏激活虽然能降低推理成本,但训练阶段的算力消耗依然是天文数字。我个人经验里,很多实验室在MoE上踩过坑:路由策略不稳定、专家负载不均,导致实际吞吐量远低于理论值。DeepSeek如果真能把稀疏训练做到工程级稳定,那这500亿就值了。但问题是,他们现在有足够的电力配套和液冷集群吗?宁德时代入局或许不只是财务投资,更可能是为未来超大规模算力中心的储能方案铺路。行业里都在赌AGI,但真正能跑通“训练-推理-商业化”闭环的没几家。我想问两个实际问题:第一,DeepSeek的MoE在长上下文场景下,专家激活的延迟抖动怎么控制?第二,腾讯云会不会把这套架构作为PaaS服务输出,还是只用于内部业务?这直接决定了融资的回报周期。
500亿融资背后:DeepSeek的算力账能算过来吗?
全部回复
共 38 条刚看到梁文锋自己出200亿那一段,我第一反应也是他到底对技术路线有多大的执念。不过仔细想想,这种级别创始人自己往里面砸钱,要么是确实有别人看不到的底牌,要么就是赌性太强——但我更倾向于前者,毕竟之前DeepSeek在MoE上的公开论文其实质量挺高的。
说到算力账,我比较好奇的是,他们那个MoE的路由策略到底是怎么做的?之前看一些开源实现,包括Mixtral那种,其实专家分配还是有点粗糙,负载均衡全靠辅助loss硬拉,真正训到千亿参数的时候,通信开销和专家闲置的问题会不会被放大?我特别想知道他们有没有什么新的动态路由或者分层策略来规避这个。
还有个点,训练成本确实高,但推理端如果能做到像他们之前说的那样稀疏激活,其实边际成本下降空间还是有的,关键就卡在训练阶段到推理阶段的迁移效率上。你提到很多实验室踩过坑,那DeepSeek会不会也遇到同样的瓶颈?还是说有专门针对训练阶段的稀疏优化,能让MoE的“理论吞吐”不那么虚?
另外,好奇一下,500亿这个数字,他们是怎么分配在训练、推理、人才和数据上的?毕竟现在大模型行业,数据清洗和合成数据的成本也越来越高了,不是光有算力就能解决的。
这个分析好实在,尤其是MoE路由策略那块,我最近看一些开源复现也发现负载均衡很难调。想问下如果DeepSeek真把训练算力压到理论值以下,那他们有没有可能在某些层或者某些模块上放弃稀疏化,换来更稳定的收敛?
同感,看到这笔融资规模,第一反应也是算力账能不能撑住。我这边之前跟过一个MoE架构的分布式训练项目,路由震荡的问题确实头疼。理论上一路稀疏激活能省不少计算,但实际跑起来,负载均衡算法稍微写糙一点,某些专家节点直接跑满,其他节点空转,整体吞吐量还不如同参数的dense模型。DeepSeek如果真靠MoE冲千亿参数,训练时的通信开销和显存碎片问题得处理得很精细才行,不然500亿可能一半都烧在调试上。
另外创始人自己砸200亿这个事,我倒觉得不光是信心问题。大模型赛道的融资环境现在挺微妙的,领投方愿意跟,但实际条款可能卡得很严。梁文锋自己扛大头,等于向资方表态“这锅我自己背”,这种操作在硅谷一些创业公司里见过,但国内这么玩的很少。不过话说回来,算力成本这块,训练只是一部分,后续推理的持续投入才是无底洞。他们要是真做到稀疏激活落地了,那推理成本能压下来还好说,不然光靠融资撑,账迟早要算。
话说回来,他们那个MoE的路由策略是开源的吗?我记得之前有些论文用top-k routing加上辅助loss来平衡负载,但实际工程里效果跟理论差距挺大。你们有没有试过其他更稳定的路由方案?比如基于历史负载动态调整权重的?
MoE的路由震荡问题确实是工程落地的大坑,DeepSeek如果真在千亿参数上跑通稀疏激活的稳定训练,那这500亿花得还算值,否则单是调试专家负载不均就能把算力预算吃掉一大块。另外,梁文锋个人押200亿这个信号很关键,但大模型军备赛到后期,边际成本能不能降下来还得看他们能不能在推理侧搞出点类似vLLM那类极致优化,光靠融资撑训练成本可不是长久之计。
梁文锋自己扛200亿,这个信号确实比融资额本身更有意思。说明他对DeepSeek的技术路线和成本控制有相当强的底气,不然不会拿个人信用去赌。但说实话,大模型训练到现在这个阶段,算力账已经不仅仅是卡的数量问题了——集群的线性加速比、网络拓扑的带宽利用率、甚至机房散热效率,每一项都能让理论成本翻倍。
你提到的MoE路由不均衡,我深有体会。去年我们团队在千亿参数级别试过,专家分配偏移带来的GFlops损失能到30%以上,而且动态调整的收敛速度非常慢,稍有不慎就会导致loss spike。DeepSeek如果真在MoE上走通了,那他们肯定在路由策略和辅助损失函数上做了针对性的工程优化,不是简单套个MoE架构就能解决的。
另外,训练阶段的电力消耗其实只是第一层成本。更隐蔽的是冷却和网络互联——比如NVLink的带宽利用率,很多厂商标称的理论值在实际多节点通信中能到60%就算不错。如果DeepSeek在数据中心选址和液冷方案上没提前布局,500亿可能第一年就烧掉一大半。
还有一个点:他们之前公布的稀疏激活比例是否在真实生产环境下验证过?很多实验室的paper里70%稀疏,实际跑起来只有40%,差异巨大。如果DeepSeek能公开一些端到端的实际能耗数据,会比融资新闻更有说服力。
MoE的路由策略确实是个大坑,我们之前试过类似架构,专家负载一不均,实际吞吐直接腰斩,理论值看看就好。DeepSeek要是真能把训练阶段的算力利用率稳住,这500亿才算花在刀刃上,不然光电费就能把现金流吃死。话说他们公开过任何关于训练效率的benchmark吗?
这是一个非常有价值的话题,感谢你的深度分享。你提到的几个点——创始人扛大头的信心、MoE工程落地的坑、以及宁德时代入局的储能逻辑——基本都切中了这轮融资背后的核心矛盾。我试着从几个维度展开聊聊,希望能抛砖引玉。
先说你最关心的MoE长上下文延迟抖动问题。这确实是MoE模型从论文走向生产环境时最头疼的硬骨头,没有之一。我在过去两年里参与过两个不同规模的MoE训练和推理项目,一个是在某大厂做千亿级对话模型,另一个是帮一家创业公司做代码生成模型,都遇到了你提到的路由策略不稳定和专家负载不均。具体来说,在长上下文场景下,比如处理128K token的对话历史或代码仓库,问题会从“负载不均”演变成“负载震荡”。因为稀疏激活的专家选择是基于当前token的,当上下文长度超过某个阈值(比如32K),模型的注意力分布会剧烈变化,导致某些专家被反复高频激活,而另一些专家几乎闲置。这种震荡在推理时直接表现为延迟的剧烈抖动——有的请求几十毫秒就能完成,有的请求因为所有token都挤到了同一个专家上,导致那个专家所在的GPU节点成为瓶颈,延迟飙到几百甚至上千毫秒。这在离线评测里可能看不出大问题,但在线服务时,用户会直观感受到“这模型时快时慢,不稳定”。
我们当时踩的坑是,尝试用传统的负载均衡策略,比如轮询或哈希路由来强制分配,结果发现这破坏了MoE的设计初衷——模型自己选择的专家才是最优的,强行均衡会导致下游生成质量下降。最终我们的解决方案是两层:第一层是训练阶段就引入上下文感知的专家重排策略。具体做法是在训练数据里混入长序列样本,并设计一个辅助损失函数,让路由网络在训练时不仅学习“哪个专家适合这个token”,还要学习“如果未来大量连续token都倾向于激活同一专家,请提前分散到备用专家”。这个损失函数的权重需要精细调参,调大了模型能力下降,调小了等于白做。第二层是推理阶段采用自适应批处理和动态专家复制。对于频繁被激活的热门专家,我们会在多个GPU上部署其副本,并用一个轻量级的协调器来分散请求,类似于KV cache的负载均衡思路。但这里有个成本问题:专家副本越多,显存占用就越大,长上下文场景下KV cache本来就吃显存,所以这是一个经济账——你需要算清楚,是花更多钱买显存来保证低延迟,还是接受偶尔的延迟抖动来节省成本。DeepSeek如果真能做到工程级稳定,我猜他们大概率是用了类似“动态专家副本+自适应批处理”的组合拳,但这需要极强的系统和算法协同优化能力,不是单纯堆GPU就能解决的。
再说你提到的第二点:腾讯云会不会把DeepSeek的架构作为PaaS服务输出。我的判断是,短期(1-2年)大概率不会,但长期一定会有。原因有三。第一,腾讯云目前的PaaS层主力是TI-ONE和混元大模型,它们的推理服务是基于Transformer的传统架构,如果突然接入MoE,整个运维体系(包括弹性伸缩、故障恢复、成本计费)都要大改。MoE的推理成本计算非常复杂——你不能单纯按token数收费,因为不同专家激活的GPU次数和显存占用差异巨大,用户如果发现某个长上下文请求突然被多收了钱,投诉风险很高。第二,腾讯云现在更迫切的需求是让混元大模型在内部业务(比如微信搜索、广告推荐、游戏NPC)中跑通商业闭环,而不是急着对外卖MoE架构。别忘了,梁文锋个人出资200亿,这不仅是信心,更是一种“我亲自下场兜底”的信号。这种创始人级别的押注,通常意味着技术路线高度自信,但同时也意味着商业化节奏可能会更激进——他们可能更倾向于先跑通一个垂直领域的杀手级应用(比如代码生成或数学推理),而不是做一个通用的PaaS平台。第三,宁德时代的入局给了我们一个非常有趣的想象空间。你提到了储能方案,这确实是一个关键点。超大规模算力中心的电力配套是当前AI基础设施的最大瓶颈之一。我了解的一些在建算力中心,电力审批周期长达18个月,而且很多新建园区根本拿不到足够的电网容量。宁德时代如果能为DeepSeek提供“算力中心+储能站”的一体化方案,比如在训练集群旁边部署磷酸铁锂储能系统,用于平抑电网波动和削峰填谷,这不仅能降低DeepSeek的用电成本(储能系统在电价低谷充电、高峰放电),还能解决电网扩容难的问题。这种合作一旦跑通,DeepSeek的算力成本结构会明显优于那些只靠市电的竞争对手。从这个角度看,腾讯云和宁德时代的联合投资,本质上是“技术+资本+能源”的三位一体布局,而不是简单的财务投资。
至于你提到的“训练-推理-商业化”闭环,这确实是行业里最难啃的骨头。我见过太多实验室模型在论文里吹得天花乱坠,一到实际部署就发现推理成本高到无法商用。DeepSeek的MoE架构在推理阶段确实有天然优势——稀疏激活意味着每次推理只激活一小部分参数,显存占用和计算量都远低于同参数量的Dense模型。但这里的陷阱在于,推理成本虽然低,但训练成本依然极高。尤其是千亿参数级别的MoE模型,它的训练效率并不像理论那么美好。我们之前做过一个实验:在同样算力预算下,训练一个700B的MoE模型(假设总参数700B,每次激活70B)和训练一个70B的Dense模型,前者的训练时间反而更长。为什么?因为MoE的训练需要额外的通信开销——专家之间的All-to-All通信在分布式环境下非常昂贵,尤其是在跨节点时。你激活的专家数量越多,通信带宽要求就越高。很多MoE论文里宣称的“训练效率提升”都是基于理想化的通信模型,实际工程中如果网络拓扑不是全连接或没有专门的专家路由交换机,性能会大打折扣。DeepSeek如果要让这500亿融资物有所值,必须在训练基础设施上投入大量资金,比如自研高带宽互联网络,或者定制化地优化MXNet/PyTorch的通信库。
这里我想分享一个具体的踩坑经历。我们之前尝试将一个200B的MoE模型从论文复现到实际训练时,发现专家负载不均不仅导致推理抖动,还导致训练时大量GPU利用率不饱和。比如某个专家被分配了30%的token,而另一个专家只有5%,那么前者的GPU计算单元忙到冒烟,后者的GPU却在那里摸鱼。我们尝试了各种负载均衡策略,包括基于梯度的动态调整、基于历史负载的预分配,甚至用强化学习来训练一个路由控制器,但效果都不稳定。最后我们发现,最有效的方法反而很“土”:在训练数据层面做预处理,确保每个batch里不同领域的token比例大致均匀。比如数学题和对话文本混合在一起时,路由网络会自动倾向于把数学token分给数学专家,把对话文本分给对话专家,但如果一个batch里全是数学题,那所有数学专家都会超载。所以数据预处理时的领域均衡,比任何花哨的算法都管用。这个经验可能对DeepSeek的团队也有参考价值——他们如果能把数据预处理和MoE路由结合起来,训练效率应该能再上一个台阶。
回到你提到的回报周期问题。我个人认为,DeepSeek这轮500亿融资的回报周期不会太短,但也不会太长。短是因为MoE架构在推理成本上的优势非常明显,只要他们能快速推出一个让开发者觉得“好用不贵”的API,比如把API价格打到OpenAI的1/10甚至1/20,那么凭借腾讯云的渠道和微信生态的流量,用户量起来很快。长是因为训练阶段的基础设施投入是沉没成本,而且MoE模型的迭代速度比Dense模型更快——你每次微调都要重新处理路由策略,不像Dense模型那样可以更稳定的做增量训练。所以这500亿中,可能有200亿是花在训练集群和电力配套上,100亿是花在算法和工程团队上,剩下200亿才是真正的运营和商业化储备。如果DeepSeek能在18个月内跑通一个日活千万级别的应用,并实现推理成本的盈亏平衡,那这轮融资就是成功的。否则,他们可能面临和某些明星AI公司一样的困境:融资额巨大,但收入增长跟不上烧钱速度。
最后,我想补充一个你可能没有提到的角度:MoE模型的“可解释性”问题。在长上下文场景下,如果模型输出了一个错误答案,你很难通过传统的注意力机制来解释为什么MoE选择了这些专家而不是那些专家。这对于B端客户来说是一个潜在的信任障碍——企业用户可能会问:“你们模型为什么这么回答?是哪个专家决定的?”如果DeepSeek想把这套架构输出给金融、医疗等强监管行业,他们必须提供一套可解释性工具,比如专家激活路径的可视化、以及每个专家对最终输出的贡献度量化。我在之前的项目中尝试过用Shapley值来分配每个专家的贡献,但计算复杂度太高,不实用。后来改用了一种近似方法:在推理时记录每个专家被激活的次数和对应的注意力权重,然后训练一个轻量级的解释模型来预测“如果换掉某个专家,输出会怎么变”。这个方法虽然不精确,但至少给了用户一个可理解的解释。DeepSeek如果在这方面有积累,那他们的商业化道路会顺畅很多。
总之,这500亿融资的算力账能不能算过来,关键看三点:一是MoE长上下文延迟抖动能不能控制在可接受范围内(比如P99延迟不超过200ms),二是训练基础设施的通信效率能不能逼近理论值(比如All-to-All通信延迟不超过模型计算时间的10%),三是商业化路径能不能在18个月内产生正向现金流。如果这三个条件都能满足,那梁文锋的个人200亿就真的押对了。如果有一个条件掉链子,那这500亿可能只是给行业贡献了一个昂贵的教训。我持谨慎乐观态度,因为MoE这条路虽然难走,但方向和成本结构是对的,而且有腾讯和宁德时代在技术和能源上背书,DeepSeek的起跑线比大多数公司都要靠前。接下来的18个月,将是检验这算力账到底能不能算过来的关键窗口期。
MoE这块确实是个大坑,我团队之前试过32专家的路由,收敛曲线飘得跟心电图似的,后来切到Top-2+辅助loss才稳住。DeepSeek敢在千亿级上搞稀疏激活,说明他们在负载均衡和通信瓶颈上肯定有独家优化,不然光All-to-All的带宽就能把集群拖死。不过算力账的另一个关键点是训练利用率,现在各家吹的MFU水分太大,实际跑起来能到40%就算不错,更别提断点续训和故障恢复的隐性开销。梁文锋自己砸200亿,赌的不只是算法,更是工程闭环——从硬件选型到算子库调优再到调度系统,任何一个环节拖后腿,边际成本曲线就会陡升。我倒想看看他们用的什么互联拓扑,如果是NVLink+NVSwitch的满血方案,带宽压力能小点,但成本翻倍;要是走InfiniBand,就得在通信调度上补课。另外宁德时代入场这个信号很有意思,可能意味着他们想用电储能方案做绿电直供,毕竟训练电费才是长期的心头大患。总之这500亿看着多,真要撑到下一代基座模型迭代,还得看推理侧的商业模式能不能跑起来,不然就是个无底洞。
这分析挺实在的,MoE路由和负载不均确实是工程上容易翻车的地方。我想追问下,DeepSeek有没有公开过他们在训练阶段解决这些问题的具体方案,比如有没有什么独特的负载均衡策略或者通信优化手段?毕竟理论再好,落地时这些细节才决定算力账能不能算得过来。
MoE路由策略这块确实是个大坑,我们之前在百亿模型上试过,负载均衡做不好,通信开销直接吃掉稀疏激活带来的收益。DeepSeek要是真能把千亿参数的专家路由收敛到稳定状态,那这500亿还真花得值,否则光调参就得烧掉一半融资。
MoE这块说到点子上了。我去年跟过一个千亿MoE的训推项目,路由震荡和专家坍缩的问题真是让人头大,特别是负载均衡loss调起来极其敏感,稍微偏一点,某些专家直接变dead neuron,整体吞吐能掉30%以上。DeepSeek之前公开的论文里提过他们用auxiliary loss加动态阈值,但说实话,这玩意儿在工程落地上跟理论差距挺大的,尤其到了集群规模往上堆的时候,通信开销和同步延迟会把稀疏激活的优势吃掉不少。
另外算力账这块,500亿看着多,但真要算细账,光H100/B200的采购和机房建设就得吃掉一大半。梁文锋个人掏200亿确实有魄力,但这也意味着他对技术路线的容错空间压得很窄。我比较好奇的是,他们有没有在训推一体化和算力调度上做定制优化,比如针对MoE的all-to-all通信做nvlink over IB的适配,或者搞自研的调度器来减少资源碎片。光靠堆卡解决不了边际成本问题,大模型训练现在就是个吃现金流的无底洞,要是没有明确的商业化闭环,融资再多也扛不住几轮千亿参数的训练迭代。
还有一点,宁德时代这类产业资本进来,大概率不只是投钱,可能绑定了能源侧的协同,比如绿电直供或者液冷数据中心的配套。这倒是比纯财务投资靠谱,至少能把运营成本压一压。不过说到底,算力账能不能算过来,关键还是看MoE的训练效率和推理性价比能不能真正跑通,别到最后跟某些厂一样,光宣传稀疏激活多省钱,实际一上线,延迟和吞吐双双拉胯。
这轮融资的结构确实有意思,梁文锋个人掏200亿,等于把身家全押上了。但算力账这块,我估计他们内部比谁都清楚——MoE架构在训练阶段的通信开销是个隐形杀手。千亿参数模型做全量训练,节点间的all-reduce延迟如果优化不到位,实际有效算力利用率可能连50%都不到。我之前跟过几个稀疏化项目,路由策略的收敛问题确实头疼,尤其是专家数量超过64个以后,负载均衡算法稍微写糙一点,某些专家直接饿死,另一些过载到OOM。
另外有个细节值得琢磨:腾讯和宁德时代领投,这两家都不是纯技术公司。腾讯有云业务,但他们的H100集群更多是给内部业务用的;宁德时代更偏制造业,投这个大概率是想在电池能源管理上找结合点。这轮融资背后的产业逻辑,可能不只是算力能不能算过来,而是DeepSeek能不能在训练效率和硬件适配之间找到平衡点。比如他们有没有自研的通信库,或者针对特定GPU架构做算子级别的优化?如果只靠PyTorch原生的分布式方案,那500亿烧完可能也就做个demo级的东西。
我个人比较担心的是他们训练数据的质量——千亿参数模型如果喂的数据里有大量噪声,那算力成本直接打水漂。MoE虽然能降低推理时延,但训练阶段对数据预处理的要求反而更高,因为每个专家得学不同的特征分布。这块如果有公开的技术白皮书就好了,光靠融资新闻看不透。
这轮融资结构确实罕见,创始人扛200亿自有资金,意味着他对MoE的工程化落地极有把握。但你说的路由震荡和专家坍缩问题,在千亿MoE里几乎是必然遇到的,DeepSeek如果想用稀疏激活压训练成本,得先把Top-k门控的负载均衡做好了,不然训练效率可能还不如同参数量的dense模型。另外好奇他们存储和通信的带宽规划,这点要算不清楚,500亿烧起来比想象中快得多。
MoE这块确实说到痛点了。我去年跟过一个千亿MoE的项目,路由震荡问题折腾了三个多月,最后发现负载均衡损失比理论值高了将近20%,推理阶段反而比同参数量的dense模型还慢。DeepSeek要是真能把稀疏激活的稳定性做上去,那这500亿还算值,但训练阶段的算力账确实算不清楚——单次全量训练按现在的A100/H100市价折算,光租卡费用就得奔着十亿去,还不算网络带宽和存储的隐性成本。梁文锋自己扛200亿,要么是技术路径上真有颠覆性的收敛方案,要么就是做好了长期烧钱的准备。我比较好奇的是,腾讯和宁德时代这两家投钱,到底图的是技术卡位还是应用场景?宁德时代要是能把MoE用到电池材料模拟里,那算力成本倒是能摊薄不少,但工业场景的实时性要求和互联网服务差太多了。另外,梁文锋个人出资比例这么高,后续融资时创始团队的控制权结构会不会出问题?这轮估值如果按500亿算,PE给多少倍才合理?毕竟大模型这行现在还没跑通稳定的商业模式,光靠融资续命不是长久之计。
MoE那套理论确实好看,但路由震荡和专家坍缩的问题我在生产环境里见过太多次了,训练阶段一卡壳,算力成本直接翻倍。梁文锋自己押200亿,要么技术细节藏得深,要么就是准备硬扛初期的高损耗来换长期收益。不过话说回来,500亿要是大部分砸在训练上,单次全量训练的电费和硬件折旧就够喝一壶了,后续推理侧的稀疏加速能不能落地才是关键。
这分析很实在,MoE的路由和负载问题确实是工程上的硬骨头,很多论文里漂亮的数据到了实际集群里就缩水了。我比较好奇的是,DeepSeek在训练阶段有没有什么特殊的调度策略或者硬件适配来缓解这个问题?毕竟500亿融资要真能转化成可持续的算力效率,而不是纯烧钱堆规模,那才算把账算过来了。
MoE的坑我太有体会了,去年我们团队试过在128卡集群上搞MoE,结果路由震荡搞得训练直接崩了三次,最后发现是top-2门控的负载均衡loss权重没调好,折腾了两周才跑稳。DeepSeek要是真在千亿参数上全量跑MoE,光这个调参成本就够喝一壶的,更别说他们还得处理专家间的通信开销——这玩意儿在千卡以上规模时,all-to-all的带宽瓶颈能把理论吞吐量直接腰斩。
不过话说回来,梁文锋自己掏200亿确实狠,这等于把身家全押在技术路线上了。我猜他们可能在训练阶段用了某种动态路由剪枝,或者干脆在数
据预处理时就做了专家相关性映射,不然单次训练的电费按现在工业电价算,500亿里至少得预留30%给电力和散热。宁德时代领投这点很微妙,说不定有储能或液冷方案的协同,毕竟大模型训练的数据中心现在都开始搞液冷改造了。
最让我好奇的是他们怎么解决专家负载不均的问题。我们试过用辅助损失函数来约束,但加太重会影响主任务收敛,加太轻又容易让某些专家变成摆设。不知道他们是不是用了类似GShard那种top-2+随机辅助路由的策略,或者干脆搞了分层MoE?要是真能把负载做到90%以上均匀,那这500亿就花得值。
看到这段分析挺有共鸣的。我最近也在跟MoE的坑打交道,路由策略那块真是头疼,有时候专家负载不均直接导致显存碎片化,推理延迟反而比密集模型还高。DeepSeek号称能通过稀疏激活把推理成本打下来,但训练阶段的算力账确实像你说的,单次训练耗电都能烧掉一个小型数据中心的年度预算——这个比喻太形象了。
不过有个点我挺好奇的:梁文锋个人出资200亿,这个比例在AI融资里其实挺反常的。通常创始人不会扛这么高的个人风险,除非他对技术路线的信心到了“要么封神要么破产”的程度。但问题在于,大模型的边际成本递减不明显,尤其是千亿参数级别,训练成本几乎跟参数规模线性增长。如果DeepSeek真用MoE训练出了千亿参数模型,那500亿融资里有多少是真正为算力买单,又有多少是为了应对未来可能出现的“算力军备竞赛”?
另外,腾讯和宁德时代领投这个组合也挺有意思。腾讯有云业务和场景,宁德时代有能源储能技术——是不是暗示DeepSeek在试图解决训练阶段的能耗瓶颈?比如用液冷方案或者优化供电效率?我最近看到一些论文在讨论训练过程中的动态电压频率调整,不知道他们会不会往这个方向走。毕竟算力账算不过来的时候,可能就得从硬件协同或者能源管理上找突破口了。