Lukasz Kaiser提到单卡RTX 5090就能复刻当年Transformer论文的研究,这数据确实震撼——200 Teraflops对比当年八卡机器的70-80 Teraflops,算力翻了2.5倍以上。但作为一线工程师,我必须泼盆冷水:算力增长不等于研究可复现性提升。当年他们跑的是小规模实验,如今单卡能跑更大batch、更复杂优化,但核心问题在于数据分布和训练技巧的差异。我个人的经验是,复现经典论文最坑的往往是超参数、随机种子和硬件随机性,而不是算力本身。Kaiser提到的“外星人逻辑”泛化很犀利——模型在数据分布外表现出的非人类推理,可能意味着我们对泛化理论的理解

image 还停留在黑箱阶段。这让我想起部署多模态模型时,同样的架构在不同任务上泛化能力天差地别,说明架构未变但数据分布才是瓶颈。他说的“小模型无法替代大模型”我深有体会:在工业界,小模型在长尾任务上几乎必然崩盘,因为知识容量和稀疏激活能力不够。讨论问题:1. 单卡算力翻倍是否真的降低了研究复现门槛?还是说我们陷入了“算力换一切”的幻觉?2. 多模态架构未变,但数据配比和训练策略是否才是真正的进化方向?行业影响上,Kaiser强调AI编程延伸至其他行业,这本质是工程化落地难题——如何将通用模型的能力裁剪到垂直领域,同时保持低成本部署。我认为未来竞争将从模型架构转向数据工程和边缘计算优化。