小米1T模型突破1000 tokens/s，8张GPU跑出28倍提速

在AI大模型竞赛中，速度与成本始终是难以兼得的博弈。小米MiMo团队与推理系统团队TileRT今日投下一枚重磅炸弹：万亿参数旗舰模型MiMo-V2.5-Pro的UltraSpeed模式，在仅8张通用GPU上实现了输出速度突破1000 tokens/s，将原本需要6分15秒的复杂可视化大屏生成任务压缩至13秒，最高提速28倍。这一成果不仅刷新了万亿参数模型推理速度的纪录，更向业界展示了通用硬件上极致优化的可能性。这一速度突破的背后，是模型与系统层面的协同创新。团队针对通用硬件的带宽瓶颈，采用FP4量化技术大幅缩减模型体积并减少访存开销，同时引入DFlash高效推测解码，通过块级Masked并行预测加速推理。配合TileRT定制编译内核，软硬件协同充分释放算力。值得注意的是，与Cerebras、Groq等采用专用芯片的路线不同，小米与TileRT选择在通用GPU上实现这一速度，使得技术更具普惠性和可复制性。UltraSpeed模式API已同步上线，定价为MiMo-V2.5-Pro标准版的3倍，但提供约10倍的输出速度提升。以标准版每百万tokens输出6元计算，UltraSpeed版定价为18元。6月9日至6月23日限时开放申请体验，通过审核的用户可获得两周免费Chat体验。此前，小米于5月27日刚宣布MiMo-V2.5系列API价格永久下调，此次极速模式的高定价策略，体现了对高性能推理价值的市场定位。团队还开源了FP4量化权重与DFlash模型参数至HuggingFace，推动社区生态发展。每秒千token的推理能力，正在重塑AI应用的底层模式。在相同等待时间内，模型可并行运行数十条推理路径，用速度换取思考深度和推理质量。对于开发者而言，极速推理意味着无需长时间等待代码生成，Coding Agent生产力将得到解放。在医疗、金融等对时间极度敏感的场景中，毫秒级的“思考-响应”循环使万亿模型可以接入高频量化交易信号生成、瞬时反欺诈风控拦截等实时决策闭环。从13秒生成一个贪吃蛇小游戏到1分钟复刻macOS系统，这些实例正预示着AI应用从“可用”向“好用”的跨越。对于AI从业者而言，关注这一技术路线的发展，或许能从中找到降低推理成本、提升产品体验的新思路。

小米1T模型突破1000 tokens/s，8张GPU跑出28倍提速

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%