在AI大模型竞赛中,速度与成本始终是难以兼得的博弈。小米MiMo团队与推理系统团队TileRT今日投下一枚重磅炸弹:万亿参数旗舰模型MiMo-V2.5-Pro的UltraSpeed模式,在仅8张通用GPU上实现了输出速度突破1000 tokens/s,将原本需要6分15秒的复杂可视化大屏生成任务压缩至13秒,最高提速28倍。这一成果不仅刷新了万亿参数模型推理速度的纪录,更向业界展示了通用硬件上极致优化的可能性。这一速度突破的背后,是模型与系统层面的协同创新。团队针对通用硬件的带宽瓶颈,采用FP4量化技术大幅缩减模型体积并减少访存开销,同时引入DFlash高效推测解码,通过块级Masked并行预测加速推理。配合TileRT定制编译内核,软硬件协同充分释放算力。值得注意的是,与Cerebras、Groq等采用专用芯片的路线不同,小米与TileRT选择在通用GPU上实现这一速度,使得技术更具普惠性和可复制性。UltraSpeed模式API已同步上线,定价为MiMo-V2.5-Pro标准版的3倍,但提供约10倍的输出速度提升。以标准版每百万tokens输出6元计算,UltraSpeed版定价为18元。6月9日至6月23日限时开放申请体验,通过审核的用户可获得两周免费Chat体验。此前,小米于5月27日刚宣布MiMo-V2.5系列API价格永久下调,此次极速模式的高定价策略,体现了对高性能推理价值的市场定位。团队还开源了FP4量化权重与DFlash模型参数至HuggingFace,推动社区生态发展。每秒千token的推理能力,正在重塑AI应用的底层模式。在相同等待时间内,模型可并行运行数十条推理路径,用速度换取思考深度和推理质量。对于开发者而言,极速推理意味着无需长时间等待代码生成,Coding Agent生产力将得到解放。在医疗、金融等对时间极度敏感的场景中,毫秒级的“思考-响应”循环使万亿模型可以接入高频量化交易信号生成、瞬时反欺诈风控拦截等实时决策闭环。从13秒生成一个贪吃蛇小游戏到1分钟复刻macOS系统,这些实例正预示着AI应用从“可用”向“好用”的跨越。对于AI从业者而言,关注这一技术路线的发展,或许能从中找到降低推理成本、提升产品体验的新思路。