当朋友圈里晒新模型的热度逐渐消退,AI从业者开始意识到一个事实:现有模型已经足够强大,真正的瓶颈在于如何让Agent高效地完成实际工作。百度在Create 2026大会上给出了答案——不是追求更大的参数,而是通过Token Factory和Harness Engineering,将Token从‘消耗品’变为‘生产力工具’。

Token Factory的核心是对模型服务的工业化重构。传统MaaS平台像‘模型超市’,用户挑选模型后自行组装,但在Agent场景下,多轮规划与工具调用导致上下文长度暴增,手工模式成本与速度双输。百度千帆用Agent-First逻辑,在底层剔除重复计算的Token,使推理速度提升25%,首Token延迟缩短16%。平台内置150个主流模型(包括文心、DeepSeek、GLM、MiniMax等),底层采用国产昆仑芯实现软硬一体优化,同时将百度自有的Skills与MCP(通用搜索、权威数据、数据处理等)打包成流水线,让Token像工业零件一样高效产出。

Harness Engineering则解决了Agent执行任务时的路径规划与边界问题。CMU、Yale等机构联合发布的71页综述论文指出,Agent可靠性不能只盯着模型。百度千帆将长上下文管理、持久记忆、子智能体调度和评估反馈深度整合,防止Agent在死循环中浪费Token。Mitchell Hashimoto提出的公式‘Agent = Model + Harness’在此得到印证:顶级模型如万匹马力发动机,而Harness是传动轴、刹车片和冷却系统,确保动力在安全区间内释放。

实际案例中,跨平台数据比对任务要求Agent抓取多个外网的价格历史,在Harness Engineering的调度下,路径规划避免了重复调用,Token消耗降低约30%。百度智能云总裁沈抖断言:‘AI云的下半场,不是比谁消耗了更多的Token,而是比谁能用好每一个Token。’对于开发者而言,这意味着未来选型不再纠结模型参数,而是关注Agent的日活产出与Token转化效率。百度千帆的这一套基础设施,正在将Token焦虑转化为可量化的生产力指标。