{
title: "云知声U2发布:原生智能体大模型自主完成百步工作流",
summary: "云知声发布新一代通用大语言模型U2,定位为原生智能体大模型,强调高智能密度与高Token价值。U2在GPQA Diamond上获87.9分,SWE-Bench Verified达75分,Claw-Eval得分76.9,进入主流模型第一梯队。其核心创新在于混合思考机制与Agent-Harness协同训练,能够自主拆解并执行100+步复杂工作流,从单轮问答转向真实任务交付。",
content: "在AI大模型陷入参数竞赛和输出长度内卷的当下,云知声于近日正式发布U2,一款面向任务执行的原生智能体大模型。U2的技术主张极为纯粹:高智能密度乘以高Token价值。它不再盲目堆叠参数,而是追求用更少的激活资源承载更强的能力;不再简单比拼输出长度,而是让每一次调用都更接近交付结果。这标志着大模型从“给出答案”向“完成任务”的关键转变。
U2在多个权威评测中展现出硬核实力。在衡量知识与复杂推理能力的GPQA Diamond上,U2取得87.9分,超越GLM-5.1、DeepSeek-V4-Flash等竞品。在真实软件工程能力评测SWE-Bench Verified中,U2获得75分,进入主流模型第一梯队。面向自主Agent端到端执行能力的Claw-Eval测试中,U2以76.9分胜出,验证了其在工具调用与任务交付中的稳定性。而在衡量真实办公交付能力的GDPval上,U2获得72.9分,覆盖资料分析、报告撰写、表格处理等典型任务。这组成绩表明,U2并非单点能力突出,而是在推理、代码、Agent和办公交付上形成了系统性优势。
U2的核心创新在于混合思考机制。传统显式思维链虽然可解释性强,但Token消耗高、推理延迟大;完全依赖隐空间推理虽效率高,却可能在复杂任务中失控。U2在任务早期优先在隐空间中进行高效探索,完成路径搜索与任务拆解;当进入关键判断或约束处理阶段,则切换到显式推理进行逻辑校准与结果验证。通过可控隐空间展开与熵感知切换机制,模型能根据不确定性动态调整思考方式,实现“少Token,深思考”。此外,U2引入Agent-Harness协同训练范式,使模型与执行环境共同进化,能够自主拆解并推进100+步复杂工作流,涵盖需求理解、任务规划、工具调用、过程纠错与结果验收。
云知声认为,衡量大模型价值的标准已从参数规模和内容长度转向真实任务完成能力。U2的设计初衷就是面向复杂办公、软件工程、深度研究与多工具协同场景。未来,随着混合思考机制和Agent-Harness训练的持续优化,U2有望在更多行业落地,成为AI从业者手中的高效生产力工具。对于开发者和企业用户而言,关注U2在具体业务场景中的适配与集成,将是释放其价值的关键。"
}