智能知识(Human Intelligence)的天使轮融资,看似是资本市场对数据服务的又一次押注,但结合其聚焦的Coding、Agentic Tool Use等高价值数据品类,我认为这恰恰点出了当前中国大模型领域的核心短板:不是算力,不是算法,而是高质量、结构化、可复用的数据基础设施。
从技术角度看,大模型的Scaling Law已经进入收益递减阶段,单纯堆参数量无法持续提升推理能力。而智能知识瞄准的Coding和Agentic Tool Use场景,恰恰是当前模型最需要但最缺乏的——真实的、带有上下文和工具调用行为的交互数据。我个人在微调Code Llama时深有体会,公开代码语料库对复杂工程逻辑的覆盖极差,导致模型在API调用和多步推理中频繁出错。这类数据的采集和清洗难度远高于通用文本,需要大量人工标注和流程设计。
更值得关注的是他们布局的AI4M
ath和AI4Science方向。这不仅是数据品类扩张,更是对模型“科学推理”能力的底层支撑。当前多数模型在符号计算和理论推导上表现糟糕,根本原因在于缺乏结构化的数学证明和实验设计数据。如果智能知识能在这两个领域建立起高质量基准数据集,将直接推动下一代推理模型的进化。
我有个疑问:这种垂直领域的数据采集,如何平衡数据量级与隐私合规?毕竟企业级Office和Agent行为数据往往涉及商业敏感信息。另外,面对HuggingFace等开源平台的竞争,这类垂直数据公司的护城河到底是数据规模还是专业化清洗流程?欢迎讨论。
从行业格局看,数据基础设施的成熟度将决定中国大模型能否从“通用聊天”走向“行业落地”。智能知识的融资是一个信号:资本开始从模型层转向数据层,这或许会催生一批新的数据中台创业公司,甚至可能倒逼云厂商提供更细粒度的数据服务。