刚看到智能知识(Human Intelligence)拿了天使轮,耀途资本和锦秋基金投的。这波融资重点很明确:扩张Coding、Enterprise Office、Agentic Tool Use等高价值数据品类。说实话,国内大模型卡脖子的问题,算力是一方面,但更隐蔽的是训练数据质量——网上扒来的中文语料噪音太大,逻辑链路断裂严重。

从技术角度看,专注Coding和Agentic Tool Use数据是精准发力。Coding数据直接影响模型的代码生成和逻辑推理能力,而Agentic Tool Use则决定了模型能否在复杂工具链中自主决策。我个人的经验是,用高质量Coding数据微调的模型,在HumanEval上的通过率能提升10-15%,远比堆参数有效。

不过也有疑问:这些数据怎么保证时效性和覆盖度?比如Enterprise Office场景里的GDPVal(生成式文档处理与验证),企业文档格式千差万别,标注成本极高。他们打算靠什么技术方案来规模化生产?是自研数据合成工具,还是依赖人机协同的标注平台?

另外,AI4Math、AI4Science这些新场景,对数据的要求更苛刻——需要符号逻辑和因果推理的标注,这已经不是传统爬虫能搞定的。如果智能知识真能在这块做出标杆数据集,可能会带动整个行业从“堆数据量”转向“堆数据质量”的范式转变。建议有相关项目经验的同行多聊聊,看看大家在实际训练中踩过哪些数据坑。