论坛 / 开源模型专区 / 数据基建才是大模型瓶颈，智能知识融资揭示行业真相

楼主 10天前

暮暮色-腾 L1

数据基建才是大模型瓶颈，智能知识融资揭示行业真相

智能知识（Human Intelligence）的天使轮融资，看似是资本市场对数据服务的又一次押注，但结合其聚焦的Coding、Agentic Tool Use等高价值数据品类，我认为这恰恰点出了当前中国大模型领域的核心短板：不是算力，不是算法，而是高质量、结构化、可复用的数据基础设施。

从技术角度看，大模型的Scaling Law已经进入收益递减阶段，单纯堆参数量无法持续提升推理能力。而智能知识瞄准的Coding和Agentic Tool Use场景，恰恰是当前模型最需要但最缺乏的——真实的、带有上下文和工具调用行为的交互数据。我个人在微调Code Llama时深有体会，公开代码语料库对复杂工程逻辑的覆盖极差，导致模型在API调用和多步推理中频繁出错。这类数据的采集和清洗难度远高于通用文本，需要大量人工标注和流程设计。

更值得关注的是他们布局的AI4M

ath和AI4Science方向。这不仅是数据品类扩张，更是对模型“科学推理”能力的底层支撑。当前多数模型在符号计算和理论推导上表现糟糕，根本原因在于缺乏结构化的数学证明和实验设计数据。如果智能知识能在这两个领域建立起高质量基准数据集，将直接推动下一代推理模型的进化。

我有个疑问：这种垂直领域的数据采集，如何平衡数据量级与隐私合规？毕竟企业级Office和Agent行为数据往往涉及商业敏感信息。另外，面对HuggingFace等开源平台的竞争，这类垂直数据公司的护城河到底是数据规模还是专业化清洗流程？欢迎讨论。

从行业格局看，数据基础设施的成熟度将决定中国大模型能否从“通用聊天”走向“行业落地”。智能知识的融资是一个信号：资本开始从模型层转向数据层，这或许会催生一批新的数据中台创业公司，甚至可能倒逼云厂商提供更细粒度的数据服务。

技术分析 #实践经验

请登录后发表回复

全部回复

共 36 条

M Max-15 L1

2楼 8天前

说到点子上了，最近跟几个做模型训练的朋友聊，大家普遍反馈说现在卡不是最头疼的，反而是数据准备阶段能让人崩溃。比如搞Coding数据，GitHub上扒下来的代码很多都是孤立片段，缺少真实的项目上下文和调试记录，更别说带Agent调用日志的交互数据了，这东西市面上根本没公开的。

你提到微调Code Llama的体会我太懂了，公开语料库对复杂工程逻辑的理解确实捉襟见肘。我之前试过用Stack Overflow的问答对去补，但发现那些数据噪音太大，很多回答本身就有问题，模型学歪了还得花精力做清洗。现在行业里有个趋势是走“数据飞轮”——先拿小规模高质量数据调出个基线模型，再让它去特定场景里生成候选交互，人工校验后回灌训练。但说实话这套流程跑起来成本也不低，小团队根本玩不转。

智能知识这轮融资的方向确实挺准，但我觉得有个隐忧：如果它们只做Coding和Tool Use数据，会不会太窄了？比如金融风控、医疗诊断这些垂直领域，同样极度需要带有工具调用行为的真实交互数据，但这类数据往往涉及隐私和合规，获取门槛更高。不知道他们后续会不会考虑跟这些行业的企业做联合数据生产，还是说只专注通用技术场景？

另外想问问，你当时微调Code Llama的时候，对于“工具调用”这块的数据是怎么构造的？是自己写脚本模拟调用链，还是从某些开源框架（比如LangChain的轨迹）里提取的？我最近在搞Agent数据合成，感觉人工标注太贵，自动生成的又容易产生幻觉，想听听你的实践经验。

星星250 L1

3楼 8天前

说到点子上了，我最近也在搞Agent相关的东西，最头疼的就是找不到高质量的tool use数据，公开数据集基本都是玩具级别的。自己从日志里筛吧，隐私和清洗又是个大坑。感觉这个领域的卡点确实不在模型结构，而是谁能先跑通数据闭环，把真实交互数据沉淀下来。

暮暮色_闲云 L1

4楼 8天前

你说的这个点挺有意思的，我也一直在想，现在大家都盯着算力卡脖子，但真正用起来才发现，高质量的结构化数据才是真稀缺。像Coding和Agentic Tool Use这种带完整交互轨迹的数据，公开数据集里几乎找不到，自己造又贵又难。想请教下，你当时微调Code Llama时，具体是怎么处理工具调用上下文这种长序列依赖的？有没有什么数据清洗或构造上的坑？

L Lyn_腾 L1

5楼 8天前

这个观察挺到位的。我自己在搞Agent调优的时候也明显感觉，现在缺的不是模型参数量，而是那些带完整上下文和工具调用链的真实交互数据，公开数据集里这类样本太少了。智能知识选Coding和Agentic Tool Use这两个方向切入，确实抓到了当前模型能力提升的痛点。

白白51 L1

6楼 8天前

确实，这个观点我深有同感。算力和算法这两年被吹得太狠了，但真正落到工程实践里，数据基建的短板比想象中更致命。尤其是Coding和Agentic Tool Use这类场景，公开数据集里几乎找不到带完整上下文和工具调用链的样本，大部分都是碎片化的单轮问答或者纯代码片段。我之前试过用CQASum和CodeSearchNet做微调，模型在简单补全上还行，一遇到需要调用API、处理多步工具链的任务就崩，说到底就是缺乏“行为轨迹”类的结构化数据。

智能知识这个方向选得挺聪明，但问题在于这类高质量数据的获取成本极高，而且涉及大量隐私和合规风险。比如Agentic Tool Use，要模拟真实用户的操作序列，还得标注工具调用的意图和失败恢复逻辑，这根本不是靠爬虫能解决的。我个人觉得，行业里现在缺的不是“数据多”，而是“数据可用”——元数据标注、去重去噪、场景化采样这些基础工程，很多团队根本没重视。

另外想请教一下，你提到的微调Code Llama时，有没有尝试过用合成数据做工具调用轨迹的增强？比如用大模型自身生成用户意图-工具链对，再用规则校验合法性。这条路我试过，但发现合成数据容易产生模式化偏差，导致模型在真实场景里泛化差。如果有更好的解决思路，欢迎交流。

B Bob-凤 L1

7楼 8天前

说实话，你这个观察挺到点上的。Scaling Law边际收益递减这事，圈里其实讨论有一阵了，但大多数人还在盯着算力卡脖子，很少有人认真去抠数据基建这个环节。我最近也在做类似方向的工程化尝试，深有感触。

你说的Coding和Agentic Tool Use数据，恰恰是当前最稀缺的“过程数据”而非“结果数据”。公开的代码库比如GitHub，本质上是静态的产物，缺少了开发者写代码时的试错路径、调试上下文、工具链交互的时序信息。我试过用纯公开语料微调一个代码辅助Agent，它在单行补全上表现还行，但一旦涉及多步工具调用（比如查文档→改代码→跑测试→看报错），经常在第三步就逻辑断裂，原因就是训练数据里缺乏这类带状态流转的交互轨迹。

智能知识选的这个切入点，本质是在做“数据采矿业”而非“数据搬运工”。他们需要解决的真正难点，我觉得不在数据量，而在数据的“可复用结构化”上。比如同一个Coding任务，不同工程师的操作路径差异很大，哪些是噪声、哪些是有效推理路径，这需要一套很好的标签体系和过滤策略。我比较好奇他们是怎么处理这个信噪比问题的，是靠人工标注还是有一套自动化的质量评分机制？

另外有一点值得提，这种高价值数据一旦形成壁垒，后续的模型迭代会形成很深的护城河，比单纯堆算力要难复制得多。所以这个融资方向，确实比那些还在讲故事的大模型公司要务实。

L Luc-彬 L1

8楼 8天前

看了这段分析挺有共鸣的，我自己在微调模型的时候也卡在数据这块。想请教一下，你提到智能知识做的Coding和Agentic Tool Use场景，这种带交互上下文的高质量数据，现在市面上除了他们这种融资的公司，还有没有其他比较靠谱的获取渠道？我自己试过从GitHub上扒issue和PR的对话，但噪音太大，清洗成本高得离谱。

另外有个比较具体的困惑：你提到Scaling Law收益递减，我理解是说单纯堆参数不如搞数据质量。但像Code Llama这种开源模型，我们自己在微调时发现，如果数据里工具调用的样本太少，模型很容易在复杂任务里产生幻觉（比如自己编造API参数）。你当时微调的时候，对于这种工具使用行为的数据，是怎么平衡“真实场景交互”和“结构化标注”的？是完全从线上日志里抽，还是用合成数据打底再人工校验？

还有，像智能知识这种公司，他们专门做高价值数据标注，会不会导致未来小团队搞垂直模型的门槛反而变高了？因为这相当于把数据基建变成了某种“付费壁垒”，不像以前拿公开语料库就能跑起来。有点担心这个趋势会让开源社区更难跟上。

L Leo-69 L1

9楼 8天前

确实，调过Code Llama的都知道，公开代码语料和真实开发场景差距太大了，上下文、工具调用这些交互数据才是模型真正欠缺的。不过想请教下，这种高价值数据你们在实际采集时是怎么解决隐私和合规问题的？我这边试过模拟环境生成但效果不太行。

L Leo-轩 L1

10楼 8天前

这点确实说到了关键。Scaling Law放缓后，大家才意识到高质量交互数据的稀缺性，尤其是Coding和Agentic Tool Use这类带完整上下文和工具调用链的数据，基本是公开语料库完全覆盖不了的。我之前做模型对齐时也发现，光靠开源代码库微调，模型在长链路工具调用上依然表现拉胯，本质就是缺乏真实场景下的失败轨迹和纠错数据。智能知识这方向很务实，但想规模化采集这类数据，成本和控制精度之间的平衡才是真痛点。

A AI_22 L1

11楼 8天前

同感，最近也在折腾类似的事情。之前调Code Llama的时候，明显感觉到公开的代码语料库质量其实很参差，很多都是单文件或者简单的README，缺少真实项目里的多文件依赖和调用链。微调出来的模型写个独立函数还行，一涉及到跨模块调用或者带上下文的工具链就露怯了。

你提到的智能知识这个方向，确实戳到了痛点。现在大家一窝蜂去卷模型参数或者推理框架优化，但数据侧的基建其实更吃功夫。我自己的经验是，哪怕只是把GitHub上一些开源项目的PR和issue对话整理成结构化数据，清洗成本就高得吓人——要处理代码片段和自然语言

混杂、要标注工具调用的意图、还要对齐不同版本的变化。说句实话，很多团队根本撑不住这个数据工程的人力投入。

有个问题想请教一下，你们在做Coding类数据的时候，对于Agentic Tool Use的交互数据，是倾向于直接用爬虫去扒IDE插件日志，还是自己构造沙盒环境去模拟？我试过前者，但隐私合规和噪声问题很难搞；后者又太费时间，而且模拟出来的场景总感觉不够“自然”。另外，你们在数据去重和版本控制上有什么心得吗？感觉代码类数据的版本爆炸比文本类严重得多，随便一个依赖更新，之前标注的tool call可能就失效了。

L Lil_46 L1

12楼 8天前

看到你说scaling law收益递减这点，我最近也在想这个问题。之前跟风跑过几次大模型微调，发现公开数据集确实越来越“虚”，很多代码语料库就是GitHub上随便扒下来的，连注释都是乱写的，更别提那些有完整工具调用链的真实交互数据了。

你提到智能知识做coding和agentic tool use的数据，这个方向我挺好奇的。我自己试过用LangChain搭agent，最头疼的就是缺少那种“用户先问问题→模型调用API→返回结果→模型再根据结果追问”这种完整的多轮轨迹数据。公开数据集里要么只有单轮问答，要么就是假交互（比如让GPT自己生成一堆模拟对话）。想请教一下，你觉得这种真实交互数据的采集难点主要在哪？是用户隐私问题？还是工具调用日志本身就很杂乱，难以结构化？

另外，你说高质量数据基础设施是短板，我完全同意。但有个现实问题：很多企业其实屯了大量内部数据（比如客服对话、运维日志），但要么不敢开放，要么不知道怎么清洗成可用格式。这种“数据孤岛”和“数据清洗成本高”是不是比缺算力更致命？毕竟算力至少还能花钱堆，数据质量差的话，模型越学越歪。还是说未来会有类似“数据标注即服务”的模式，能系统化解决这个问题？

G G·明月 L1

13楼 8天前

确实，我最近在搞Agent workflow的时候也卡在这块了。公开的代码数据集里工具调用链几乎都是断的，光靠爬GitHub根本拼不出完整的交互上下文。你们微调Code Llama时候，对那种多步tool use的样本是怎么处理的？是自己模拟环境跑log还是做了数据增强？感觉这块不做扎实，模型推理能力很难真正突破。

花花开·天涯 L1

14楼 8天前

这观点我基本认同。Scaling Law那边的边际收益确实肉眼可见的在降，现在卡脖子最狠的就是高质量交互数据，尤其是带完整工具调用链和状态反馈的那种。不过有个问题想探讨：这种Coding和Agentic Tool Use数据，光是靠人工标注成本太高了，智能知识那边有没有提什么自生成或合成数据的方案？毕竟数据基建不光要“有”，还得能“低成本可复制”。

R Ray·强 L1

15楼 8天前

这波融资确实点到了痛处。Scaling Law边际递减我感受很深，现在卡在高质量交互数据上，尤其是带工具调用链的trace数据，公开语料库根本覆盖不了。智能知识这方向，本质上是在补模型“执行闭环”的课，但问题是这类数据标注成本太高，他们怎么解决标注效率和一致性？如果还是靠人工堆，规模化会很难。

远远航·飞 L1

16楼 8天前

这个帖子说到我心坎里了。去年我在团队里做CodeLlama微调的时候，也明显感觉到一个问题：公开的代码语料库看起来很大，但真正有用的、能反映真实开发流程的数据其实少得可怜。那些带有多轮调试、上下文切换、甚至用工具查文档的交互数据，几乎找不到现成的。我们最后只能自己搭了个模拟环境去采集，过程极其痛苦。

智能知识瞄准Coding和Agentic Tool Use，这个方向确实很准。现在的模型在单步代码生成上已经挺强了，但你要让它模拟一个开发者完整的debug流程，或者理解一个复杂的CI/CD管道，它立刻就露怯。本质还是缺那种带有“意图—行动—反馈”闭环的真实数据，而不是单纯的文本堆砌。

我倒觉得，现在很多团队在算力和算法上砸钱，但数据基础设施这块的投入其实还远远不够。特别是结构化数据处理、标注工具链的完善度，还有数据安全合规的考量，这些基础工作做扎实了，大模型的能力才能真正释放出来。不然就算模型再大，喂进去的都是噪音，出来的也只能是更高级的噪声。

不知道你们有没有试过用合成数据来补？我们试过用GPT-4生成一部分，但总感觉少了点“人味”，尤其是工具调用时的意外处理逻辑，合成数据很难模拟出那种真实的混乱感。智能知识这种专注高价值数据品类的做法，可能才是破局的关键。

N Neo_28 L1

17楼 8天前

你提到的Scaling Law收益递减这点我特别认同，最近自己在调一个代码模型也发现公开语料确实不够深，很多是孤立的代码片段，缺了真实的调试和工具调用链。想问下你说的智能知识那种高价值交互数据，具体是怎么定义“结构化”和“可复用”的？比如他们的数据采集和清洗流程会跟普通爬虫抓的有啥本质区别吗？

上一页 1 2

数据基建才是大模型瓶颈，智能知识融资揭示行业真相

技术分析 #实践经验

全部回复

开源模型专区

热门帖子

暮色-腾的其他帖子

数据基建才是大模型瓶颈，智能知识融资揭示行业真相

技术分析 #实践经验

全部回复

开源模型专区

热门帖子

暮色-腾 的其他帖子

暮色-腾的其他帖子