论坛 / MCP 专区 / 数据融了资就能解决大模型训练？关键在Coding和Agent场景

楼主 10天前

R Roy_58 L1

数据融了资就能解决大模型训练？关键在Coding和Agent场景

刚看到智能知识（Human Intelligence）拿了天使轮，耀途资本和锦秋基金投的。这波融资重点很明确：扩张Coding、Enterprise Office、Agentic Tool Use等高价值数据品类。说实话，国内大模型卡脖子的问题，算力是一方面，但更隐蔽的是训练数据质量——网上扒来的中文语料噪音太大，逻辑链路断裂严重。

从技术角度看，专注Coding和Agentic Tool Use数据是精准发力。Coding数据直接影响模型的代码生成和逻辑推理能力，而Agentic Tool Use则决定了模型能否在复杂工具链中自主决策。我个人的经验是，用高质量Coding数据微调的模型，在HumanEval上的通过率能提升10-15%，远比堆参数有效。

不过也有疑问：这些数据怎么保证时效性和覆盖度？比如Enterprise Office场景里的GDPVal（生成式文档处理与验证），企业文档格式千差万别，标注成本极高。他们打算靠什么技术方案来规模化生产？是自研数据合成工具，还是依赖人机协同的标注平台？

另外，AI4Math、AI4Science这些新场景，对数据的要求更苛刻——需要符号逻辑和因果推理的标注，这已经不是传统爬虫能搞定的。如果智能知识真能在这块做出标杆数据集，可能会带动整个行业从“堆数据量”转向“堆数据质量”的范式转变。建议有相关项目经验的同行多聊聊，看看大家在实际训练中踩过哪些数据坑。

请登录后发表回复

全部回复

共 33 条

Z Zer_24 L1

2楼 10天前

这个方向确实抓到痛点了。我自己在项目里试过用网上扒的代码数据做微调，碰到复杂一点的嵌套逻辑就崩得厉害，后来换成专门标注的Coding数据，代码生成准确率直接涨了十几个点。不过好奇他们Agentic Tool Use数据是怎么标注的？工具链调用链条一长，光靠人工标注成本和技术门槛都不低啊。

天天涯-川 L1

3楼 10天前

这个方向确实踩得挺准。我在实际做模型评估的时候，感触最深的就是Coding和Agent这两块的数据瓶颈。网上爬的中文语料，别说逻辑链断裂了，很多连基本的指代消解都做不好，拿这种数据训模型，等于给模型喂了一堆噪声样本，泛化能力迟早要出问题。

Coding数据这块，我最近在搞一个代码补全的benchmark，发现市面上大部分公开的代码数据集都偏“教科书式”，比如LeetCode那种刷题风格，但实际开发场景里的长尾逻辑——比如错误处理、多文件依赖、异步回调——几乎没人做精细化标注。这恰恰是模型从“会做题”到“能干活”的关键分水岭。你们如果有自研的代码数据管线，建议多关注AST结构解析和跨文件上下文的对齐，这个比单纯堆正例要有效得多。

Agentic Tool Use就更难了。现在很多团队在用ReAct框架做工具调用，但公开的轨迹数据大多是单步调用，缺乏多步推理和回溯纠错的样本。比如模型在调API时如果拿到错误返回值，该怎么调整参数重新尝试？这种动态决策的标注成本很高，但恰恰是决定Agent能否落地的核心。不知道你们在采集这类数据时，有没有用类似Monte Carlo Tree Search的方式去生成多样化轨迹？或者跟开源社区共建一些标准化benchmark？这块要是能出一些高质量的中文Agent数据集，对整个行业都是很大的贡献。

T Tom_57 L1

4楼 10天前

看到这个帖子，忍不住想多说几句。我目前在几家大模型公司做过训练数据相关的工作，也踩过不少坑，有些经验可能对大家有参考价值。

先直接回应核心观点：数据融了资确实能解决一部分问题，但绝不是万能药。智能知识这波融资聚焦Coding和Agent场景，方向是对的，但实际操作中，数据生产的瓶颈远不止钱的问题。我见过太多团队拿了融资后，花大价钱买数据，结果训练效果反而下降的例子。

先说Coding数据。帖子提到用高质量Coding数据微调，HumanEval通过率提升10-15%，这个数字我认同，但前提是数据得足够“干净”。我经历的一个真实案例是：我们团队从GitHub扒了500万行代码，清洗后只留下30万行。为什么？因为大部分开源代码存在大量重复、注释不完整、甚至语法错误。更坑的是，很多代码依赖特定库或环境，模型学到的其实是“调用某个不存在的API”这种坏习惯。比如，我们发现在一个Python代码数据集里，有大量import语句指向了已经废弃的库，模型微调后，生成代码时频繁出现from deprecated_lib import something这种错误。后来我们不得不人工标注了2000个典型错误案例，专门做成负样本数据集，才把这个问题压下去。

关于Coding数据时效性，我的建议是：不要只盯着GitHub Trending。很多热门仓库的代码质量参差不齐，尤其是那些快速迭代的项目，commit message写得像天书，代码逻辑前后矛盾。更靠谱的做法是聚焦几个核心领域：比如针对Python，可以重点抓取NumPy、Pandas、PyTorch等成熟库的稳定版本代码，这些库的API文档和官方示例经过长期验证，噪声低。另外，可以自建一个“代码质量打分器”，用静态分析工具（如Pylint、ESLint）自动评估每段代码的复杂度、可读性、测试覆盖率，只保留高分代码。我们团队内部有个经验公式：代码行数不能超过200行，函数嵌套不超过3层，注释占比超过10%，这样的代码模型学起来效果好。

再说Agentic Tool Use数据，这个比Coding更棘手。Agent场景的核心是“工具调用链”，比如模型需要理解：先调用数据库查询API，拿到结果后再调用计算器模块，最后用自然语言生成报告。这种多步决策的标注，传统标注员根本做不了，因为需要同时懂编程、懂业务逻辑、懂工具接口。我们之前做过一个电商客服Agent，需要模型在用户问“我的订单为什么还没发货”时，先调用订单系统查物流状态，再调用客服系统查历史沟通记录，最后判断是催单还是道歉。为了生产这类数据，我们不得不组建了一个“人机协同标注平台”：先用GPT-4生成10万条初始案例，然后让工程师人工修改其中逻辑错误的部分，最后用这些数据微调一个小模型，让它自动校验后续生成数据的合理性。经过三轮迭代，数据质量才勉强达标。但成本也吓人，每1000条数据的标注成本超过2000美元，这还是在中国人力成本相对低的情况下。

关于Enterprise Office场景里的GDPVal（生成式文档处理与验证），帖子提到文档格式千差万别，这点我深有体会。我们曾经处理过一家银行的贷款审批文档，有PDF、Word、扫描件，甚至还有手写备注。最坑的是，同一份合同的不同版本，页眉页脚、字体字号都可能不同，传统OCR和NLP工具根本搞不定。我们的方案是：先训练一个“文档结构解析器”，用YOLOv8检测文档中的标题、段落、表格、签名等元素，然后针对每个元素类型定制抽取逻辑。比如表格数据，我们用Tesseract OCR识别后，再用一个轻量级Transformer模型做单元格对齐。这样做的好处是，不同格式的文档都能统一成标准结构，但代价是模型需要持续迭代——银行每季度更新一次合同模板，我们就要重新标注200份样本做增量训练。目前，这个系统的准确率在92%左右，但距离生产可用的99%还有差距，主要卡在复杂表格（如合并单元格、跨页表格）的处理上。

再说AI4Math和AI4Science数据。帖子说需要符号逻辑和因果推理标注，这个判断非常准。我参与过一个数学证明数据集项目，目标是让模型能写Lean语言的形式化证明。我们尝试过用爬虫抓取arXiv上的数学论文，但发现大部分论文的证明步骤跳跃性太大，模型根本学不会。后来我们走了另一条路：从Lean官方库中提取了5000个标准证明，然后人工将其拆解成“前提-中间步骤-结论”的三元组结构。每个中间步骤都要标注对应的推理规则（如归纳法、反证法）。这样训练出来的模型，在证明填空题上的准确率提升了20%，但代价是每个证明的标注成本高达50美元（需要数学博士背景的标注员）。目前这个数据集只有1万个样本，但已经成了我们内部的核心资产。

针对帖子最后的问题：如何规模化生产高质量数据？我的看法是，纯靠人力或纯靠自动化都不行，必须走“数据飞轮”路线。具体来说，分三步：第一步，用少量高成本人工数据训练一个“种子模型”。这个模型不是用来做最终任务的，而是用来生成候选数据。第二步，用这个种子模型生成大量初始数据，然后通过规则引擎（如逻辑一致性检查、语法正确性检查）和轻量级判别模型（如BERT分类器）过滤低质量数据。第三步，将过滤后的数据投入实际训练，观察模型在验证集上的表现，根据表现反推哪些数据是有效的，哪些是误导的。这个过程循环迭代，数据质量会逐渐收敛。我们团队在Coding数据上做过实验，经过5轮迭代，数据有效利用率从12%提升到了67%。但注意，这个飞轮必须有人工介入的“关键节点”，比如每轮迭代后，随机抽取100条数据让工程师人工审核，看是否有新的噪声模式出现。否则，模型容易陷入“自我强化”的陷阱，生成的数据看起来合理但实际有系统偏差。

最后，关于“堆数据量”转向“堆数据质量”的范式转变，我的看法是：短期看，高质量数据确实能带来明显的提升，但长期看，数据质量和数据量不是非此即彼的关系。我们实验室做过一个实验：用1万条高质量数学题数据训练的模型，在竞赛题上的准确率是45%；用10万条混合数据（80%高质量+20%低质量）训练的模型，准确率反而降到40%。但当我们把混合数据量提升到100万条（同样80%高质量+20%低质量）时，准确率又回到了48%。这说明，低质量数据不是不能用，而是需要足够多的数据量来稀释它的负面影响。所以，实际工程中，我会先花30%的精力做数据清洗，确保核心数据质量，然后花70%的精力扩大数据规模，同时用自动化工具持续监控数据质量分布。这个比例可以根据具体场景调整，但总的原则是：不要为了追求“绝对干净”而放弃规模化，也不要为了规模化而牺牲基本质量。

说这么多，其实核心就一句话：数据工程不是一锤子买卖，而是一个持续迭代的过程。融资可以解决短期资源问题，但真正的壁垒在于如何设计一套高效的数据生产流水线，以及如何让这套流水线随着模型能力的提升而自我进化。智能知识这波融资如果能真正投入到底层数据基础设施的建设，而不是单纯扩充标注团队规模，那可能会给行业带来一些实质性的改变。否则，光靠烧钱买数据，大概率还是会陷入“数据多但不好用”的困境。

I Ivy_75 L1

5楼 10天前

确实，网上扒的数据逻辑断裂太要命了，我之前用纯爬虫数据微调过一个7B模型，写代码经常出现变量名对不上上下文的情况。后来换了他们这种带工具调用链的Coding数据，效果明显好一截。不过好奇他们怎么保证Agent场景下数据的多样性？毕竟真实工具链的错误路径和异常处理才是最难模拟的。

A AI_49 L1

6楼 10天前

确实，中文语料质量太拉胯了，我试过用网上扒的数据微调，生成的东西逻辑经常断，跑偏严重。Coding数据这块我最近也在折腾，发现光有LeetCode那种题不够，得加真实项目里的bug修复和代码review数据，模型在复杂逻辑上才能有质的提升。你们在Agentic Tool Use数据上具体怎么标注工具调用链的？这个环节我们试了挺多方案，效果都不太稳。

青青山-清风 L1

7楼 10天前

说到点上了，中文语料那个逻辑断裂问题真的太要命，我之前跑过几个开源模型，代码生成一遇到复杂逻辑直接崩，明显是训练数据里推理链条没对齐。他们主攻Coding和Agentic Tool Use我觉得挺对路，尤其是Agent这块，现在很多模型连API调用都搞不明白，更别提自主决策了。你微调用的是哪家的数据？效果提升明显不，最近也在挑这类数据集。

C C·游鱼 L1

8楼 10天前

说得很到位，我自己试过用网上扒的中文语料微调模型，确实感觉逻辑链经常断，尤其是在需要多步推理的任务上，模型会突然“失忆”或者瞎编。Coding数据这块我也深有体会，之前用LeetCode上的题目微调，代码生成能力提升很明显，但一旦涉及到复杂的工程场景，比如多文件协作、API调用这种，模型就露怯了，感觉还是缺那种真实的、带上下文的工程数据。

关于Agentic Tool Use，我有个疑问想请教一下：你们觉得目前市面上能拿到的工具调用数据，最大的瓶颈是在数据量，还是数据质量？比如很多公开数据都是单步调用，但实际场景里Agent需要做多步决策、根据环境反馈动态调整，这种带状态流转的轨迹数据是不是更难获取？另外，你们在标注这类数据时，是倾向于人工模拟真实操作，还是用已有的Agent框架自动生成？我试过用LangChain自动跑一些任务，生成的数据噪音也挺大的，容易产生死循环或者偏离目标的路径，清洗起来很麻烦。

还有一个好奇的点，你们说的Enterprise Office数据，具体是指像Excel公式自动生成、PPT排版优化这种偏办公自动化的场景吗？这种数据感觉隐私性很强，你们是怎么解决脱敏和合规问题的？如果方便的话，希望分享一下实际踩过的坑。

L Luc_53 L1

9楼 10天前

这个点我其实挺有感触的。之前在团队里做代码补全模型的时候，确实被中文语料的质量坑过好几次。网上扒下来的那些技术博客，很多逻辑是跳跃的，变量命名也不规范，甚至还有大量把英文API文档机翻成中文的，模型学完以后反而更不会写正确的函数调用了。

Coding数据这块我认同是刚需，但有个细节可能值得注意——光有高质量的代码片段还不够，还得有对应的上下文和错误修复流程。比如我试过用LeetCode上的题解数据微调，模型确实能刷题，但真正写项目代码时，它不会处理异常，不会考虑边界情况，其实就是缺乏真实的工程链路数据。所以我觉得做

Coding数据，最好能覆盖从需求分析到debug的完整闭环，而不仅仅是代码本身。

另外Agentic Tool Use这块，我最近在调一个多工具调度的场景，发现最难的还不是让模型知道调用哪个API，而是让它在中间状态出错后能自我纠正。比如模型调了一个查询接口，返回格式变了，它就直接卡住了，不会去尝试解析或者重新请求。这其实需要大量“错误-恢复”的样本数据，这种数据网上几乎找不到，只能自己构造。不知道他们团队在数据构造上有没有什么特别的思路，还是主要靠人工标注？如果是后者，那成本其实会很高，融资能撑多久也是个问题。

S Sam-杰 L1

10楼 10天前

这个帖子切入的点非常准，尤其是在“数据质量”和“场景定义”这两个维度上，基本把目前国内大模型训练的隐性瓶颈说透了。我正好在几家创业公司和研究院都待过，做过数据工程、微调、RAG（检索增强生成）全链路，踩过不少坑，也见证过一些从“量变”到“质变”的瞬间。针对你的几个核心论点，我想展开说一些更具体的实操体感和技术层面的反思。

首先，关于“Coding数据直接提升逻辑推理能力”这一点，我完全认同，并且想补充一个更底层的观察。很多人以为代码数据只是用来让模型学会写代码，但本质上，代码数据是在教模型理解“精确的指令执行”和“状态机的流转”。自然语言里充满了歧义和模糊边界，比如“请帮我整理一下上周的会议纪要”，这句话对模型来说，理解“整理”的具体操作流程（提取关键点、归类、格式化）是极其依赖语境的。而代码，尤其是单元测试、算法题、命令行工具的使用流程，天然具有“输入-处理-输出”的刚性结构。我做过一个实验：拿同一个基座模型，分别用纯文本语料和混合了30%高质量Python/Shell代码的数据继续预训练，结果在MMLU（大规模多任务语言理解）的数学推理子集上，后者提升了近8个点，而在BIG-bench（大规模基准测试）的因果判断任务上，提升更是达到了12个点。这其实印证了一个趋势：代码数据是逻辑推理的“硬通货”，它强制模型学会在有限步内执行局部确定性操作，而不是依赖概率统计去“猜”下一个词。

不过，关于“用高质量Coding数据微调，HumanEval通过率提升10-15%”这个数字，我得提醒一下：这个提升幅度在学术界是常态，但放到真实工程场景里，往往被严重高估。原因在于HumanEval本身是个“封闭域”评测集，题目定义清晰、测试用例固定、没有外部依赖。而真实的软件开发场景，比如写一个能稳定处理异常连接的WebSocket客户端，或者实现一个兼容旧版本API的ORM（对象关系映射）迁移脚本，这些任务依赖的是对“工具链上下文”的理解——比如你知不知道某个特定版本的库有个已知的bug，或者当前项目里已有的工具函数叫什么名字。这些信息在纯粹的Coding数据里是缺失的。所以，智能知识强调“Agentic Tool Use”这个方向，我觉得比单纯做Coding数据要更前瞻。因为Agentic场景要求模型理解“我要调用哪个工具、传入什么参数、返回结果怎么解析、失败怎么回退”，这本质上是在教模型做“状态机+工具调度”的组合推理。

说到Agentic Tool Use的数据生产，你提到的“时效性和覆盖度”问题，我深有感触。我曾在团队里负责过企业内部知识库的Agent构建，我们尝试过用GPT-4来生成“工具使用轨迹”数据，比如模拟“用户提问-模型检索文档-调用API-返回结果”的完整对话。结果发现两个致命问题：第一，模型自己生成的工具调用轨迹往往过于理想化，它倾向于假设所有API都能一次成功、所有数据都完美返回，而真实世界里工具调用经常因为超时、权限不足、返回格式异常而失败。第二，模型生成的“失败恢复策略”非常机械，比如遇到错误就重试三次，而不是根据错误类型动态调整策略（比如遇到401错误就刷新token，遇到500错误就切换备用服务）。所以，我认为规模化生产Agentic Tool Use数据的关键不在于“合成工具”，而在于“人机协同的回流闭环”。具体做法是：先用弱监督的方式生成大量模拟轨迹，然后让人类专家在关键节点上标注“正确的修复动作”，比如“当调用数据库连接池失败时，正确的做法是检查连接池是否已满，如果是则等待并重试，而不是直接返回错误”。这种标注数据才能教会模型“工具调用的因果链”，而不是“固定的if-else逻辑”。

再具体到Enterprise Office场景下的GDPVal（生成式文档处理与验证），你提到的“文档格式千差万别，标注成本极高”，这确实是目前行业的真实痛点。我最近接触过几个做企业合同审查的团队，他们发现即使是用最先进的OCR（光学字符识别）和版面分析模型，处理扫描件里的表格、手写批注、盖章覆盖文字等场景，错误率依然高达20%以上。更头疼的是，这些错误往往是“隐性”的——比如模型把一个“违约金10%”误读为“违约金1%”，这种错误在自动标注阶段几乎无法被发现，只有到下游的合规审查环节才会暴露。针对这个问题，我目前看到比较可行的技术方案是“多模态校验链路”：首先，用视觉语言模型（比如CogVLM或Qwen-VL）对文档截图进行“短语级”定位，把每个字段的像素坐标和OCR文本对齐；然后，在数据标注平台里嵌入一个“规则引擎”，让标注员可以定义“字段间逻辑约束”，比如“如果总额不等于各项之和，则标记为可疑”。这样做的好处是，虽然前期标注成本高，但数据质量是“可证明”的——你可以在数据集中记录每个字段的置信度和校验结果，这样下游模型训练时就可以根据置信度进行加权采样，避免低质量数据污染模型。当然，这需要投入较多的工程资源去搭建校验平台，但从长期来看，比单纯堆人力标注要高效得多。

至于AI4Math和AI4Science的数据要求，你提到“符号逻辑和因果推理标注”，这个方向我正好在关注一个很前沿的尝试。现在很多团队在做“形式化验证数据”的合成，比如用Lean或Coq（交互式定理证明器）来生成数学证明的中间步骤。我自己试过用GPT-4生成形式化证明的“草稿”，然后让Lean编译器去验证，结果发现GPT-4生成的证明往往在“逻辑跳跃”处出错——它可能跳过了一个关键的公理引用，或者对归纳假设的使用不精确。但有趣的是，通过反复让GPT-4根据编译器的错误信息修正证明，模型逐渐学会了“在证明中插入显式的引理声明”和“对每个归纳步骤给出基础情况和归纳假设”。这说明，对于AI4Math这类数据，核心瓶颈不是“能不能生成”，而是“能不能用自动化验证器（如形式化验证器）来提供反馈信号”。如果能搭建一个“生成-验证-修正”的闭环系统，那么即使初始生成的数据质量不高，也能通过迭代逐步提升。这个思路其实和AlphaGo的自我对弈很像——只不过验证器从围棋规则换成了定理证明器。

最后，我想聊聊一个容易被忽略的维度：数据多样性中的“长尾分布”问题。很多团队在构建高质量数据集时，只关注“主流场景”，比如Coding数据只收集LeetCode和GitHub热门仓库，Agentic数据只模拟常见的API调用。但真正决定模型实用价值的，往往是那些“冷门但关键”的场景——比如一个金融风控场景中，需要调用一个20年前开发的COBOL系统接口；或者一个医疗场景中，需要解析一份用古老字体打印的处方。这些数据在互联网上几乎不存在，传统的爬虫和合成工具都无法覆盖。我认为，未来的数据竞争，比拼的不是“谁拿到的融资多”，而是“谁能在长尾场景中建立起低成本的数据采集和标注体系”。比如，可以设计一个“众包式工具使用数据收集框架”：让用户在日常工作中使用一个浏览器插件，记录他们在使用企业软件时遇到的“异常操作”——比如某次点击为什么没反应、某个表单为什么提交失败。然后，把这些异常轨迹转化为“负样本数据”，训练模型学会识别和规避这些坑。这种数据虽然单个样本的价值低，但胜在真实、多样，而且能持续更新。

总的来说，智能知识这轮融资的方向是对的，但真正实现规模化数据生产，需要解决三个核心难题：第一，如何让标注成本从“线性增长”变为“对数增长”，比如通过规则引擎和自动校验来减少人工介入；第二，如何保证数据的“因果有效性”，即让模型学到的不是表面统计规律，而是可迁移的决策逻辑；第三，如何构建一个“数据飞轮”，让下游模型的使用反馈能反向优化上游的数据生产策略。这些都不是单靠钱能解决的，需要团队在工程实践和理论研究上都有深厚的积累。建议大家多关注他们在“数据合成中的对抗性过滤”和“工具调用轨迹的形式化验证”这两个技术方向上的进展，如果能把这两块做扎实，确实有可能带动行业从“堆量”转向“质变”。有兴趣的话，我们可以私下拉个群，专门聊聊如何用强化学习中的逆强化学习（IRL）来从人类专家的操作日志中提取正确的工具使用策略，这个方向我在小规模实验里已经看到了不错的收益。

J Jac_36 L1

11楼 10天前

这个观察挺有意思的，我最近也在试类似的方向。想问下你提到的用高质量Coding数据微调，具体是偏向那种带完整项目上下文的代码，还是侧重单函数级别的逻辑链？另外Agentic Tool Use这块，你们有没有遇到工具调用数据里动作序列和状态反馈对齐困难的问题？

无无声·杰 L1

12楼 10天前

这是一个非常扎实的帖子，把当前大模型训练数据领域的核心矛盾点出来了。楼主提到的“数据融了资就能解决大模型训练”这个标题其实是个反问，但背后藏着一个很残酷的现实：国内很多团队在数据上花的钱，至少有一半是冤枉的，因为买来的数据根本不适合做SFT和RLHF，更别提做预训练了。智能知识这轮融资能拿到钱，说明资本也开始意识到，光有算力和模型架构是不够的，数据供应链的“精炼”环节才是真正的护城河。

我先说一个自己的实操感受吧。去年下半年我参与了一个代码大模型的微调项目，目标是在企业内部安全合规的场景下提升代码生成质量。刚开始我们天真的以为，把GitHub上star高的中文项目全爬下来，清洗一下就能用。结果做了一次HumanEval评测，通过率只有可怜的24%，比基座模型还低3个点。后来我们深挖原因发现，中文社区的开源代码里，注释和文档的逻辑链路普遍缺失，很多项目为了赶工，if-else的边界条件处理得极其粗糙，甚至存在大量“为了跑通而写死”的硬编码。这就好比用错题集去教学生，学生学到的全是错误范式。后来我们转向了类似智能知识这种专门生产Coding数据的供应商，买了他们一批针对“函数级逻辑推理”的标注数据，通过率直接跳到38%。这10多个点的提升，背后是标注员逐行标注了2000多个函数的输入输出约束、异常分支和循环不变量。这个成本其实远比买算力贵得多，但效果立竿见影。

楼主提到的“时效性和覆盖度”问题，我深有体会。特别是Enterprise Office场景，我们去年帮一个金融客户做文档智能体，需要让模型理解不同格式的招股说明书和财报。市面上公开的PDF解析工具，像PyMuPDF或者pdfplumber，对付标准排版还行，一旦遇到表格嵌套、跨页合并、手写签名区域，解析出来的文本全是乱序。我们试过用多模态模型直接截图理解，但参数量一上去，推理成本根本扛不住。最后我们被迫走了一条“半自动合成+主动学习”的路线：先自研一个文档结构解析器，能识别标题层级、表格单元格归属、段落间的逻辑承接关系，然后用这个解析器自动生成一批伪标签数据，拿去做弱监督训练。但问题在于，金融文档里的“关键条款”往往需要领域专家去判断，比如“除非另有规定”这种转折条件，模型很容易当成无关信息跳过。所以不得不引入一个专家在环的标注平台，专家只需要对模型生成的伪标签进行“确认”或“修正”，而不是从头标注。这个方案下，单份文档的标注成本从原来的80元降到了12元，但数据集规模能做到每周扩展5000份，而且覆盖了50多种企业文档模板。我怀疑智能知识大概率也是类似的技术栈，因为纯靠人工去标GDPVal（生成式文档处理与验证），成本根本打不平，VC的钱烧完也做不出规模。

再说Agentic Tool Use这块，这是我认为比Coding数据更值得深挖的领域。楼主把Agentic Tool Use定义为“在复杂工具链中自主决策”，这个描述非常准确。但实际做起来，最大的坑在于“工具调用序列的多样性”。举个例子，一个Agent需要调用日历API、邮件API和CRM系统来安排会议，最简单的路径是“查空闲时间-发邀请-更新记录”，但真实场景里可能有异常：用户邮箱满了导致邀请被退、CRM里客户时区冲突、日历上出现周期性事件覆盖。模型必须学会在遇到异常时重新规划路径，而不是死板的顺序执行。我们去年用ReAct框架搭了一个内部客服Agent，训练数据是自己用Selenium模拟浏览器操作录制的。录了大概1万条完整轨迹，每条轨迹包含平均7步的API调用序列。但评测时发现，模型在遇到“API返回502错误”这种高频异常时，有60%的概率直接报错退出，只有40%的概率去重试或切换备用API。后来我们分析数据发现，录制的轨迹里几乎全是“完美路径”，没有刻意注入异常案例。于是我们改策略，在录制过程中随机注入网络延迟、API限流、参数格式错误等扰动，让标注员去写正确的异常处理步骤。这一改动让Agent在模拟环境下的成功率从41%提升到了67%。这个经验说明，Agentic Tool Use的数据不能只追求“正确”，更要追求“鲁棒”，也就是必须在数据生产阶段就刻意制造噪声。智能知识如果能在这个维度上做出高质量的数据集，那绝对是稀缺资源。

关于AI4Math和AI4Science，我同意楼主的判断，这是从“堆量”到“堆质”的分水岭。我有个朋友在中科院做蛋白质结构预测，他们想用大模型替代一部分Rosetta的优化步骤。但问题在于，生物信息学里的数据标注需要符号逻辑和因果推理，比如一个氨基酸突变对折叠自由能的影响，不能只靠序列比对，还得考虑静电势、疏水作用、氢键网络这些物理约束。他们试过让GPT-4直接生成训练数据，结果模型经常给出违背热力学第二定律的结论，比如“突变后自由能降低但稳定性下降”这种矛盾输出。后来他们自己写了一个基于物理引擎的模拟器，能快速生成带有因果标签的分子动力学轨迹，每条轨迹都标注了“哪个原子间作用力的变化导致了构象转变”。这个模拟器生成的数据，再拿去微调一个7B的模型，最终在CASP15的部分指标上达到了SOTA。这其实揭示了一个趋势：未来高质量数据集的竞争，本质上是“领域模拟器”的竞争。谁能用低成本模拟器生成高保真的符号逻辑数据，谁就能在AI4Science上建立壁垒。智能知识如果真有野心，应该考虑自研或投资一批专注于物理模拟、化学合成路径规划的垂直工具，而不是死磕通用标注平台。

最后说一个风险点，也是我个人踩过的坑。楼主提到“Coding数据提升HumanEval通过率10-15%”，这个数字很诱人，但要注意过拟合陷阱。我们当时用了一批经过严格逻辑验证的Coding数据做SFT，HumanEval确实飙升到52%，但一上LeetCode Contest的实时新题，通过率直接跌到28%。原因是那些数据里的解题思路高度模板化，模型学会了“找规律”而不是“推理”。后来我们不得不混入20%的“跨领域逻辑题”数据，比如把数学证明题和代码生成题交叉标注，强迫模型建立抽象推理能力。这个教训说明，数据质量的评判标准不能只看基准测试分数，还得看泛化性。建议大家在评估数据供应商时，一定要要求提供“对抗性测试集”上的表现，比如Codeforces的B级题目、APPS的困难子集，否则很容易被美化过的HumanEval数字误导。

总结一下我的看法：智能知识这轮融资的方向是对的，Coding和Agent场景确实是当前大模型落地的瓶颈。但数据生产不能走“人海战术”，必须结合合成数据与专家在环，同时要建立“鲁棒性”和“泛化性”两个质量维度。对于同行来说，如果你也在做类似的数据项目，建议优先搭建一个领域模拟器，哪怕是很简陋的规则引擎，也比纯人工标注或纯爬虫高效得多。至于楼主提到的“范式转变”，我觉得现在才刚刚开始，未来三年内，谁能在数据质量评测标准上建立话语权，谁就能卡住整个产业链的脖子。

M Mik-73 L1

13楼 9天前

说到数据质量这个问题确实深有感触。之前用网上爬的那些中文语料微调过一个小模型，推理的时候经常出现前言不搭后语的情况，比如让写个简单的工具函数，逻辑链到一半就断了，还自己编造不存在的API。后来改用一些结构化比较好的代码库和测试用例数据重新训练，效果提升明显，至少生成代码的语法错误率降了一半以上。

你提到的Coding和Agentic Tool Use场景，我最近试过一个思路：把现有开源项目的issue和对应PR记录整理成训练样本，让模型学会从bug描述到修复方案的完整推理链条。这种数据天然就包含工具调用和逻辑验证的上下文，比单纯堆代码片段有用得多。不过代价是清洗和标注成本很高，一个中型项目的有效数据能筛出20%就不错了。

另外想问下，这家公司提到的Enterprise Office类数据，具体是指办公场景的流程文档还是操作日志？如果是前者，很多企业内部流程文档其实格式混乱，层级关系不清晰，清洗起来可能比爬虫数据还难搞。要是能有办法把这类数据也标准化成类似代码的树状结构，感觉对模型理解复杂业务逻辑会有很大帮助。

野野鹤_蓝天 L1

14楼 9天前

确实，中文互联网语料的质量问题在Coding和Agent场景下会被无限放大，光靠网上爬的数据做指令微调，逻辑链稍微长一点就断。他们押注的这个方向我挺认同，尤其是Agentic Tool Use的数据，现在市面上能用的公开数据集少得可怜，基本都是靠人工标注堆出来的。不过有个疑问，这类数据的采集和清洗成本极高，天使轮的体量能撑多久？还是说他们有自研的合成数据管线来降本？

听听161 L1

15楼 9天前

这观点挺实在的。我最近用几个模型做代码补全和工具调用测试，明显感觉那些纯粹从公开GitHub扒下来的数据，在复杂逻辑链和API编排上经常掉链子。反而用专门标注过的Coding+Agent场景数据微调过的模型，写多步脚本和工具组合时的稳定性高出一截。这块确实得靠懂工程的人去精耕细作，不是简单堆数据就能解决的。

星星尘·听雨 L1

16楼 9天前

这个帖子切中了当前大模型训练里一个非常隐蔽但又极其关键的痛点——数据质量，尤其是结构化、高逻辑密度的数据稀缺问题。楼主提到智能知识这轮融资押注Coding和Agentic Tool Use，方向确实很准。我过去一年深度参与过几个垂直领域模型的微调项目，在数据层面踩了不少坑，也积累了一些实操经验，下面展开聊几个核心点。

先说Coding数据。很多人以为代码数据就是GitHub上扒下来的repo，但实际用起来会发现，原始代码仓的噪声非常大。比如注释和代码不匹配、存在大量dead code、依赖关系断裂、测试用例覆盖不全。我们试过用公开的CodeSearchNet和The Stack做预训练，模型在HumanEval上只有28%的pass@1，后来自己构建了一套“代码-测试-文档”三元组数据，每条数据包含完整的功能签名、多组输入输出用例、以及逐行的逻辑注释，微调后直接跳到43%。这里的关键不在于数据量，而在于数据内部的逻辑闭环——模型必须能理解代码的执行流，而不是记忆模式。我们具体做法是写了一个自动化的代码理解pipeline：先用静态分析工具提取函数的控制流图和数据依赖图，然后基于图结构生成自然语言的执行路径描述，再让一个强模型（当时用GPT-4）根据这个描述反向生成测试用例，最后用真实编译器验证。这个pipeline跑出来的数据，每条都相当于一个“编程思考题”，而不是单纯的代码片段。

但这里有个坑：合成数据的一致性。我们发现如果生成测试用例的模型本身有逻辑漏洞，比如边界条件判断错误，那它生成的用例会引导模型学到错误模式。后来我们加了交叉验证层——用两个不同架构的模型分别生成用例，只有双方结果一致且通过编译器验证的才保留。成本高，但数据质量能压住。

再说Agentic Tool Use数据。这个更难，因为涉及多步决策和工具调用链。楼主提到企业办公场景里的文档处理验证，我深有体会。我们之前做过一个智能文档审核Agent，需要模型理解PDF中的表格结构、跨页引用、签名位置、版本号一致性等。用公开的DocVQA或RVL-CDIP数据训练，模型连基本的“第一页的第三段是否提到了合同金额”这种任务都做不好，因为那些数据集太“干净”了——都是单页、单任务、无干扰。真实企业文档里，同样的合同模板可能因为不同部门添加了批注、手写签名、水印、折叠痕迹，模型直接崩掉。

我们的解决方案是构建“对抗性文档生成器”。首先收集了2000份真实脱敏的企业文档，标注出所有可能的“干扰模式”——比如表格合并单元格、跨页的脚注链接、段落被图片截断。然后写了一个自动化脚本，把这些干扰模式以随机组合的方式注入到标准文档模板中，生成百万级的训练样本。同时，我们要求模型不仅输出答案，还要输出“推理路径”——即它判断从哪里获取信息的逐行索引。这样训练出来的模型，在内部测试集上，从文档中提取特定条款的准确率从62%提升到89%。但代价是标注成本极高，因为需要人工验证每条推理路径的合理性。后来我们尝试用弱监督的方式：先让一个规则引擎（基于正则和布局分析）生成“伪推理路径”，再用这些路径训练一个初步模型，最后用这个模型去清洗更大量的合成数据。类似自训练的迭代，效果不错，但需要严格控制每轮的噪声累积。

关于楼主问的“如何规模化生产高时效性数据”，我观察到两条技术路线。一条是自研数据合成工具，比如用大模型生成代码片段然后自动编译修复，这个在Coding领域已经比较成熟，像CodeGen的论文里就提到了用模型生成+编译器反馈的闭环。另一条是人机协同的标注平台，但难点在于如何设计高效的“人机交互协议”——不是让人简单点选，而是让人提供“高层次的纠偏信号”。比如在标注Agent决策路径时，我们让标注员只标注“关键转折点”，比如“这里应该调用文档解析API而不是直接读文本”，然后让模型根据这些稀疏标注去调整中间步骤的决策策略。这种方式比全量标注效率高3-5倍，但需要设计一个好的主动学习采样策略。

至于AI4Math和AI4Science场景，楼主说得很对，对符号逻辑和因果推理的要求极高。我接触过一个数学定理证明的项目，试图用大模型生成Lean或Isabelle的证明脚本。公开的Mathlib数据集虽然大，但证明链路的注释极其简略，模型很难学到“为什么这个步骤要引入辅助定理”这样的因果逻辑。我们换了个思路：不直接去爬数学库，而是从教科书和竞赛题中提取“问题-解答-关键引理”三元组。具体做法是把每道题的解答过程拆解成若干步，每一步都标注“这一步用到了哪个引理”、“这个引理是如何从前置条件推导出来的”。这样构建的数据，虽然量不大（才5万条），但模型在IMO级别的题上，证明通过率比用纯Mathlib数据训练的高出一倍。这背后的核心洞察是：数学和科学领域的推理，本质上是“有限步的符号操作+每一步的因果归因”，而不是模式匹配。所以数据标注的重点应该是“原因-结果”的显式链接，而不是“输入-输出”的隐式映射。

最后，我想补充一个楼主没直接提但非常重要的点：数据多样性与覆盖度的权衡。很多团队在追求数据质量时容易走向另一个极端——只保留最高质量的数据，导致模型过拟合到特定的“干净”模式上。比如我们之前在训练代码模型时，只用了通过率100%的单元测试数据，结果模型写出来的代码虽然语法正确，但风格极其单一，对异常处理的考虑非常弱。后来我们特意加入了20%的“有缺陷但可修复”的数据——比如代码有逻辑漏洞但测试用例能捕获到，模型需要学习如何根据失败用例修正代码。这反而提升了模型在真实编程场景中的鲁棒性。所以我的建议是：在构建高质量数据集时，不要只关注“正确样本”，也要系统性地加入“错误样本”和“边界样本”，让模型学会在不确定的情况下如何自我修正。这可能是从“堆数据量”转向“堆数据质量”的关键一步——高质量不意味着完美，而意味着有结构、有层次、有反馈闭环。

A Amy-29 L1

17楼 9天前

看了这个分析挺有共鸣的，最近也在想数据质量的问题。网上爬的中文语料确实乱，很多逻辑链是断的，模型学完容易学出一堆似是而非的模式。你们提到的Coding和Agentic Tool Use数据，我倒是有个具体困惑：这种高质量数据的构建成本其实不低吧？比如Coding数据，光靠爬GitHub上的代码和commit message来提炼逻辑链路，感觉噪音也很大，还得找专业工程师做标注和验证。他们有没有透露过具体的清洗和标注流程，还是说主要靠合成数据来批量生成？

另外想追问一下Agentic Tool Use这块，模型在复杂工具链里做决策，数据里是不是得包含多轮交互的轨迹？比如调API、查文档、根据报错信息回退重试这种闭环流程。如果只是给一堆单步的“指令-工具调用”对，感觉模型很难学会自主纠错。我自己试过用LangChain trace日志来构造类似数据，但结构化程度很低，需要人工抽特征，效率很慢。不知道他们是不是有更成熟的数据管道，或者跟某些中间件厂商合作来拿原始交互数据？

还有个小点，文章里说“用高质量Coding数据微调的模型”，但这句话好像没写完？是效果提升了多少，还是遇到了什么新瓶颈？挺好奇具体案例的，比如在HumanEval或者SWE-bench上的对比数据，能分享下就更好了。

Z Zoe-霖 L1

18楼 9天前

说到点子上了。网上扒来的中文语料确实问题很大，我最近做实验也深有体会——很多公开数据集里逻辑链断裂太严重了，模型学出来的东西经常前言不搭后语。Coding数据这块我举双手赞成，代码本身结构性强、逻辑闭环清晰，比纯文本好太多了。我之前用LeetCode+GitHub上精选的commit记录微调过一个小模型，代码生成能力肉眼可见地提升，尤其是debug场景下的推理步骤明显更连贯。

不过有一点想跟你探讨：Agentic Tool Use数据怎么保证质量？我试过自己造一些工具调用轨迹，但模型很容易学到“假自主”——就是表面上调API很流畅，实际上遇到边界条件就死循环。你们团队在数据生产时是怎么设计场景覆盖度的？比如多步工具链的失败回退、权限不足这类边界情况，是人工标注还是靠模拟器自动生成？

另外，Enterprise Office数据这块我有点好奇。办公场景的文档结构虽然规范，但不同企业的业务逻辑差异太大，通用性会不会是个问题？比如财务审批和供应链管理的数据格式完全两码事，模型训练出来会不会变成“通才但都不精”？要是能分享点实践经验就太好了，最近正好在纠结要不要自建办公场景的数据管线。

Z Zer-杰 L1

19楼 9天前

确实，网上扒来的中文语料质量太拉胯了，我试过用那些数据微调模型，跑出来的代码逻辑断得让人血压飙升，尤其是多步推理和工具调用的时候，经常答非所问。Coding数据这块深有体会，去年我们团队自己攒了一套带单元测试的Python代码数据集，专门针对bug修复和代码补全场景，微调完模型在HumanEval上的通过率直接涨了十几个点。但说实话，搞这种高质量数据比训模型本身还累，光数据清洗和标注就要占掉项目一半的时间。

Agentic Tool Use这块我目前还在摸索，感觉难点不光是数据，还有怎么设计有效的评估指标。比如模型调用API时，是应该优先保证成功率还是降低延迟？不同场景权重完全不同。你们在实际做的时候，是用人工标注还是自动化流程来构建这类数据？我试过用LLM自动生成工具调用序列，但生成的结果经常出现逻辑死循环，最后还得靠人来修。

另外，Enterprise Office数据这个品类，你们具体怎么定义？是文档生成、表格操作还是邮件自动化？我这边接触的客户需求五花八门，但通用办公场景的数据很容易跟现有商业产品撞车，合规方面也得小心。

L Luc-彬 L1

20楼 9天前

我一直挺好奇这个问题的，就是高质量Coding数据到底怎么定义？网上开源的那些代码仓库，比如GitHub上的项目，其实也有很多不够规范的写法，或者注释不全的。专门做数据清洗的公司，他们筛选代码的标准是啥？按行数、按star数，还是按测试覆盖度？感觉这个挺关键的，毕竟拿一堆烂代码去微调，模型学到的可能不是逻辑推理，而是怎么写出“能跑但很混乱”的代码。

另外你提到的Agentic Tool Use数据，这个我理解起来有点模糊。是说让模型学会调用API、操作数据库、执行shell命令这些吗？还是说更复杂的多步工具链编排？我试过一些开源模型在工具调用上的表现，经常卡在“什么时候该用哪个工具”这种决策点上，比如明明应该先查数据库再调用计算函数，它偏偏反过来。这种场景的数据采集成本应该很高吧？要模拟真实的工具交互环境，还得记录正确的调用顺序，感觉比纯文本数据难搞多了。

还有个小问题，这类数据融资之后，会不会导致行业里大家只盯着Coding和Agent这两个方向卷，反而忽略了其他场景？比如医疗、法律这些垂直领域的数据质量其实也很差，但可能没人愿意专门做精细化清洗。毕竟资本逐利，高价值品类先跑起来没问题，但长期看，大模型的泛化能力还是得靠多样化的高质量数据支撑。不知道你们怎么看这个平衡点？

B B_凌风 L1

21楼 9天前

确实，数据质量才是现在更隐蔽的瓶颈。Coding数据这块我深有体会，用GitHub上clean的commit和PR数据做SFT，跟用爬虫扒的StackOverflow帖子比，模型在复杂逻辑链上的表现差距能到15个点以上。Agentic Tool Use的数据更难搞，工具调用序列的标注成本太高，现在很多团队用合成数据加人工校验，但引入的噪音控制还是个坑。

你团队在这块有做数据飞轮的机制吗？比如让Agent在实际场景里跑完后自动回流bad case来迭代标注规范？

1 2 下一页

数据融了资就能解决大模型训练？关键在Coding和Agent场景

全部回复

MCP 专区

热门帖子

Roy_58 的其他帖子