AI自我进化：Tax AI六周准确率从25%飙至86%

OpenAI最近公布了一个令人震惊的案例：它的AI报税系统Tax AI，在没有人类重新训练模型、没有重写一行代码的情况下，六周内将字段准确率从25%拉到了86%。这不是实验室里的Demo，而是正在生产环境里跑的真实系统，服务于Crete会计师联盟旗下30多家事务所。更让人细思极恐的是，OpenAI在官方博客中把整套方法论白纸黑字全写了出来，一条关于AI自我进化的暗线终于浮出水面。Tax AI是OpenAI与Thrive Holdings联合开发的，后者是OpenAI最大投资方之一。去年12月，OpenAI直接派驻工程团队到会计师办公桌旁边，看着真实的税表、客户数据和报错，打磨了六个月。结果令人震撼：一位资深会计师去年花了180小时准备客户税表，今年同样的工作量，15小时搞定。省下来的时间，她逐一给每位客户打电话讲解报税细节，剩下的精力全拿来开拓新客户。整个赛季，Tax AI处理了7000份税表，准确率最高达到97%，产能提升约50%。但真正炸裂的不是这些数字，而是增长曲线。六周前，系统只能处理最简单的W-2和1099表格，连K-1都搞不定。六周后，字段准确率从25%飙到86%。怎么做到的？三招。第一招，让每次纠错变成结构化数据。会计师审核时每改一个字段，系统完整记录AI预测了什么、会计师改成了什么、最终用了什么。第二招，生产环境里每一步都留痕，从源文件上传到字段提取到引用溯源，整条链路的每个节点都有trace，出错时能精确定位是OCR读错了手写笔记，还是字段映射逻辑有gap。第三招，用Codex把发现变成修复。当系统发现某类错误反复出现，比如总是漏掉租赁房产的「公平出租天数」字段，这个pattern就被打包成一个有明确成功标准的工程任务，扔给Codex。Codex拿到完整的生产trace、出错的源文件样本、期望输出、相关代码路径，外加专门针对这个问题的eval测试集，然后自己检查提取逻辑、映射规则、评分器，提出修复方案，跑targeted eval验证，再跑回归测试，最后生成一个PR等人类工程师review。你没看错，bug修完了，还自带测试报告。这并非孤例。今年2月，OpenAI发布GPT-5.3-Codex时写道，这是第一个在创造自身过程中发挥了关键作用的模型，模型参与了自己的构建。4月，OpenAI开源了Symphony，一个把Codex和Linear项目管理工具连起来的编排层，思路是别管Agent了，管工作本身。它监控issue tracker，给每个ticket分配独立Agent工作空间，Agent自己干活、跑CI、生成PR，工程师只负责review产出物。OpenAI内部用Symphony之后，部分团队工程产出直接翻倍。AI自我改进已经在生产环境里跑起来了，而且是一条加速曲线：系统越用，能处理的问题越复杂，越复杂的问题被解决，每份税表省下的人工时间越多。对于AI从业者来说，这传递了一个明确信号：别再只盯着训练更大的模型，如何让AI在生产环境中持续自我进化，才是下一波浪潮的关键。现在就该开始思考，你的产品里，哪些环节可以像Tax AI一样，用结构化数据和自动化修复来构建自我改进的飞轮。

AI自我进化：Tax AI六周准确率从25%飙至86%

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%