OpenAI最近公布了一个令人震惊的案例:它的AI报税系统Tax AI,在没有人类重新训练模型、没有重写一行代码的情况下,六周内将字段准确率从25%拉到了86%。这不是实验室里的Demo,而是正在生产环境里跑的真实系统,服务于Crete会计师联盟旗下30多家事务所。更让人细思极恐的是,OpenAI在官方博客中把整套方法论白纸黑字全写了出来,一条关于AI自我进化的暗线终于浮出水面。Tax AI是OpenAI与Thrive Holdings联合开发的,后者是OpenAI最大投资方之一。去年12月,OpenAI直接派驻工程团队到会计师办公桌旁边,看着真实的税表、客户数据和报错,打磨了六个月。结果令人震撼:一位资深会计师去年花了180小时准备客户税表,今年同样的工作量,15小时搞定。省下来的时间,她逐一给每位客户打电话讲解报税细节,剩下的精力全拿来开拓新客户。整个赛季,Tax AI处理了7000份税表,准确率最高达到97%,产能提升约50%。但真正炸裂的不是这些数字,而是增长曲线。六周前,系统只能处理最简单的W-2和1099表格,连K-1都搞不定。六周后,字段准确率从25%飙到86%。怎么做到的?三招。第一招,让每次纠错变成结构化数据。会计师审核时每改一个字段,系统完整记录AI预测了什么、会计师改成了什么、最终用了什么。第二招,生产环境里每一步都留痕,从源文件上传到字段提取到引用溯源,整条链路的每个节点都有trace,出错时能精确定位是OCR读错了手写笔记,还是字段映射逻辑有gap。第三招,用Codex把发现变成修复。当系统发现某类错误反复出现,比如总是漏掉租赁房产的「公平出租天数」字段,这个pattern就被打包成一个有明确成功标准的工程任务,扔给Codex。Codex拿到完整的生产trace、出错的源文件样本、期望输出、相关代码路径,外加专门针对这个问题的eval测试集,然后自己检查提取逻辑、映射规则、评分器,提出修复方案,跑targeted eval验证,再跑回归测试,最后生成一个PR等人类工程师review。你没看错,bug修完了,还自带测试报告。这并非孤例。今年2月,OpenAI发布GPT-5.3-Codex时写道,这是第一个在创造自身过程中发挥了关键作用的模型,模型参与了自己的构建。4月,OpenAI开源了Symphony,一个把Codex和Linear项目管理工具连起来的编排层,思路是别管Agent了,管工作本身。它监控issue tracker,给每个ticket分配独立Agent工作空间,Agent自己干活、跑CI、生成PR,工程师只负责review产出物。OpenAI内部用Symphony之后,部分团队工程产出直接翻倍。AI自我改进已经在生产环境里跑起来了,而且是一条加速曲线:系统越用,能处理的问题越复杂,越复杂的问题被解决,每份税表省下的人工时间越多。对于AI从业者来说,这传递了一个明确信号:别再只盯着训练更大的模型,如何让AI在生产环境中持续自我进化,才是下一波浪潮的关键。现在就该开始思考,你的产品里,哪些环节可以像Tax AI一样,用结构化数据和自动化修复来构建自我改进的飞轮。