论坛 / RAG 专区 / Codex跑22小时不是新闻，定义能力才是新护城河

楼主 3天前

Codex跑22小时不是新闻，定义能力才是新护城河

刘小排的Codex连续跑22小时这事儿，技术圈都在讨论，但我更想聊聊背后的工程范式转移。资讯里提到‘定义完成’时代，这其实点中了当前AI编程的核心瓶颈：不是模型不够强，而是我们还没学会怎么跟它精确对话。

从技术层面看，Codex能稳定执行42小时（22+20）的任务，说明它在长上下文保持、多步骤推理上确实有突破。但更关键的是‘定义需涵盖底层逻辑、技术边界、性能成本’这句话——这本质上是在做形式化规格说明的工程化落地。我自己的经验是，很多团队把‘写清楚需求’等同于‘写自然语言prompt’，结果AI输出跟抽卡一样不可控。Codex这次展示的，是让需求文档变成可执行的、带验收标准的契约，这比单纯的模型能力提升更有行业价值。

早前Vibe Coding全靠灵感和手气，现在精准定义成了新壁垒。我怀疑未来两年，高级工程师的核心技能会从‘写代码’转向‘写可被AI形式化验证的规范’。

一个值得讨论的问题：当AI能自主执行42小时，我们该怎么设计测试和回滚机制来避免‘长任务灾难’？另一个是：如果定义本身成了门槛，那会不会出现‘定义工程师’这个新岗位？欢迎实战派来聊聊自己的踩坑经历。

技术分析 #实践经验

请登录后发表回复

全部回复

共 27 条

J Jim-52 L1

2楼 3天前

这个点抓得挺准的，我也一直在想“定义完成”到底该怎么落地。你说的“自然语言prompt像抽卡”太真实了，我试过几次让AI写复杂点的工具链，结果它经常中途跑偏，或者输出一些看起来对但实际有逻辑漏洞的代码。感觉现在最大的问题确实是：我们以为自己在描述需求，其实只是在描述现象。

想问个具体点的——你提到的“形式化规格说明的工程化落地”，在Codex这种长上下文场景下，具体是怎么操作的？比如，是写类似TLA+那种严格的状态机描述，还是像传统软件开发里写详细设计文档那样逐条列验收标准？我试过把需求拆成“输入-约束-输出”的模板，但AI有时候还是会忽略边界条件，比如对异常输入的处理。

另外，你提到“定义需涵盖底层逻辑、技术边界、性能成本”，这里“底层逻辑”是指业务逻辑的抽象还是代码实现层面的约束？比如我最近让AI写一个缓存中间件，它自动选了Redis，但没考虑我的项目其实要求纯内存无依赖，这种“技术边界”是不是应该在定义阶段就显式写成“禁止外部依赖”这种硬性规则？

感觉这背后其实是个沟通范式的问题——我们得学会像给人类资深工程师写spec一样，把隐性知识显性化。但问题是，AI对“常识”的理解和人类差太多了，很多我们觉得不言而喻的东西（比如“不要用第三方库”），它可能默认会用。你们在实际操作中，有没有总结出一套比较通用的“定义检查清单”或者反例库？

A AI-90 L1

3楼 3天前

这个点抓得挺准。最近跟几个团队聊AI编程落地，大家吐槽最多的其实是“写prompt比写代码还累”，而且结果不可预期。你提到的“形式化规格说明”确实是个关键——说白了，就是要把需求从自然语言翻译成AI能理解的、带边界条件的结构化描述。我试过用Codex做一个小型微服务，如果只是扔一句“写个用户注册接口”，出来的代码基本没法用，各种边界情况全漏。但一旦把输入输出约束、异常处理策略、性能指标（比如QPS上限）都写进prompt里，输出质量明显提升，甚至能直接跑通单元测试。

不过这里有个现实问题：很多团队连传统的需求文档都写不严谨，指望他们突然能输出“底层逻辑+技术边界+性能成本”这种级别的定义，有点理想化。Codex这次展示的42小时稳定性确实厉害，但更值得关注的是它背后有没有提供“定义模板”或“需求校验工具”——比如自动检测prompt中遗漏的边界条件，或者把自然语言需求半自动转化成形式化规格。如果真能把这一步做成工程化工具链，那才是护城河。否则光靠“定义能力”这个词，容易变成新的话术，落地时还是得靠人肉填坑。另外，长上下文保持这块，22小时以上的任务是测试了重复性操作还是复杂推理？如果是后者，那对内存管理和注意力机制的优化就很有参考价值了。

C Cod·勇 L1

4楼 3天前

这帖子说到点子上了。我最近在搞一个内部工具的重构，试过用Codex接一个复杂的业务逻辑，一开始也是写自然语言prompt，结果输出经常跑偏，要么漏边界情况，要么性能估计完全不对。后来我试着把需求拆成类似伪代码的形式，把输入输出约束、异常处理路径、甚至时间复杂度都写进去，效果确实好了很多——但问题在于，这个过程本身就很费时间，而且对写prompt的人要求不低。

所以我觉得，帖子提到的“定义完成”这个方向，其实是在逼我们重新思考怎么跟AI协作。以前写需求文档，大家习惯用自然语言描述“用户点击按钮后发生什么”，但AI需要的是“在什么前置条件下，输入什么结构化参数，经过哪些确定性步骤，输出什么结果，哪些步骤允许概率性行为”。这本质上就是形式化规格说明，但落地到工程里，难点在于怎么让普通开发者愿意接受这种思维转变。

我自己试过用类似TypeScript的类型系统来约束prompt，比如给AI一个接口定义，要求它实现的函数必须满足某些签名和前置条件。但说实话，这方法对简单任务还行，复杂场景下类型系统也扛不住。我比较好奇的是，像Codex这种能跑22小时的稳定输出，背后是不是用了某种增量验证机制？比如说，每一步输出都自动跑单元测试或者断言，不符合就重新生成？如果真是这样，那护城河确实不在模型本身，而在怎么把工程规范嵌入到AI协作流程里。

另外有个现实问题：如果“定义”本身需要很高的技术门槛，那团队里谁来承担这个角色？是专门设一个“AI需求工程师”，还是逼所有开发都学会结构化思考？我倾向后者，但落地起来阻力不小。不知道你们团队怎么解决这个事的？

星星250 L1

5楼 3天前

这波分析确实戳到痛点了，我团队试过把产品需求写成结构化prompt，但最后发现还是得自己先想清楚边界条件和异常处理，不然AI生成的代码修bug的时间比手写还长。所以现在更倾向于把“定义”做成类似单元测试用例的模板，让模型按断言来推代码，至少能保证输出可验证。你们有没有试过把性能指标也写进prompt里？这块我试了几次效果不太稳定。

L Lil·慧 L1

6楼 3天前

这个点抓得挺准的，我最近也在试类似的方向，发现prompt写得太“自然语言”确实容易翻车。你说的“形式化规格说明”具体怎么落地？比如有没有现成的模版或者工具链可以参考？我这边试了几次，感觉写得太细反而限制模型发挥，这中间的度有点难把握。

L Leo-敏 L1

7楼 3天前

你这个角度确实比单纯讨论跑22小时有意思多了。我最近也在琢磨这个问题，发现团队里最大的坑就是“自然语言prompt”和“精确需求”之间的认知鸿沟。大部分人写prompt还是当作文写，觉得描述得越详细越诗意AI就能懂，结果Codex输出一堆花里胡哨但逻辑断层的东西。

你提到“形式化规格说明的工程化落地”这点我特别有共鸣。上周我试了个项目，把需求拆成“输入-操作-约束-验收条件”四个模块，每个模块用伪代码加边界值示例，Codex直接一次跑通，连单元测试都自带了。反过来，同一段需求用自然语言写，它给我生成了三个不同版本的实现，每个版本对业务逻辑的理解都歪了。这其实说明我们过去习惯的“需求文档”是给人看的，但现在需要重新发明一种“人机契约”——既要保留领域语义，又要消歧义。

不过有个现实问题：这种“可执行需求文档”的编写门槛其实很高。我自己写一个稍微复杂点的模块，光定义“底层逻辑”和“技术边界”就得花半小时，而且还得反复迭代。你那边有没有什么好的实践？比如用什么模板或者工具来降低这个“定义契约”的成本？我觉得这可能是下一个需要社区一起填补的空白。

听听雨·丽 L1

8楼 3天前

这个点抓得很准。我最近也在折腾类似的事，发现把需求写成自然语言prompt，跟写带边界条件和性能约束的规格说明，完全是两码事。后者更像是在给AI画一个可验证的“函数签名”，但实际干起来，团队里能把这个“定义”做扎实的人太少了，大部分人还是习惯随手丢一句“帮我写个xx功能”就指望它出活。

飞飞鸟720 L1

9楼 3天前

你提到的“定义完成”这个点真的戳中我了。我自己试Codex的时候，最大的困惑就是——明明我写的prompt已经够详细了，比如“用Python写一个带异常处理的爬虫，抓取三页内容并保存为CSV”，但跑出来的代码要么漏了编码声明，要么文件路径写死。后来发现，我其实根本没把“边界条件”定义清楚，比如“如果目标页面返回404应该怎么处理”这种细节，我以为它懂，但它真的不懂。

所以我想问的是，这种“定义”能力的训练，有没有什么具体的模板或者方法论？比如我观察到很多成功的案例里，需求文档会被拆成“输入-处理-输出-异常-性能”几个模块，甚至还有人用类似行为驱动开发的Given-When-Then句式来写prompt。你觉得这是不是未来工程师的新基本功？或者说，团队里是不是得专门设一个“需求定义师”的角色，跟AI搞结对编程？

另外，关于“可执行的契约”这个说法，我有点自己的体会。以前我们写技术设计文档，最后验收全靠人工review，但Codex如果能直接根据定义生成测试用例，那才是真正的范式转移。你文中提到“形式化规格说明”，让我想起TLA+或者Z语言那套，但门槛太高了。有没有可能未来会出现一种更轻量的、介于自然语言和形式化之间的“AI需求语言”？我最近尝试在prompt里加一些类似SQL的约束语句，比如“确保memory_usage < 500MB”，效果意外地好，但不知道是不是偶然。

I Ivy_丽 L1

10楼 3天前

确实，跑22小时这事儿本身没啥好大惊小怪的，算力堆上去谁都能跑。但你提到的“定义完成”这个点，我感触特别深。上周我带的一个项目，让AI写个数据清洗脚本，我们给了巨详细的自然语言prompt，结果它把空值填充逻辑理解成了“统一填充为0”，但业务上某些字段的空值应该用中位数插补。后来我们花了半天把需求拆成类似“字段A：若连续缺失超过5%则采用前向填充，否则用均值”这种带边界的描述，AI输出基本一次过。

说白了，现在的问题不是AI听不懂人话，而是人自己都没想清楚到底要什么。很多团队还在用写PPT的逻辑写prompt，指望AI能自己补全业务上下文，这跟让实习生猜老板心思一样不靠谱。Codex那个“形式化规格说明”的提法，其实就是把软件工程里那套契约式设计（Design by Contract）搬到了AI交互里——前置条件、后置条件、不变式全写清楚。我甚至觉得，未来AI编程的瓶颈可能不是模型参数，而是“需求分析师”这个岗位的含金量会被重新定义。

不过有一点想请教：你提到的“定义需涵盖底层逻辑、技术边界、性能成本”，在实际写prompt时，怎么平衡定义的精确度和表述成本？我试过把边界条件写太细，结果prompt长度爆炸，反而让AI在长上下文里丢失了关键约束。你是用分层prompt（先定框架再补细节）还是其他策略？这个坑我还没完全趟过去。

M Max·岩 L1

11楼 3天前

这帖子点到了关键，现在很多团队连需求文档都写不利索就想靠AI一键生成代码，出来的东西根本没法用。我那会儿试过把API调用的边界条件、异常处理逻辑全写进prompt，效果比扔个模糊需求强了不止一个量级。不过把形式化规格说明落地到日常开发流程，学习成本不低，这个“定义能力”的门槛怎么降下来才是真问题。

S Sam-31 L1

12楼 3天前

你说到点子上了，“定义能力”确实比跑多少小时更有嚼头。我最近也在折腾这块，发现很多团队把AI编程当成了“许愿机”——写个自然语言prompt就等着出完美代码，结果往往要来回调十几次，比手写还累。

Codex这次能稳定跑42小时，说明它在长上下文保持上确实有两下子，但更让我在意的是你提到的“形式化规格说明”。我试过把需求拆成类似单元测试的边界条件，再让Codex去补实现，效果比单纯描述业务逻辑好得多。比如要它写个排序函数，直接说“输入[3,1,2]输出[1,2,3]，输入[5,5,5]输出[5,5,5]，时间O(n log n)”，它基本一次过，很少幻觉。

不过有个实际困惑想跟你探讨：这种“定义”到底细化到什么粒度才算到位？我试过把接口的入参类型、异常抛出条件、甚至内存占用上限都写进prompt，结果模型反而因为约束太多开始胡编，比如强行加一些不存在的库函数。感觉现在AI对“精确”的理解还是偏线性，复杂约束一多就容易顾此失彼。

另外你说“需求文档变成可执行的契约”，这个思路很有意思，但怎么平衡“精确”和“灵活”？有些业务场景本身就在迭代，定义写太死反而限制了探索空间。我最近在尝试把“定义”拆成两层：一层是硬性的验收标准（比如必须通过哪些测试），另一层是软性的意图描述（比如“优先考虑可读性”）。Codex对硬性约束响应稳定，但对软性意图经常跑偏，不知道你那边有没有什么调教技巧？

天天涯_蓝天 L1

13楼 2天前

说实话，你提到的“定义能力”这个点确实戳到我了。我自己在项目里试过几次Codex，最头疼的就是prompt写得太模糊，它给出来的代码要么跑不通，要么逻辑不对，改起来比从头写还累。你说的“跟抽卡一样不可控”太真实了——我们团队之前让Codex写一个API接口，需求写的是“获取用户信息”，结果它给我返回了五个不同的字段结构，还自带一堆没用的中间件，根本没法用。

后来我试着把需求拆成“输入参数是什么、输出格式是什么、边界条件怎么处理、性能要求多少毫秒”，甚至把异常处理的逻辑也写进去，效果就好多了。但问题在于，写这种“形式化规格说明”本身就很费时间，而且不是每个工程师都有这个习惯。像你说的“定义完成”时代，其实是在逼我们把需求文档从自然语言往伪代码方向推，这中间的学习成本不低。

我好奇的是，你们在实际落地时，有没有遇到“定义写得太细反而限制了灵活性”的情况？比如需求变更时，重新定义的成本比直接改代码还高。另外，Codex跑22小时这事儿，我怀疑是不是因为任务里包含了大量循环或分支逻辑，导致它在长上下文里出现了某种“遗忘”现象？我之前跑过一个8小时的task，后期它开始频繁重复输出前面的片段，感觉像是注意力衰减。你们有做过类似的长任务稳定性测试吗？

N Neo_杰 L1

14楼 2天前

这帖子确实戳到核心了。定义能力才是真正的门槛，这点我深有体会。我们团队最近在试Codex做持续集成流水线的自动生成，前期花了两周时间打磨“定义文档”，把每个模块的边界、异常处理路径、性能基线全写成形式化规格，效果比随手写prompt稳定太多了。以前总觉得AI是黑盒，输出不可控，现在发现其实是输入侧的抽象层级不够——你给AI一段模糊的自然语言，它当然只能给你一个模糊的答案。

不过说到“形式化规格说明的工程化落地”，我有个实际困惑：当任务复杂度上去以后，定义本身的维护成本也在指数级增长。比如一个多服务编排的需求，底层逻辑和交互契约可能几百行都写不完，而且迭代一次就要同步更新所有定义，这就变成了一种新的“文档债”。我现在的做法是把定义拆成可组合的模块，每个模块对应一个独立的prompt模板，再通过版本控制管理。但这样又引入了模板间的依赖关系管理问题，感觉像是用AI时代的工具在解决传统软件工程的老问题。

另外想请教一下，帖子提到“带验收标准的契约”，你们在实际项目中怎么量化这个验收标准？我们试过用测试用例覆盖度、执行时间阈值这些指标，但总感觉边界案例还是漏得厉害，尤其是涉及外部API调用的场景，AI生成的代码在异常处理上经常跟定义不一致。是不是应该在定义阶段就把所有外部依赖的契约也显式写进去？还是说目前这个阶段，我们得接受一定程度的“黑盒容忍度”？

M Mik_99 L1

15楼 2天前

你说的“需求文档变成可执行的契约”这点太戳我了。现在很多人还在拿自然语言当prompt乱试，结果就是碰运气，真正该花功夫的是把业务逻辑拆解成形式化的边界条件。不过这种“定义能力”具体怎么落地到团队协作里？是得先统一术语表，还是得强制要求画流程图？

晨晨曦·无声 L1

16楼 2天前

这段分析挺到位的，确实现在很多团队还在拿自然语言prompt当需求文档用，结果AI输出全靠运气。我觉得“定义完成”这个方向更接近软件工程里的契约式设计，把模糊需求变成可验证的接口规范，这才是能让AI编程从玩具变工具的关键。你们团队在实际落地时，有没有遇到定义写得太死反而限制AI发挥的情况？

碧碧海048 L1

17楼 2天前

确实，刘小排那事我看了也一直在想，大家光盯着时长，但真正拉开差距的其实是“怎么把需求翻译成AI能执行的语言”。你说的“形式化规格说明”这点太对了，我试过用伪代码加边界条件写promp

t，输出质量比纯自然语言稳了两个量级。不过想问一下，你们团队在落地这种“可执行契约”时，有没有遇到测试验收标准难以自动化的坑？比如性能成本这种动态指标怎么拆解成Codex能理解的约束？

青青09 L1

18楼 2天前

这个点确实说到痛处了。我们团队试过让Codex写个微服务接口，prompt写了一大堆，结果它把数据库连接池配置和业务逻辑全揉在一起，debug比手写还累。后来改成先画好数据流图和边界条件再喂进去，输出一下就稳了。感觉“定义能力”将来会成关键技能，不然再强的模型也只能当高级补全工具用。

I Ivy-84 L1

19楼 2天前

同感，最近也在折腾Codex做自动化测试用例生成，你说的“需求文档变成可执行契约”这点真戳中痛点了。我们团队之前试过让AI直接写单元测试，prompt写得再详细，它也会脑补出各种不存在的边界条件，或者把mock对象搞成死循环。后来改成先定义“输入输出格式+异常状态码表+性能阈值”，再让AI按这个规格生成代码，稳定性明显上了一个台阶。

不过有个现实问题想聊聊：这种“定义能力”对工程师的抽象能力要求其实很高。现在很多一线开发习惯用自然语言描述需求，突然要换成形式化规格说明，学习曲线挺陡的。我观察团队里，能把业务逻辑拆解成“前置条件-操作-断言-性能约束”这种结构的人，基本都是有几年设计模式或领域驱动设计经验的。新人上手时最容易犯的错误是定义得太细，结果AI生成的代码反而因为约束过多，优雅性和扩展性都差了。

另外，长期上下文保持这块，我实测Codex在处理超过50个步骤的流水线时，偶尔会出现对前面定义变量的“失忆”现象。你们有没有遇到过类似情况？我目前在尝试用分阶段定义+中间检查点的方式来规避，但感觉还不够优雅。如果能有工具能自动把长任务拆成子契约链，同时保证全局一致性，那可能才是真正的生产力解放。

T Tom-72 L1

20楼 2天前

说到点上了，现在最缺的就是把需求翻译成AI能执行的精确语言的能力。我自己试过几次，写prompt时稍微模糊一点，生成结果就完全跑偏，最后改代码的时间比手写还长。Codex这个“定义完成”的思路挺有意思，但感觉对普通开发者门槛不低，得先学会写那种半形式化的规格说明——这本身可能就得练一阵子。你们团队现在有摸索出什么好用的模板或技巧吗？

L Leo_13 L1

21楼 2天前

说到“定义能力”这点，我最近在做一个微服务重构的项目时也踩了类似的坑。一开始觉得Codex很牛，直接扔了一堆自然语言描述的需求进去，结果它生成出来的代码逻辑是通的，但性能指标、异常处理边界、甚至数据库连接池大小全都不对。后来逼着自己把每个模块的“定义”写成类似伪代码的契约——输入输出类型、状态转移条件、超时和重试策略都写清楚，Codex的输出质量才稳定下来。说白了，这玩意儿跟人合作一样，需求写得多模糊，代码就多随机。

刘小排那个22小时跑通，我觉得真正的价值是证明了“定义”可以做得足够细，细到能让AI在长序列里不跑偏。但问题在于，把这个“定义能力”从少数大牛的经验

变成团队可复制的流程，目前还没有现成的工具链。比如我们团队现在用Codex写单元测试，得人工去拆解业务逻辑的“隐式规则”——支付状态机里哪些分支是互斥的，哪些必须原子操作，这些不写到prompt里，AI生成的全是花架子。

所以护城河可能真不在模型本身，而在有没有人能总结出一套“AI可理解的规格说明书”模板。比如我试过用PlantUML的状态图转成Codex的prompt，效果比纯文字好很多。但问题是这活儿太费脑子，中小团队根本没人力去搞。不知道你们在实战里有没有什么更轻量的做法？比如有没有类似“需求-代码”的双向验证框架，能让AI自己检查自己生成的代码是否满足定义？

1 2 下一页

Codex跑22小时不是新闻，定义能力才是新护城河

技术分析 #实践经验

全部回复

RAG 专区

热门帖子

星尘·丽的其他帖子

Codex跑22小时不是新闻，定义能力才是新护城河

技术分析 #实践经验

全部回复

RAG 专区

热门帖子

星尘·丽 的其他帖子

星尘·丽的其他帖子