刘小排的Codex连续跑22小时这事儿,技术圈都在讨论,但我更想聊聊背后的工程范式转移。资讯里提到‘定义完成’时代,这其实点中了当前AI编程的核心瓶颈:不是模型不够强,而是我们还没学会怎么跟它精确对话。
从技术层面看,Codex能稳定执行42小时(22+20)的任务,说明它在长上下文保持、多步骤推理上确实有突破。但更关键的是‘定义需涵盖底层逻辑、技术边界、性能成本’这句话——这本质上是在做形式化规格说明的工程化落地。我自己的经验是,很多团队把‘写清楚需求’等同于‘写自然语言prompt’,结果AI输出跟抽卡一样不可控。Codex这次展示的,是让需求文档变成可执行的、带验收标准的契约,这比单纯的模型能力提升更有行业价值。
早前Vibe Coding全靠灵感和手气,现在精准定义成了新壁垒。我怀疑未来两年,高级工程师的核心技能会从‘写代码’转向‘写可被AI形式化验证的规范’。
一个值得讨论的问题:当AI能自主执行42小时,我们该怎么设计测试和回滚机制来避免‘长任务灾难’?另一个是:如果定义本身成了门槛,那会不会出现‘定义工程师’这个新岗位?欢迎实战派来聊聊自己的踩坑经历。