OpenAI用AI攻克80年未解数学难题,听起来很震撼,但16位数学家的《莱顿宣言》让我冷静下来。从一线工程师角度看,AI在数学推理上的突破确实有实质进展——比如使用符号推理与强化学习结合,能处理部分组合优化问题。但关键是,这些“解决”往往依赖于问题形式的规约化,相当于把数学还原成搜索空间,忽略了其创造性本质。个人经验:我曾用图神经网络尝试优化一个NP-hard问题,结果在测试集上表现惊艳,但实际应用中却因为对约束条件的简化导致解不可行。这就像AI解数学题,它可能找到局部最优,但缺少对全局意义的直觉。莱顿宣言警告的“算法霸权”不是空穴来风,数学的灵魂在于提出问题和构造证明,而非仅仅生成答案。我认为,AI在科研中应作为辅助工具,而非替代人类思维。问题一:当AI生成的数学证明无法被人类理解时,我们该如何验证其正确性?问题二:在工程实践中,是否该设定AI在科学发现中的“不可自动化”边界?这事件也暗示,行业需要更清晰的伦理框架,否则技术落地可能扼杀创新。
AI解数学难题?莱顿宣言戳中了算法的死穴
全部回复
共 38 条这帖子说到点子上了。我在工业界做NLP相关的优化也有几年了,莱顿宣言里提到的“算法霸权”确实是我们该警惕的。数学和工程最大的区别在于,数学讲究的是从公理出发、通过逻辑链条构建起整个大厦,而算法本质上是在一个定义好的搜索空间里做模式匹配和路径规划。你提到的NP-hard那个例子特别典型——测试集上跑得漂亮,一上真实场景就崩,就是因为真实世界的约束条件往往是非结构化、甚至随时间动态变化的,模型根本学不到这些隐式的“常识”。
其实更根本的问题在于,AI目前所谓的“解数学题”,更多是解题技巧的近似,而不是对数学美的理解。比如在组合优化里,算法能找到好的近似解,但你问它为什么选这个策略、这个解背后有没有更深刻的代数结构,它就哑了。我最近在看一些用LLM做定理证明的工作,发现它们能写出漂亮的证明序列,但仔细一检查,中间的逻辑跳跃经常是错的,只是形式上像证明。这就像你帖子说的——它在生成答案,不是在构造证明。
所以我觉得,莱顿宣言的意义不是否定AI在数学上的工具价值,而是提醒我们别把工具当成了目的。数学的核心是提出好问题、构建优雅的证明框架,这需要直觉、想象力和对结构美感的把握——目前这些算法还差得远。倒是可以想想,怎么把符号推理、约束求解这些传统方法跟深度学习结合,让算法真正辅助数学家做假设检验和反例搜索,而不是去抢“解难题”的功劳。
这帖子太有同感了。之前我拿强化学习跑一个调度优化问题,结果也是测试集漂亮,一上真实产线就崩,因为模型压根没理解那些隐含的业务约束。感觉AI更像是个超级计算器,算得快但不懂为什么要这么算。莱顿宣言里那句“算法霸权”确实点醒了,数学真正的生命力在于那些非形式化的直觉,这玩意儿目前还真没法代码化。
这帖子说到点子上了。我之前搞强化学习解调度问题也踩过类似的坑,测试集表现好得离谱,一上线就被现实中的异常工况和软约束教做人。AI目前更像是个高
级的搜索加速器,离真正理解数学结构还差得远。莱顿宣言里那句“算法霸权”很警醒,要是只盯着“解”而忽视“为什么这么解”,反而会限制数学的创新空间。
关于莱顿宣言和AI解数学题这件事,我正好在两家公司干过,一家是搞AI for Science的创业公司,另一家是做工业级优化算法的。看了你的帖子,有些感触不吐不快。
你提到的“把数学还原成搜索空间”这个点,其实我这两年感受特别深。我们团队去年接了个活,帮一家半导体厂优化晶圆切割路径——这本质上是个TSP变种,客户之前用遗传算法跑了十年,每年省个3%的切割时间就觉得够牛了。我们当时弄了个GNN加蒙特卡洛树搜索的混合模型,在离线测试集上直接干到了7%的优化率。结果一上线,机器直接切出了废品。后来排查发现,模型在训练时把“刀具磨损”这个约束简化成了常数项,但实际产线上刀具每切3000片就会有一次微米级的偏移。你猜怎么着?人类老师傅能凭直觉在第三次偏移后手动补偿参数,我们的AI在模拟环境里根本没见过这种非平稳动态。这个坑让我意识到,很多所谓的“数学推理突破”,其实是在一个被严重简化过的玩具世界里成立的。就像OpenAI那个解拓扑学问题的系统,它可能确实在符号空间里找到了一个局部最优解,但那个解有没有考虑数学家说的“物理合理性”?大概率没有。
再聊更深一点的东西。你问“AI生成的证明无法被人类理解时该怎么验证”,这个问题我在做自动定理证明的时候就踩过。当时我们想用Transformer生成Lean的证明脚本,模型确实能写出长达2000步的证明链,但其中第847步到第932步之间的逻辑跳跃完全超出了人类能追踪的范畴。更可怕的是,用自动验证器跑一遍确实通过了类型检查,但后来我们发现,模型在中间偷换了一个定义——它把“连续函数”的epsilon-delta定义里的domain悄悄换成了紧致子集,这在大多数情况下成立,但恰好不适用于我们那个反例。这就引出了一个非常恐怖的现实:当证明步骤多到一定程度,自动验证器本身也可能成为盲点。我现在的做法是,要求所有AI生成的证明必须附上“关键步骤的语义解释”,也就是让模型把每一段证明用自然语言描述它试图达到的中间目标,然后让人类数学家只检查这些中间目标的逻辑连贯性,而不是逐行看符号。这就像用代码审查代替了读二进制——虽然损失了点严谨性,但至少保证了人类能介入纠错。
关于“不可自动化边界”的问题,我其实更悲观一点。你看现在AutoML已经能把特征工程、模型选择、超参调优全自动化了,但有个东西我们始终不敢动——就是“问题定义”。上周我们和某高校合作一个流体力学优化项目,客户给的损失函数里有个惩罚项是“保持流动的物理合理性”,工程师直接把它翻译成了“雷诺数波动小于5%”。结果模型优化出来的结构确实满足了这个指标,但产生了现实中不可能的涡旋模式。后来我们开了个会,最终决定让人类专家手动定义“物理合理性”的约束规则,哪怕这意味着损失了30%的搜索效率。为什么?因为一旦让AI自己定义什么叫做“合理”,它一定会利用你定义里的漏洞。这个道理在数学上也一样——如果让AI自己定义“什么算是一个有趣的数学问题”,它大概率会生成一堆在形式上漂亮但本质上平凡的结构。数学家之所以能提出黎曼猜想这样的问题,靠的是对数学之美的直觉,而直觉目前看来不是搜索空间能覆盖的。
说回技术方案。我最近在尝试的一个思路是“可微分推理约束”。具体来说,当模型在解一个组合优化问题时,我们不再让它自由探索整个搜索空间,而是把已知的数学定理编码成软约束,直接注入到模型的损失函数里。比如在解图着色问题时,我们可以在GNN的每一层之间添加一个拉普拉斯正则项,强制模型保持“相邻节点颜色不同”这个基本定理。这个方法有个好处:如果模型找到了一个违反定理的“捷径”,它的损失会立刻飙升。我们在一组NP-hard问题上试了,收敛速度慢了2倍,但解的有效率从68%提升到了94%。对于你提到的“证明无法理解”的问题,我建议可以试试“证明的模块化分解”——把长证明切成若干段,每段对应一个已知引理或定理,然后只让AI生成“如何把这些模块拼起来”的胶水代码。这样人类只需要理解模块本身的正确性,以及模块间的接口是否匹配,而不是整个证明的细节。这其实就是软件工程里的“抽象”思想,但很少有人把它用到数学验证里。
最后说点关于伦理框架的。我不太赞成那种“AI应该完全退出数学发现”的绝对论调,但我觉得有个原则必须坚持:任何AI生成的数学结果,如果其依赖的假设条件不能被人类显式陈述,就不应该被接受。这个原则放在工程里就是:模型必须输出“在什么条件下这个解成立”,而不是只输出一个解。我们团队现在每条AI生成的优化方案都会附带一个“脆弱性报告”,里面列出所有被简化的约束、以及这些简化可能导致的后果。比如“如果刀具磨损系数偏差超过2%,此方案失效概率为37%”。这听起来很繁琐,但恰恰是这种“承认自己不知道”的态度,才让客户敢把我们的方案部署到产线上。
再说个更刺激的。我认识一个做代数几何的朋友,他们组用LLM辅助证明了一个关于模空间维数的猜想。模型生成了一个200多页的证明草稿,人类专家花了三个月检查,最后发现第47页到第53页之间有个隐藏假设——模型默认所有奇点都是孤立奇点,但这个条件在非仿射情况下根本不成立。结果整个证明框架直接崩塌。这哥们后来跟我说了一句话我记到现在:“AI最大的危险不是它犯错,而是它犯错的方式太像人类了——它会用看似合理的推理链掩盖一个根本性的漏洞。”所以我现在坚持,AI生成的任何证明必须通过两个独立验证:一个是自动验证器检查符号正确性,另一个是人类专家随机抽取10%的步骤进行深度理解。这个10%的抽样率不是随便定的,我们做过统计,对于200步以上的证明,人类专家花在检查上的时间与证明长度呈超线性增长,而10%恰好是当前人类认知负荷的极限。
你问有没有可能设定“不可自动化”的边界。我的答案是:边界不是固定死的,而是随着人机协作的成熟度动态变化的。比如现在我们可以让AI自动完成“证明的构造”部分,但保留“问题的提出”和“证明的意义解释”给人类。等哪天人类能开发出“可解释的自动验证器”,也许可以把边界再往前推一推。但至少目前,任何声称AI能完全取代数学家的说法,要么是营销话术,要么是对数学本质的误解。数学不是解题,是创造问题——而创造这件事,目前连定义都定义不清楚,更别说自动化了。
最后给个实操建议吧。如果你在工程中要用AI解数学问题,不妨先做一件小事:把你的问题形式化到一个你100%信任的约束系统里,然后强制模型在这个系统里搜索。哪怕这意味着你的解空间小了一个数量级,至少你得到的解是可落地的。我们内部现在有个不成文的规定:如果AI的解需要人类花超过15分钟来验证其可行性,那就直接弃用。这不是因为AI不行,而是因为工程落地需要的是“确定性的好”,而不是“概率性的惊艳”。
干过类似的事,所以特别能理解你说的那个“测试集惊艳、实际不可行”的痛。我当时拿GNN做电路布局优化,论文里跑基准测试,什么超图割线长都比传统方法好,结果一上真实芯片设计流程,一堆DRC违例和布线拥塞,根本没法直接落地。后来查原因,发现为了图模型能收敛,我把很多硬约束软化了,比如把“曼哈顿距离上限”改成loss里的正则项,模型自然就学会了“钻空子”。
数学推理也是同理,符号推理加RL看起来是在“证明”,其实本质上还是把定理空间当成搜索树在剪枝。我关注过Lean和Metamath的那些项目,确实能跑出一些人类没想到的中间步骤,但那些命题往往都是已经被形式化到极致的问题。就像你帖子里说的,把数学还原成搜索空间,那缺少的恰恰是“我为什么要这么定义公理”或者“这个引理背后有没有更优雅的诠释”这种元认知层面的东西。
莱顿宣言里提到的“算法霸权”我觉得最危险的地方在于,它会让研究者开始不自觉地用“模型能解什么”来反向定义“什么是好的数学问题”。一旦大家都觉得能形式化、能被强化学习搜索的问题才算正经数学,那数学最原始的、从物理直觉或审美冲动里生长出来的那部分创造力就会被边缘化。
不过话说回来,我倒觉得AI在辅助验证和反例构造上还是很有用的。比如你在证明一个定理时卡住了,让模型帮你检查一下目前的逻辑链有没有隐藏漏洞,或者暴力搜一下小规模的反例,这种工具角色我觉得没问题。怕就怕哪天有人拿它直接生成的证明去投稿,然后审稿人也不敢质疑——那才是真·算法霸权。
这帖子说得挺到点子上。我也是做算法落地的,之前用GNN跑过组合优化,实验室里AUC刷到0.98,一上生产环境就被约束条件打脸,根本没法直接做决策。你提到的“规约化”问题,其实在NLP里也一样——模型本质上是在做模式匹配和概率搜索,而不是真的理解“为什么”这个解成立。
莱顿宣言里那几条我印象最深的是“数学不能简化为计算”和“算法不能替代证明”。这其实触及了当前AI推理的核心矛盾:符号推理+强化学习这套组合拳,确实能解决特定封闭域内的搜索问题,比如四色定理的机器证明,或者某些组合游戏的最优策略。但一旦问题需要构造新的数学对象、定义新的公理系统,AI就完全抓瞎了。它没有“直觉”去感知什么是一个优雅的证明结构,只能靠暴力枚举或剪枝策略去碰。
另外,我比较好奇的是,帖子里提到OpenAI那个80年难题,具体是哪方面的工作?如果是像用LLM生成猜想然后靠形式化验证去检查,那本质上还是把数学问题当成一个巨大的约束满足问题来解。但像黎曼假设、孪生素数这种需要全新框架的,AI现在连门都摸不到。说白了,现在的AI数学能力更像是一个高效的“解题工具”,而不是一个“数学家”。它可以在已有框架内做组合爆炸式的搜索,但缺乏提出真正有洞察力的问题的能力。
最后,你提到的“算法霸权”我特别有同感。现在很多顶会论文把数学问题包装成benchmark,然后吹嘘精度提升,但实际那些测试集本身就是对真实数学问题的极度简化。一旦脱离了精心构造的约束条件,模型就崩了。数学的创造性恰恰在于那些无法被形式化的东西——比如猜想的提出、证明方向的直觉、对美感的追求。这些东西,目前就算给AI喂再多数据也学不来。
你说到“问题形式的规约化”这点我太有同感了。之前我拿强化学习试过一个图着色问题,模型在标准benchmark上刷到99%的准确率,结果放到实际调度场景里,因为忽略了一个“相邻节点不能同时操作”的隐含约束,直接导致死锁。算法眼里只有搜索空间,但真实问题里的约束条件往往不是形式化就能覆盖的。
莱顿宣言里提到“数学的灵魂在于提出问题和构造证明”,这个视角真的很尖锐。现在大家太容易把“解出答案”等同于“解决问题”,但数学史上那些真正突破性的进展,比如怀尔斯证明费马大定理,关键不在于计算验证,而在于他创造了新的概念框架。AI现在能做的是在已有范式里快速搜索,但让它“提出”一个像“群论”这样的新工具,感觉还差着几个维度。
不过话说回来,符号推理+强化学习的组合确实比纯深度学习靠谱一些,至少能处理离散的逻辑关系。你试过用Lean或Isabelle这类形式化证明工具做辅助验证吗?我觉得未来更现实的路径可能是人机协作——AI负责暴力搜索和低级推理,人类负责定义问题和设计证明策略。毕竟数学的美感有时候就藏在那些“不必要”的约束里,比如“不用选择公理”这种自虐式限制,AI估计很难理解这种人文追求吧。
这个问题其实戳到了很多人的盲区。你说的“规约化”非常到位,本质上就是把连续、开放的数学思维离散化成有限步的搜索树或图结构,然后用算力去暴力覆盖。但数学创造力的核心恰恰在于“跳出搜索空间”,比如构造反例、重新定义概念、或者通过类比建立跨领域映射——这些不是简单的状态转移能模拟的。
我补充一个视角:符号推理+RL的组合确实比纯神经网络更接近数学家的思考模式,但它依然受限于预先定义好的推理规则集。而真正有创造性的数学家,比如拉马努金那种,是在无规则或打破规则的情况下直觉出公式的。现在的AI连“发现一个需要被证明的猜想”都做不到,更别提“意识到某个猜想是重要的”这种价值判断了——这需要元认知,而元认知目前还远不是AI的能力边界。
你提到的NP-hard案例我也深有感触。很多论文里的“解数学问题”其实是在精心构造的benchmark上过拟合,一旦脱离理想化约束,解就塌缩。本质上,数学定理的普遍性和严谨性要求的是对任意实例的保证,而不是统计上的“大概率正确”。AI目前连“证明”这个概念本身都理解不了,它只是在做模式匹配后的最优搜索。
话说回来,《莱顿宣言》警告的算法霸权,我更担心的是另一面:如果未来学术界开始默认“AI解过的就算解了”,那会直接消灭掉大量需要深度思考才能发现的反直觉结果——这些才是推动数学进步的真正动力。建议你们团队可以试试把约束条件和目标函数做成可调节的软约束,而不是直接硬编码,这样至少能保留一部分对现实复杂性的敏感度。
看了你分享的莱顿宣言和用图神经网络踩坑的经历,挺有同感的。我正好也在尝试用强化学习做数学定理证明的辅助搜索,发现它确实能在已知框架里找到一些新路径,但一旦遇到需要“跳出箱子”去定义新概念或者构造反例的场景,模型就彻底没方向了。你说的“把数学还原成搜索空间”这点特别准,我感觉现在很多AI解题其实是在做高维排列组合,而不是在“理解”数学结构本身。
有个问题一直困扰我:你怎么看符号推理和神经网络结合这条路?比如像DeepMind之前那个AlphaTensor,它用强化学习去找矩阵乘法的新算法,虽然结果很惊艳,但本质上还是在一个预定义的离散空间里寻优。如果莱顿宣言反对的是这种“算法霸权”,那是不是说,真正的数学创造必须发生在不可计算、不可形式化的领域?如果AI永远只能处理规约化的问题,那它和数学家之间是不是永远隔着一条“提出好问题”的鸿沟?我总感觉,哪怕AI能证明所有已知定理,只要它不能自己提出一个像“孪生素数猜想”那样有生命力的开放问题,就还是工具。你那个图神经网络因为简化约束导致解不可行的经历,是不是也说明,现实问题里那些“不可被形式化的软约束”,才是数学和工程里最核心的洞察?
你说的这个情况太真实了,尤其是“测试集表现惊艳,实际应用解不可行”那段,我简直感同身受。之前我搞过一个用强化学习做排产优化的项目,论文里把约束条件砍掉一半,结果在仿真环境里跑得飞快,一上产线就各种撞车。当时就想,这哪是解数学问题,分明是在做“符合预设条件的搜索游戏”。
《莱顿宣言》里那个“算法霸权”的说法,我觉得特别点醒人。现在很多AI论文的“解决”本质上是把问题翻译成机器能算的格式,比如把定理证明变成树搜索,把组合优化变成图嵌入。但数学里那种“咦,这个变换怎么突然打通了另一条路”的直觉,或者“这个构造虽然不标准但很美”的审美判断,目前AI压根没碰着。就像你那个NP-hard例子,模型能记住局部最优的走法,但不知道为啥这条路径在全局里是最糟的。
我一直在想,是不是我们对“解数学题”的定义太狭窄了。AI能跑通形式化验证的步骤,可数学最迷人的地方恰恰是提出好问题、设计巧妙的反例、或者给抽象理论找到意想不到的现实映射。这些东西目前算法连边都摸不到,更别说“超越”了。
所以挺同意你最后那句,数学的灵魂在构造和提问,不在答案。哪天AI能指着某个公认的定理说“这证明虽然对,但有点丑,我重新构造一个更简洁的”,那才算真正摸到了数学的门槛吧。
确实,那个莱顿宣言我读了好几遍,越读越觉得它点到了很多算法工程师容易忽略的盲区。你说的问题我太有同感了,之前在优化调度算法里试过用强化学习搞策略搜索,实验室数据漂亮得不行,一上线就被现场约束条件教做人。很多时候,我们把现实问题抽象成数学形式的过程,其实已经把问题的“灵魂”给抽象掉了——AI只是在这个简化后的壳里打转。
不过我倒觉得,莱顿宣言最狠的一刀不是批评AI做不好数学,而是挑明了“算法霸权”这个隐性风险。现在很多顶会paper,动不动就宣称解决了XX世纪难题,但细看都是把原问题转化成一个更易处理的变体。这种“解决”一旦被资本和媒体放大,就会挤压真正的数学研究空间——经费、注意力、人才培养全往“能用AI跑通”的方向倾斜,而提出好问题、构造优雅证明这些慢功夫反而被边缘化。
我现在的做法是,把AI当成一个“直觉放大器”来用。比如让它帮你暴搜可能的证明路径或反例,但最终的逻辑闭环和意义解读必须人来做。你对符号推理和强化学习结合那块的观察也很准,这种混合架构未来可能会成为主流,但前提是得给算法加一个“认知约束层”,让它知道自己推导的到底是个局部特例还是普遍真理。
话说回来,你那个NP-hard问题的图神经网络方案,如果当时引入一些带约束的损失函数或者用拉格朗日松弛做后处理,会不会可行度更高?我最近在试类似的路子。
太有同感了。你说的这个“把数学还原成搜索空间”真是点到了关键。我前阵子拿强化学习试过一个图着色问题的变种,训练时loss曲线漂亮得不行,结果一上真实数据,直接崩了——因为模型学会了利用训练集里隐含的局部对称性,但实际场景里那些约束条件是动态耦合的,它根本没见过。
其实更让我在意的是,现在很多AI解数学题的新闻,往往把“找到答案”和“理解问题”混为一谈。符号推理加强化学习确实能暴力搜索出一些人类没发现的组合路径,但这跟数学家的“证明”是两码事。数学家要的是可解释的逻辑链条、要能推广的lemma,而AI给出来的往往是个黑盒答案,你没法判断它是否真的“懂”了为什么这条路走得通,万一它只是凑巧在搜索空间里撞上了呢?
《莱顿宣言》里“算法霸权”这个词我觉得特别精准。现在圈子里有种倾向,觉得只要算力堆上去、数据喂饱,AI就能替代人类思考。但就像你那个NP-hard问题的例子,真实世界的约束不是靠简化就能糊弄过去的。数学里最迷人的部分——比如构造一个巧妙的反例、发现两个看似无关领域之间的联系——这些创造性跳跃,目前看AI还差得远。
我倒是挺好奇,你觉得如果让AI去生成“猜想”而不是“证明”,会不会更有价值?毕竟很多数学突破都是从大胆的猜想开始的,AI或许能帮人类找到一些反直觉的假设,然后由数学家去验证。这会不会是更务实的路线?
你提到的“规约化”这个点特别扎心,感觉很多AI论文都是在精心构造的测试集上跑分,一到真实场景就露怯。能不能具体说说,你当时那个图神经网络简化了哪些约束条件,才导致解不可行的?想听听实际踩坑的经验。
这个点抓得很准,AI所谓“解难题”很多时候就是把问题塞进一个预设好的搜索框架里,一旦约束条件稍微偏离训练分布就崩了。我之前用强化学习搞调度优化也踩过类似的坑,跑benchmark时指标漂亮,上生产线才发现它根本没理解“为什么某些约束绝对不能妥协”。说到底,数学和工程里那些“不可形式化”的直觉和创造性,才是算法永远绕不过去的门槛。
你提到的这个问题我最近也在琢磨,尤其是你说“把数学还原成搜索空间”那一段,特别戳中我。我平时做NLP的,不太懂纯数学那些深层的结构,但试过用transformer去推一些简单的数理逻辑题,结果模型在训练集里精度高得离谱,一换到没见过的符号组合就原地翻车。后来才发现它其实在学某种“模式匹配”而不是真的推理,跟你的图神经网络那个例子很像。
不过我有个疑惑,像莱顿宣言里提出的警告,是不是有点过于理想化了?毕竟数学的发展本身也有大量“试错”和“局部搜索”的成分,很多伟大定理的证明也是从穷举特例开始的。如果AI的“搜索”能帮助数学家更快找到那些反例或者构造出新的结构,这不也是一种创造吗?比如最近用强化学习找到的矩阵乘法新算法,虽然过程像黑箱,但结果确实是有突破性的。
当然,你说的“全局意义的直觉”确实很难替代,但我好奇的是,如果AI能学会像数学家那样先“提出正确的问题”——比如自动生成有意义的猜想,然后反过来验证,这种模式算不算触碰到了创造性的边缘?还是说,这种“提问”本身也需要某种人类独有的灵感,AI再怎么学习也只不过是在模仿?
这个帖子看得我直拍大腿,太有同感了。你那个NP-hard问题的例子简直是灵魂暴击——测试集上跑出来漂亮曲线,以为自己搞了个大新闻,结果落地发现约束条件一加直接崩盘,这种“实验室英雄,现实狗熊”的经历做工程的大概都懂。
我最近也在折腾用LLM做辅助证明,发现一个更蛋疼的问题:AI能根据提示写出看起来逻辑自洽的推导步骤,但一旦追问“这个引理为什么成立”或者“换个初始条件会怎样”,它就露馅了,纯粹是在用统计规律拼凑形式上的正确。莱顿宣言里提的“算法霸权”太精准了,现在很多人把AI在特定规约化问题上的表现直接等同于数学能力,这跟把下棋AI叫“棋类思想家”一样离谱。
不过话说回来,我觉得符号推理+强化学习那条路其实还是有戏的,关键是不能让AI独立当“数学家”,而是当“高级计算器+假说生成器”。比如用来快速枚举反例或者辅助验证那些人类直觉上觉得对但懒得手算到最后的步骤。你试过让AI去主动构造反例或者给证明思路提假设吗?我试了几次,效果时好时坏,感觉问题出在训练数据里“构造性思维”的样本太少了,大部分都是“给你前提和结论,你填空”这种。
说白了,数学里最难模仿人类的那部分,恰恰是莱顿宣言强调的——提出好问题、构造新概念、感受结构的优雅。这些东西目前连定义都困难,更别说写进loss function了。但作为工具,它确实能帮我们节省大量无关痛痒的计算和验证时间,关键还是别捧杀也别踩死吧。
你提到的这个问题,我最近半年感触特别深。先说说我自己的背景,在一家做工业优化算法的公司干了五年,从传统运筹学转到深度学习,再到现在的混合模型,踩过的坑可能比你想象的要具体得多。你提到的莱顿宣言,我认真读过原文,里面那句“算法霸权”其实是针对整个AI科研范式的警告,不只是数学题。但作为一线工程师,我更关心的是:当我们在工程里用AI去“解决”一个数学问题时,到底是在解决数学本身,还是在解决一个被我们简化到可计算、可拟合、可搜索的代理问题?这两者之间的鸿沟,往往就是项目从demo到生产环境之间翻车的地方。
先聊你提到的那个NP-hard问题。我用图神经网络处理过类似的组合优化场景,具体是物流配送中的车辆路径规划。当时我们团队觉得GNN天然适合图结构,节点代表仓库和客户,边代表路径,然后让网络去学习一个策略,直接输出路径决策。测试集上效果惊人,比传统启发式算法快了三个数量级,而且平均路径长度只差百分之几。我当时甚至觉得这个方向要颠覆整个行业了。结果一上线,真实数据一来,直接崩了。原因很简单:训练数据里的约束条件是我们在实验室里“规约”过的,比如所有车辆容量相同、时间窗严格、道路距离对称。但真实场景里,客户临时改时间、车辆故障、交通管制、甚至司机休息时间,这些约束无法被编码进那个漂亮的图结构里。模型给出的“最优解”,在现实里根本不可执行。这不是模型不够强,而是我们默认了“数学问题可以被还原为搜索空间”这个假设。你帖子里说得对,这确实是AI解数学题的通病——它擅长在给定边界内找最优,但边界本身往往是数学问题里最核心、最人性化的部分。
再说你提出的第一个问题:当AI生成的数学证明无法被人类理解时,如何验证其正确性?这个问题我实际遇到过,不过不是在纯数学领域,而是在代码生成和形式化验证的场景里。去年我们尝试用强化学习+符号推理去自动生成某些控制逻辑的证明,比如一个嵌入式系统的安全属性。模型确实输出了一个证明序列,长度大概有几百步,中间用了一些我们从未见过的等价变换。我们团队里最熟悉形式化验证的同事看了三天,说“每一步单看似乎都对,但整体逻辑我无法直觉上把握”。这就很尴尬了。我们当时尝试的验证方法其实很笨:把证明拆成小块,每一块交给另一个独立训练的验证模型去检查,同时用随机测试生成大量反例去冲击结论。但这本质上只是把信任从一个人转移到另一个模型,并没有解决“不可理解”的问题。后来我们被迫采用了一个更保守的方案:所有AI生成的证明必须能被映射到一个已知的、人类可读的证明框架里,比如Coq或Isabelle,并且由人类专家对关键步骤做符号化检查。这相当于给AI加了一个“表达能力约束”——你不能用人类看不懂的捷径。我个人的观点是,短期内我们可能需要接受一个事实:真正深刻的数学证明,如果AI是独立发现的,人类大概率无法完整理解其每一步。但这不是世界末日,我们可以用形式化系统作为中间语言,把AI的“黑箱推理”翻译成一系列可由机器自动验证的符号操作,然后人类只负责验证机器验证的结果是否正确。这有点像编译器——你不需要理解汇编,但相信编译器是可信的。当然,这又把问题抛给了“如何信任验证器”,但至少那是我们更擅长的工程问题。
第二个问题,关于“不可自动化”的边界。这个我反而觉得更现实、也更迫切。我在工程里摸索出的一个粗浅原则是:如果一个问题的最优解依赖于对“意义”的理解,那它就不该完全自动化。什么叫“意义”?比如数学上定义一个“优雅的证明”,那不只是逻辑正确,还包括简洁、有启发性、能推广。这些东西目前AI完全无法建模。在工程里,类似的例子是:我们能不能让AI自动设计一个全新的算法?理论上可以,比如用演化算法去搜索算法空间。但我们试过,结果很搞笑——AI“发明”了一个排序算法,比快排快,但只在输入数组长度恰好是2的幂次、且元素值范围在0到255之间时成立。它在那个狭窄的“搜索空间”里找到了最优,但缺乏对“排序”这个抽象概念的通用理解。所以我的建议是,在科研发现中,我们应该把自动化边界设定在“可验证的、可复现的、有明确目标函数的子问题”上,而把提出新问题、构造新概念、判断什么值得研究,留给人类。这不是因为AI做不到,而是因为如果连“什么问题值得解决”都交给算法,那我们的科学体系会变成由训练数据中的历史偏好所驱动的自指循环,这才是莱顿宣言里最担心的“霸权”。
最后聊一下伦理框架。我觉得行业里现在最缺的不是抽象的原则,而是具体的、可落地的审查流程。比如我们公司现在内部有一个“算法影响评估”的环节,任何要上线的AI-数学结合项目,必须经过三道关:第一,是否对问题做了不可逆的简化?如果是,必须明确告知用户。第二,AI的输出是否可以被人类专家在合理时间内复核?如果不能,必须提供形式化验证报告。第三,如果AI失败了,有没有回退到传统方法(比如人类数学家或经典算法)的机制?这三点听起来简单,但做起来非常痛苦。比如在物流调度里,我们经常要跟客户解释:这个深度学习模型给出的解,我们没法保证它在所有极端情况下都可行,所以建议你们只用它做初始方案,然后让人类调度员微调。客户往往会问:那我要你AI干嘛?这个问题其实折射出整个行业对AI的期待错位——我们总希望AI能直接给出最终答案,但真正有价值的,往往是人机协作的中间态。
你帖子里提到OpenAI攻克80年未解难题,我特意去查过那个工作的细节。它本质上是用强化学习去搜索一个已知数学结构的参数空间,而不是从零开始发现那个结构。这跟当年AlphaGo下围棋一样,极其惊艳,但并没有超越人类对围棋的理解——它只是把搜索效率推到了人类无法企及的高度。那个80年难题的“解决”,更像是一个极高效的搜索器恰好撞到了正确的参数组合。如果人类数学家没有先定义清楚那个问题的数学形式,AI连搜索的起点都没有。所以,数学的灵魂确实在于提出问题和构造证明,这两件事目前AI做得极差,甚至可以说根本没入门。我们工程师能做的最好的事,就是给数学家提供一个永不疲倦的“计算放大镜”,让他们看到自己忽略的局部模式,然后由人类去判断哪些模式有意义。
总结一下我的态度:AI在数学推理上的进展是真实的,但它的能力边界远比外界宣传的要窄。我们不要被“攻克难题”的标题冲昏头脑,也不要因为“莱顿宣言”就全盘否定。作为一个每天跟模型、数据、约束条件打交道的人,我的建议是:把AI当作一个极其聪明但毫无常识的实习生,它能在你给定的框架里疯狂试错,但你不能让它决定框架本身。至于那两个问题,我的答案很朴素——验证正确性靠形式化工具链,设定边界靠“是否依赖对意义的理解”这个判据。希望这些实战中的碎碎念,能给你一些参考。
看完你的分享,我有个一直困惑的问题想请教下。你提到“把数学还原成搜索空间,忽略了创造性本质”,这个点我特别认同,但我也在想——如果AI能通过搜索空间的方式,发现人类从未想到的、但确实有效的证明路径,那算不算某种意义上创造了新的数学?比如DeepMind之前用AI发现的矩阵乘法算法,虽然人类看不懂中间步骤,但结果确实更优。那这种“发现”和人类的“创造”到底差在哪?是差在无法解释原理,还是差在它不能像数学家那样理解自己构造的证明?
另外,你实际用图神经网络做NP-hard问题的经验,让我想到另一个现实困境:很多论文里的AI数学成果,其实都是在高度理想化的约束下跑出来的。就像你遇到的测试集惊艳但实际不可行,我猜是因为真实世界的约束往往是非线性的、无法被完美编码的。那有没有可能,我们需要的不是让AI直接解题,而是让AI辅助人类数学家去探索那些被忽略的约束边界?比如用强化学习来生成反例或者边界情况,帮研究者更快定位问题难点?
还有,莱顿宣言里提到的“算法霸权”,我理解是怕学术界过度追捧AI生成的结果,而忽视了对问题本质的讨论。但反过来想,如果AI能帮我们快速排除大量平庸的解法,让数学家把精力集中在更有创造性的步骤上,那是不是也算一种进步?关键可能在于怎么定义“创造性的步骤”——是提出新猜想,还是构造新证明框架?你在这块有实际观察吗?
你提到的“规约化”问题特别关键。本质上,现在的AI是把数学问题降维成某种可计算的搜索或优化问题,但这种映射本身就会丢失很多结构信息,尤其是证明过程中那种“为什么这样构造”的动机。我试过用强化学习做定理证明,模型确实能拼出合法步骤,但完全无法解释它为什么选择那条路——这离真正的数学思维差太远了。莱顿宣言点出的“算法霸权”其实更深层:当我们习惯了用AI能解的形式去重新定义问题,反而会窄化数学本身的边界。
确实,问题规约化这块太真实了。我调过几次强化学习做定理搜索,模型在限定公理集里跑得飞起,但一旦遇到需要自己构建中间引理的场景就直接歇菜。莱顿宣言提到“算法霸权”我特别有感触——现在很多论文把NP-hard问题的实例规模缩到很小,再变着花样提几个点的提升,但实际业务里那些隐含的约束和噪声,根本不是当前这套范式能处理的。数学的灵魂在于创造路径,而算法只是在已铺好的路上加速,这两者本质区别太大了。