谷歌的一款人工智能刚刚解决了困扰人类数十年的数学难题,但真正的突破在于它如何解决 AI 价值数十亿美元的幻觉问题。
谷歌的一款人工智能刚刚解决了困扰人类数十年的数学难题,但真正的突破在于它如何解决 AI 价值数十亿美元的幻觉问题。

谷歌 DeepMind 的 AlphaProof Nexus 是一种将大语言模型与形式证明检查相结合的 AI 系统,目前已解决 353 个公开埃尔多斯问题中的 9 个,以及《整数数列在线百科全书》中 492 个公开猜想中的 44 个。这一突破在每个问题上仅花费数百美元,展示了 AI 驱动的形式验证新前沿,可能改变关键软件的构建方式。
“各组织应谨慎对待未经验证的‘感性编码’ (vibe coding),因为 AI 系统正迅速进入正确性不再是可选项的环境中,”竞争对手 AI 实验室 Logical Intelligence 的创始人兼 CEO 埃夫·博迪纳 (Eve Bodina) 在最近的一份声明中表示。“形式推理基准正变得越来越重要,因为它们迫使 AI 系统在数学强制执行正确性的环境中运行。”
研究结果记录在 2026 年 5 月 21 日发表的 arXiv 预印本 (2605.22763v1) 中。AlphaProof Nexus 的工作原理是利用大语言模型生成数学证明,然后使用 Lean 证明助手检查每个逻辑步骤的正确性。这种“代理循环” (agentic loop) 会不断迭代建议的证明,直到它们通过形式验证。这是对一直困扰企业采用的 AI 幻觉问题的直接回应。
这一进展使 AI 从生成听起来合理的文本转向产生可证明正确的逻辑。其影响远超学术界,甚至威胁到智能合约审计、加密协议设计和零知识证明生成的经济学——在这些领域,单一的逻辑错误就可能导致灾难性的财务损失。
谷歌并非唯一一家利用 AI 攻克前沿数学的公司。OpenAI 最近宣布其通用模型之一通过发现一个新的反例,推翻了与埃尔多斯平面单位距离问题相关的一个核心猜想。虽然 DeepMind 的 AlphaProof Nexus 证明了数十年前的猜想是正确的,但 OpenAI 的模型发现了一个长期存在的数学信念中的缺陷。然而,这两项成就都依赖于顶尖人类数学家来检查、完善和解读 AI 的输出,这预示着人类与机器之间出现了新的分工。
不同的方法凸显了一个关键趋势:AI 行业正超越基准测试分数,转向解决答案未知的公开问题。这种从精心策划的测试向前沿研究的转变,是证明 AI 作为科学和工程领域协作伙伴(而非仅仅是总结工具)价值的关键一步。核心挑战仍然是信任,因为 AI 生成的幻觉仍在法庭和学术论文中出现。
将该技术商业化的竞赛已经拉开帷幕。专注于基于能量推理模型的 AI 实验室 Logical Intelligence 最近宣布,其智能体 Aleph 已解决 PutnamBench(高级数学定理证明基准)中 99.4% 的问题。这一表现显著优于字节跳动及其他竞争对手的系统。
Logical Intelligence 已经在生产验证工作流中部署 Aleph,包括与以太坊基金会的加密库合作。这种从学术概念验证到关键基础设施生产级验证的转变表明,一个新市场正在兴起。企业构建 AI 不仅是为了生成代码,而是要在代码进入可能产生现实后果的生产环境之前,证明其是正确的。
对于投资者而言,关键见解是:生成可证明正确输出的能力是在任务关键型系统中扩展 AI 的基础要求。这一转变直接解决了当前生成模型的主要弱点:它们在压力下容易产生臆造。虽然 Alphabet (GOOGL) 凭借 AlphaProof Nexus 巩固了其在 AI 研究领域的领导地位,但像 Logical Intelligence 这样的专门公司的出现表明,“经验证的 AI”的新基础设施层正在构建中。对于任何承担不起错误成本的行业(从金融到能源),这项技术都将是必不可少的。
本文仅供参考,不构成投资建议。