谷歌 AlphaProof Nexus 仅用数美元解决 9 道数学难题

谷歌 DeepMind 的 AlphaProof Nexus 是一种将大语言模型与形式证明检查相结合的 AI 系统，目前已解决 353 个公开埃尔多斯问题中的 9 个，以及《整数数列在线百科全书》中 492 个公开猜想中的 44 个。这一突破在每个问题上仅花费数百美元，展示了 AI 驱动的形式验证新前沿，可能改变关键软件的构建方式。

“各组织应谨慎对待未经验证的‘感性编码’ (vibe coding)，因为 AI 系统正迅速进入正确性不再是可选项的环境中，”竞争对手 AI 实验室 Logical Intelligence 的创始人兼 CEO 埃夫·博迪纳 (Eve Bodina) 在最近的一份声明中表示。“形式推理基准正变得越来越重要，因为它们迫使 AI 系统在数学强制执行正确性的环境中运行。”

研究结果记录在 2026 年 5 月 21 日发表的 arXiv 预印本 (2605.22763v1) 中。AlphaProof Nexus 的工作原理是利用大语言模型生成数学证明，然后使用 Lean 证明助手检查每个逻辑步骤的正确性。这种“代理循环” (agentic loop) 会不断迭代建议的证明，直到它们通过形式验证。这是对一直困扰企业采用的 AI 幻觉问题的直接回应。

这一进展使 AI 从生成听起来合理的文本转向产生可证明正确的逻辑。其影响远超学术界，甚至威胁到智能合约审计、加密协议设计和零知识证明生成的经济学——在这些领域，单一的逻辑错误就可能导致灾难性的财务损失。

AI 验证军备竞赛的新战线

谷歌并非唯一一家利用 AI 攻克前沿数学的公司。OpenAI 最近宣布其通用模型之一通过发现一个新的反例，推翻了与埃尔多斯平面单位距离问题相关的一个核心猜想。虽然 DeepMind 的 AlphaProof Nexus 证明了数十年前的猜想是正确的，但 OpenAI 的模型发现了一个长期存在的数学信念中的缺陷。然而，这两项成就都依赖于顶尖人类数学家来检查、完善和解读 AI 的输出，这预示着人类与机器之间出现了新的分工。

不同的方法凸显了一个关键趋势：AI 行业正超越基准测试分数，转向解决答案未知的公开问题。这种从精心策划的测试向前沿研究的转变，是证明 AI 作为科学和工程领域协作伙伴（而非仅仅是总结工具）价值的关键一步。核心挑战仍然是信任，因为 AI 生成的幻觉仍在法庭和学术论文中出现。

从学术谜题到商业现实

将该技术商业化的竞赛已经拉开帷幕。专注于基于能量推理模型的 AI 实验室 Logical Intelligence 最近宣布，其智能体 Aleph 已解决 PutnamBench（高级数学定理证明基准）中 99.4% 的问题。这一表现显著优于字节跳动及其他竞争对手的系统。

Logical Intelligence 已经在生产验证工作流中部署 Aleph，包括与以太坊基金会的加密库合作。这种从学术概念验证到关键基础设施生产级验证的转变表明，一个新市场正在兴起。企业构建 AI 不仅是为了生成代码，而是要在代码进入可能产生现实后果的生产环境之前，证明其是正确的。

对于投资者而言，关键见解是：生成可证明正确输出的能力是在任务关键型系统中扩展 AI 的基础要求。这一转变直接解决了当前生成模型的主要弱点：它们在压力下容易产生臆造。虽然 Alphabet (GOOGL) 凭借 AlphaProof Nexus 巩固了其在 AI 研究领域的领导地位，但像 Logical Intelligence 这样的专门公司的出现表明，“经验证的 AI”的新基础设施层正在构建中。对于任何承担不起错误成本的行业（从金融到能源），这项技术都将是必不可少的。

本文仅供参考，不构成投资建议。