AlphaProof Nexus de Google DeepMind, un système d'IA associant de grands modèles de langage à la vérification formelle de preuves, a résolu 9 des 353 problèmes ouverts d'Erdős et 44 des 492 conjectures ouvertes de l'Encyclopédie en ligne des suites de nombres entiers. Cette percée, qui n'a coûté que quelques centaines de dollars par problème, démontre une nouvelle frontière dans la vérification formelle pilotée par l'IA qui pourrait changer la façon dont les logiciels critiques sont conçus.
« Les organisations devraient faire preuve de prudence avec le 'vibe coding' sans vérification, car les systèmes d'IA pénètrent rapidement dans des environnements où l'exactitude n'est plus facultative », a déclaré Eve Bodina, fondatrice et PDG de Logical Intelligence, un laboratoire d'IA concurrent, dans un communiqué récent. « Les benchmarks de raisonnement formel sont de plus en plus importants car ils obligent les systèmes d'IA à opérer dans des environnements où l'exactitude est mathématiquement imposée. »
Les résultats ont été documentés dans une prépublication arXiv (2605.22763v1) publiée le 21 mai 2026. AlphaProof Nexus fonctionne en générant une preuve mathématique avec un grand modèle de langage, puis en utilisant l'assistant de preuve Lean pour vérifier chaque étape logique. Cette « boucle d'agent » (agentic loop) itère sur les preuves proposées jusqu'à ce qu'elles soient formellement vérifiées, une réponse directe au problème persistant de l'hallucination de l'IA qui a freiné l'adoption en entreprise.
Ce développement fait passer l'IA de la génération de textes plausibles à la production d'une logique prouvablement correcte. Les implications dépassent largement le cadre académique, menaçant de modifier l'économie de l'audit des contrats intelligents, de la conception de protocoles cryptographiques et de la génération de preuves à divulgation nulle de connaissance — des domaines où une seule erreur logique peut entraîner des pertes financières catastrophiques.
Un nouveau front dans la course aux armements de la vérification de l'IA
Google n'est pas seul à utiliser l'IA pour s'attaquer aux mathématiques de pointe. OpenAI a récemment annoncé que l'un de ses modèles polyvalents avait infirmé une conjecture centrale liée au problème de la distance unitaire planaire d'Erdős en trouvant un nouveau contre-exemple. Alors que l'AlphaProof Nexus de DeepMind a prouvé l'exactitude de conjectures vieilles de plusieurs décennies, le modèle d'OpenAI a trouvé une faille dans une croyance mathématique de longue date. Ces deux exploits ont toutefois nécessité l'intervention de mathématiciens humains d'élite pour vérifier, affiner et interpréter les résultats de l'IA, pointant vers une nouvelle division du travail entre l'homme et la machine.
Ces approches divergentes soulignent une tendance clé : l'industrie de l'IA dépasse les scores de référence pour résoudre des problèmes ouverts dont les réponses sont inconnues. Ce pivot des tests standardisés vers la recherche de pointe est une étape cruciale pour démontrer la valeur de l'IA en tant que collaborateur dans les sciences et l'ingénierie, et non plus seulement comme un outil de synthèse. Le défi principal reste la confiance, car les hallucinations générées par l'IA continuent d'apparaître dans les tribunaux et les publications académiques.
Des énigmes académiques à la réalité commerciale
La course à la commercialisation de cette technologie est déjà lancée. Logical Intelligence, un laboratoire d'IA axé sur les modèles de raisonnement basés sur l'énergie, a récemment annoncé que son agent, Aleph, a résolu 99,4 % du PutnamBench, une référence pour la démonstration de théorèmes mathématiques avancés. Cette performance surpasse nettement les systèmes de ByteDance et d'autres concurrents.
Logical Intelligence déploie déjà Aleph dans des flux de travail de vérification en production, notamment en collaboration avec les bibliothèques cryptographiques de la Fondation Ethereum. Cette transition de la preuve de concept académique à la vérification de qualité industrielle pour les infrastructures critiques montre qu'un nouveau marché émerge. Les entreprises ne construisent pas l'IA seulement pour générer du code, mais pour prouver qu'il est correct avant même qu'il n'atteigne un environnement de production où les défaillances ont des conséquences réelles.
Pour les investisseurs, l'idée clé est que la capacité à générer des résultats prouvablement corrects est une exigence fondamentale pour l'extension de l'IA dans les systèmes critiques. Ce changement répond directement à la principale faiblesse des modèles génératifs actuels : leur tendance à la fabulation sous pression. Si l'exploit d'Alphabet (GOOGL) avec AlphaProof Nexus renforce son leadership dans la recherche en IA, l'émergence de firmes spécialisées comme Logical Intelligence indique qu'une nouvelle couche d'infrastructure pour une « IA vérifiée » est en cours de construction. Cette technologie sera essentielle pour toute industrie, de la finance à l'énergie, qui ne peut se permettre d'avoir tort.
Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.