L'écart entre les modèles d'IA de pointe chinois et américains s'est réduit à des mois, et non plus des années, alors que les systèmes open-weight de Zhipu et DeepSeek affichent des scores de référence à portée des meilleurs modèles fermés.
L'écart entre les modèles d'IA de pointe chinois et américains s'est réduit à des mois, et non plus des années, alors que les systèmes open-weight de Zhipu et DeepSeek affichent des scores de référence à portée des meilleurs modèles fermés.

L'écart entre les modèles d'IA de pointe chinois et américains s'est réduit à des mois, et non plus des années, alors que les systèmes open-weight de Zhipu et DeepSeek affichent des scores de référence à portée des meilleurs modèles fermés.
Elon Musk a prédit que les grands modèles de langage chinois pourraient atteindre la parité avec Fable d'Anthropic d'ici le premier trimestre 2027, répondant à un message sur les réseaux sociaux concernant le GLM-5.2 de Zhipu AI qui réduit l'écart. Demis Hassabis, PDG de Google DeepMind, a également déclaré que les modèles d'IA chinois pourraient n'être « qu'à quelques mois de retard » par rapport à leurs homologues étrangers, selon des propos antérieurs cités par les médias d'État chinois.
« Ce qui frappe, c'est le rythme d'amélioration », a déclaré Rachel Kim, analyste chez Edgen, qui suit les infrastructures d'IA. « Les laboratoires chinois compressent en trimestres ce qui prenait autrefois des années, et ils le font sur du silicium domestique. »
Zhipu AI a publié GLM-5.2 le 16 juin sous licence MIT, le rendant librement disponible pour un usage commercial. Le modèle obtient un score de 81,0 sur Terminal-Bench 2.1, contre 62,0 pour GLM-5.1 — soit un bond de 31 % en une seule version mineure. Sur SWE-bench Pro, il atteint 62,1, dépassant GPT-5.5, et talonne Opus 4.8 d'Anthropic d'un seul point sur FrontierSWE. Le modèle dispose d'une fenêtre contextuelle d'un million de jetons et coûte environ un sixième du prix par jeton des principaux modèles fermés américains.
Le V4-Pro de DeepSeek, un modèle mixture-of-experts de 1,6 billion de paramètres qui en active 49 milliards par jeton, affiche 80,6 % sur SWE-bench Verified. À environ 87 cents par million de jetons en sortie, il coûte environ un trentième du prix des modèles de pointe. Les poids sont ouverts. La famille Qwen d'Alibaba a franchi le cap du milliard de téléchargements sur Hugging Face en janvier, dépassant Llama de Meta en tant que famille de modèles ouverts la plus téléchargée au monde.
Trois versions, quatre mois
Le rythme des publications de modèles chinois illustre cette accélération. GLM-5 est arrivé en février. GLM-5.1 a suivi en mars, faisant passer son score interne de codage de 35,4 à 45,3 — soit une amélioration de 28 %. GLM-5.2 est arrivé en juin, doublant presque à nouveau le résultat de Terminal-Bench. Chaque étape a été entraînée sur du silicium chinois, certaines indications suggérant que l'ensemble de la pile est désormais exempt de Nvidia.
En 2023, les modèles ouverts accusaient un retard de deux ans sur la frontière fermée. En 2024, cet écart s'est réduit à un an. En 2025, six mois. Aujourd'hui, sur les benchmarks qui comptent pour le travail d'ingénierie, l'écart se mesure en semaines.
Où va la valeur ensuite
À mesure que les poids des modèles se rapprochent d'un prix de commodité, l'économie se déplace vers l'inférence et l'infrastructure. L'inférence représente désormais environ les deux tiers de tous les calculs d'IA, contre un tiers en 2023, selon les estimations du secteur. Nebius Group rapporte qu'un client a réduit ses coûts d'inférence de 26 fois en utilisant des modèles ouverts sur sa plateforme. Cloudflare sert désormais plus de 70 modèles depuis son réseau périphérique.
Le PDG de Microsoft, Satya Nadella, a décrit ce changement dans un essai du 14 juin, arguant que les entreprises doivent constituer à la fois un « capital humain » et un « capital de jetons » — la capacité d'IA qu'elles possèdent plutôt qu'elles ne louent. Son avertissement au personnel : éviter d'acheminer chaque tâche via un modèle de pointe coûteux quand un modèle spécialisé moins cher suffirait.
Pour les investisseurs, le rétrécissement de l'écart soulève des questions sur les 176 milliards de dollars de potentielle sous-estimation des amortissements dans le secteur des centres de données que Michael Burry a signalés. Si des modèles de niveau frontalier fonctionnent sur un bureau DGX Spark à 4 700 dollars — la machine Grace Blackwell de Nvidia avec 128 gigaoctets de mémoire unifiée — la courbe de demande centralisée d'inférence qui sous-tend les calendriers d'amortissement sur cinq ans pourrait croître plus lentement que ne le suggèrent les tableurs. Environ la moitié des centres de données américains prévus pour 2026 sont déjà confrontés à des retards ou des annulations, et les marchés de prédiction estiment à environ une chance sur trois la probabilité d'un moratoire fédéral sur les incitations aux grands centres de données avant 2027.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.