OpenAI réduit de 50 % les coûts d'inférence grâce à de nouvelles techniques d'optimisation

Des ingénieurs d'OpenAI ont informé leurs collègues plus tôt ce mois-ci qu'ils avaient développé un ensemble de techniques d'optimisation capables de réduire de plus de 50 % les coûts d'inférence des modèles, selon une personne proche du dossier, qui s'est exprimée sous couvert d'anonymat car les détails n'ont pas encore été rendus publics.

"Il s'agit d'un changement radical dans l'efficacité de l'inférence qui attaque directement le plus grand coût de la fourniture d'IA à grande échelle", a déclaré cette personne.

Cette avancée cible les goulots d'étranglement computationnels qui rendent les grands modèles de langage coûteux à exploiter. L'inférence — le processus de génération de réponses à partir d'un modèle entraîné — représente la majeure partie des dépenses opérationnelles des fournisseurs de services d'IA, les coûts augmentant directement avec le volume d'utilisation. Les nouvelles techniques d'OpenAI combinent plusieurs approches novatrices pour réduire le calcul requis par requête, a indiqué la source, sans divulguer la méthodologie spécifique ni le calendrier de déploiement en production. The Information a rapporté l'information en premier.

Ce gain d'efficacité pourrait réduire les coûts d'infrastructure cloud d'OpenAI de plusieurs centaines de millions de dollars par an, ce qui permettrait potentiellement à l'entreprise de baisser ses prix d'API et de faire pression sur ses concurrents — notamment Anthropic, Google et les laboratoires chinois qui publient des modèles rivaux à un coût quasi nul — pour qu'ils alignent leur économie. Les modèles les plus performants d'OpenAI coûtent actuellement plusieurs dollars par million de tokens d'entrée, un prix qui limite leur adoption pour les applications à volume élevé.

Ce développement intervient à un moment crucial pour l'industrie de l'IA. Les coûts d'inférence sont devenus le principal obstacle à l'adoption généralisée par les entreprises, les sociétés citant les dépenses comme leur préoccupation majeure lors du déploiement d'applications d'IA. Une réduction de 50 % rapprocherait le coût par token des modèles les plus performants d'OpenAI de celui de ses offres plus petites, élargissant l'éventail des cas d'utilisation où l'IA est économiquement viable — du service client en temps réel au traitement de documents à grande échelle.

Pour OpenAI, le timing est stratégique. L'entreprise est en pleine expansion massive de son infrastructure, consacrant des milliards de dollars à la capacité des centres de données et aux puces sur mesure. Plus tôt ce mois-ci, OpenAI et Broadcom ont dévoilé Jalapeno, une puce d'inférence IA personnalisée conçue pour défier la domination de Nvidia dans le calcul des centres de données. La combinaison d'un matériel sur mesure et d'une optimisation au niveau logiciel pourrait donner à OpenAI un avantage structurel en termes de coûts par rapport à ses rivaux qui dépendent des GPU polyvalents de Nvidia, lesquels affichent actuellement des marges brutes supérieures à 70 %. Les puces H100 et B200 de Nvidia restent la référence du secteur pour l'inférence, mais les circuits intégrés spécifiques à une application sont de plus en plus considérés comme une voie vers un meilleur rapport performance-prix.

La dynamique concurrentielle évolue rapidement. Des laboratoires chinois, dont DeepSeek et l'équipe Qwen d'Alibaba, ont publié des modèles qui rivalisent avec les offres occidentales à une fraction du coût, ce qui pousse OpenAI et Anthropic à justifier leurs prix élevés. Le dernier modèle de DeepSeek atteindrait des performances comparables à celles des modèles de la classe GPT-4 pour environ un dixième du coût d'inférence. Google, de son côté, investit massivement dans ses propres unités de traitement tensoriel personnalisées pour réduire les coûts de service de ses modèles Gemini. La percée d'OpenAI en matière de coûts d'inférence permettrait de combler l'écart avec ces alternatives low-cost, préservant potentiellement sa capacité à facturer des prix plus élevés pour des performances supérieures tout en offrant une économie compétitive.

Les techniques d'optimisation arrivent également alors qu'OpenAI fait l'objet d'une surveillance croissante concernant ses dépenses. L'entreprise brûle ses liquidités à un rythme rapide pour financer l'entraînement des modèles et l'infrastructure, et les investisseurs ont réclamé une voie plus claire vers la rentabilité. Réduire les coûts d'inférence de moitié améliorerait directement les marges brutes sur les revenus d'API, un indicateur clé pour la santé financière de l'entreprise.

Pour les investisseurs, les implications sont doubles. La baisse des coûts d'inférence élargit le marché total adressable de l'IA en la rendant économique pour davantage de cas d'utilisation — un point positif pour l'ensemble du secteur. Mais elle comprime également les marges des fournisseurs de modèles d'IA qui ne peuvent pas égaler ces gains d'efficacité. Nvidia, dont les GPU alimentent la majorité des charges de travail d'inférence IA, pourrait faire face à des vents contraires si les puces personnalisées et l'optimisation logicielle réduisent le calcul requis par requête. La valorisation d'OpenAI, récemment estimée à 300 milliards de dollars, serait soutenue par une amélioration démontrable de l'économie unitaire. Microsoft, le plus grand investisseur et partenaire cloud d'OpenAI, bénéficierait de services d'IA à moindre coût fonctionnant sur Azure, accélérant potentiellement l'adoption de ses produits Copilot auprès des clients entreprises. Le marché n'a pas encore intégré ces gains d'efficacité, les techniques restant non divulguées et non vérifiées par des benchmarks indépendants.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.