Cosmos 3 de Nvidia marque l'entrée du fabricant de puces dans les modèles d'IA fondamentaux pour la robotique, combinant le raisonnement visuel à la génération multimodale.
Cosmos 3 de Nvidia, le premier omnimodèle entièrement ouvert pour l'IA physique, propulse l'entreprise au-delà du matériel GPU dans le territoire des modèles de fondation, avec une architecture mixture-of-transformers pour la simulation du monde et la robotique.
« Cosmos 3 est un modèle de fondation d'IA physique ouvert et leader du classement, construit sur une architecture révolutionnaire mixture-of-transformers qui unifie la vision, le langage et l'action », a déclaré l'entreprise dans son annonce du 1er juin.
Le modèle prend en charge le raisonnement visuel natif et génère des sorties textuelles, imagées, vidéo, sonores ambiantes et d'action pour la création de données synthétiques et le développement de politiques d'IA physique. Nvidia a également dévoilé Alpamayo 2 Super, un modèle ouvert de raisonnement vision-langage-action de 32 milliards de paramètres, ainsi qu'une suite de compétences d'agents d'IA physique open source couvrant ses plateformes Omniverse, Cosmos et Metropolis.
Cette expansion dans les modèles de fondation positionne Nvidia pour capter de la valeur au-delà de son activité de GPU pour centres de données, qui a généré 62 milliards de dollars de revenus au cours de l'exercice fiscal 2025. L'IA physique — incluant les véhicules autonomes, la robotique d'entrepôt et l'automatisation industrielle — représente un nouveau marché adressable qui pourrait justifier le multiple de bénéfices à 35 fois de l'entreprise si Cosmos devient la plateforme standard pour le développement robotique.
L'architecture mixture-of-transformers qui sous-tend Cosmos 3 constitue une rupture technique par rapport aux précédents modèles d'IA de Nvidia. Contrairement aux grands modèles de langage qui traitent le texte de manière séquentielle, Cosmos 3 traite simultanément les données de vision, de langage et d'action, lui permettant de simuler des interactions physiques — une capacité essentielle pour former des robots et des systèmes autonomes sans essais-erreurs dans le monde réel.
La stratégie de publication open source reflète l'approche de Meta avec sa famille de modèles de langage Llama, positionnant Cosmos 3 comme un standard potentiel pour la recherche et le développement en robotique. En rendant le modèle librement accessible, Nvidia cherche à bâtir un réseau de développeurs et d'entreprises qui dépendent de son matériel pour l'entraînement et l'inférence, créant ainsi un fossé logiciel autour de son activité GPU.
Les enjeux concurrentiels dépassent les rivaux immédiats de Nvidia dans le domaine des puces. Tesla développe ses propres modèles d'IA pour la conduite autonome et la robotique humanoïde, tandis que Google DeepMind a massivement investi dans la simulation du monde physique via ses plateformes MuJoCo et Gemini. Amazon, via sa division robotique, représente à la fois un client potentiel et un concurrent dans l'automatisation des entrepôts.
Pour les investisseurs, la question est de savoir si Cosmos 3 peut traduire l'adoption par le réseau en demande de GPU. Chaque session d'entraînement d'IA physique nécessite des milliers de GPU Nvidia — une seule session d'entraînement d'un modèle robotique peut consommer 10 000 à 25 000 GPU équivalents H100 pendant des semaines. Si Cosmos 3 devient la plateforme par défaut pour le développement de l'IA physique, cela pourrait stimuler un nouveau cycle de dépenses d'investissement dans les centres de données, au-delà du déploiement actuel des grands modèles de langage.
Les actions Nvidia ont gagné 140 % au cours des 12 derniers mois, portées par les dépenses d'infrastructure IA de Microsoft, Amazon et Google. Le lancement de Cosmos 3 étend le récit au-delà des GPU pour centres de données vers la robotique et l'IA physique, un marché qu'ARK Invest estime pouvoir atteindre 24 000 milliards de dollars de revenus mondiaux d'ici 2040.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.