Cosmos 3 de Nvidia marca la entrada del fabricante de chips en los modelos fundacionales de IA para robótica, combinando razonamiento visual con generación multimodal.
Cosmos 3 de Nvidia, el primer omni-modelo completamente abierto para IA física, lleva a la compañía más allá del hardware de GPU hacia el territorio de los modelos fundacionales, con una arquitectura de mezcla de transformadores para simulación del mundo real y robótica.
"Cosmos 3 es un modelo fundacional de IA física abierto que lidera los rankings, construido sobre una arquitectura innovadora de mezcla de transformadores que unifica visión, lenguaje y acción", afirmó la compañía en su anuncio del 1 de junio.
El modelo admite razonamiento visual nativo y genera salidas de texto, imagen, video, sonido ambiental y acción para la creación de datos sintéticos y el desarrollo de políticas de IA física. Nvidia también lanzó Alpamayo 2 Super, un modelo abierto de razonamiento visión-lenguaje-acción con 32 mil millones de parámetros, junto con un conjunto de habilidades de agentes de IA física de código abierto que abarcan sus plataformas Omniverse, Cosmos y Metropolis.
La expansión hacia modelos fundacionales posiciona a Nvidia para capturar valor más allá de su negocio de GPU para centros de datos, que generó 62 mil millones de dólares en ingresos en el año fiscal 2025. La IA física —que abarca vehículos autónomos, robótica en almacenes y automatización industrial— representa un nuevo mercado direccionable que podría justificar el múltiplo de ganancias futuras de 35x de la compañía si Cosmos se convierte en la plataforma estándar para el desarrollo robótico.
La arquitectura de mezcla de transformadores que sustenta a Cosmos 3 representa una desviación técnica respecto a los modelos anteriores de IA de Nvidia. A diferencia de los grandes modelos de lenguaje que procesan texto de forma secuencial, Cosmos 3 procesa simultáneamente datos de visión, lenguaje y acción, lo que le permite simular interacciones físicas del mundo real —una capacidad necesaria para entrenar robots y sistemas autónomos sin necesidad de prueba y error en el mundo físico.
La estrategia de lanzamiento de código abierto refleja el enfoque de Meta con su familia de modelos de lenguaje Llama, posicionando a Cosmos 3 como un posible estándar para la investigación y el desarrollo en robótica. Al hacer que el modelo esté disponible gratuitamente, Nvidia busca construir una red de desarrolladores y empresas que dependan de su hardware para entrenamiento e inferencia, creando un foso de software en torno a su negocio de GPU.
Los desafíos competitivos se extienden más allá de los rivales inmediatos de Nvidia en chips. Tesla está desarrollando sus propios modelos de IA para conducción autónoma y robótica humanoide, mientras que Google DeepMind ha invertido fuertemente en simulación del mundo físico a través de sus plataformas MuJoCo y Gemini. Amazon, a través de su división de robótica, representa otro posible cliente y competidor en la automatización de almacenes.
Para los inversores, la pregunta es si Cosmos 3 puede traducir la adopción de la red en demanda de GPU. Cada ejecución de entrenamiento de IA física requiere miles de GPU de Nvidia —una sola sesión de entrenamiento de un modelo robótico puede consumir entre 10,000 y 25,000 GPU equivalentes a H100 durante semanas. Si Cosmos 3 se convierte en la plataforma predeterminada para el desarrollo de IA física, podría impulsar un nuevo ciclo de gasto de capital en centros de datos más allá del actual desarrollo de grandes modelos de lenguaje.
Las acciones de Nvidia han subido un 140% en los últimos 12 meses, impulsadas por el gasto en infraestructura de IA de Microsoft, Amazon y Google. El lanzamiento de Cosmos 3 extiende la narrativa más allá de las GPU para centros de datos hacia la robótica y la IA física, un mercado que ARK Invest estima podría alcanzar los 24 billones de dólares en ingresos globales para 2040.
Este artículo es solo con fines informativos y no constituye asesoramiento de inversión.