Ingenieros de OpenAI han encontrado la forma de reducir en más de la mitad los costos de inferencia de modelos de IA, redefiniendo la economía de la industria.
Ingenieros de OpenAI han encontrado la forma de reducir en más de la mitad los costos de inferencia de modelos de IA, redefiniendo la economía de la industria.

Ingenieros de OpenAI informaron a sus colegas a principios de este mes que habían desarrollado un conjunto de técnicas de optimización capaces de reducir los costos de inferencia de modelos en más de un 50%, según una persona familiarizada con las discusiones, previamente no divulgadas.
"Este es un cambio radical en la eficiencia de inferencia que ataca directamente el mayor costo de operar IA a escala", dijo la persona, que habló bajo condición de anonimato porque los detalles no se han hecho públicos.
El avance apunta a los cuellos de botella computacionales que hacen costosa la operación de los grandes modelos de lenguaje. La inferencia —el proceso de generar respuestas a partir de un modelo entrenado— representa la mayor parte de los gastos operativos de los proveedores de servicios de IA, con costos que escalan directamente con el volumen de uso. Las nuevas técnicas de OpenAI combinan varios enfoques novedosos para reducir la computación requerida por consulta, dijo la persona, sin revelar la metodología específica ni un cronograma para su implementación en producción. The Information fue el primer medio en reportar el desarrollo.
La ganancia en eficiencia podría reducir los costos de computación en la nube de OpenAI en cientos de millones de dólares anuales, lo que potencialmente le permitiría reducir los precios de su API y presionar a competidores —incluyendo a Anthropic, Google y laboratorios chinos que lanzan modelos rivales a costo casi cero— para que igualen las economías. Los modelos más capaces de OpenAI cuentan actualmente varios dólares por millón de tokens de entrada, un precio que limita la adopción en aplicaciones de alto volumen.
El desarrollo llega en un momento crítico para la industria de la IA. Los costos de inferencia se han convertido en la mayor barrera para la adopción empresarial generalizada, y las compañías citan el gasto como una de las principales preocupaciones al implementar aplicaciones de IA. Una reducción del 50% acercaría el costo por token de ejecución de los modelos más potentes de OpenAI a la economía de sus ofertas más pequeñas, expandiendo la gama de casos de uso donde la IA es económicamente viable —desde atención al cliente en tiempo real hasta procesamiento de documentos a escala.
Para OpenAI, el momento es estratégico. La empresa está en medio de un enorme despliegue de infraestructura, gastando miles de millones en capacidad de centros de datos y silicio personalizado. A principios de este mes, OpenAI y Broadcom presentaron Jalapeno, un chip de inferencia de IA personalizado diseñado para desafiar el dominio de Nvidia en la computación de centros de datos. La combinación de hardware personalizado y optimización a nivel de software podría otorgar a OpenAI una ventaja estructural en costos frente a rivales que dependen de las GPU de propósito general de Nvidia, las cuales actualmente mantienen márgenes brutos superiores al 70%. Los chips H100 y B200 de Nvidia siguen siendo el estándar de la industria para inferencia, pero los circuitos integrados de aplicación específica (ASIC) personalizados se ven cada vez más como una vía hacia una mejor relación precio-rendimiento.
La dinámica competitiva está cambiando rápidamente. Laboratorios chinos, incluyendo DeepSeek y el equipo Qwen de Alibaba, han lanzado modelos que rivalizan con las ofertas occidentales a una fracción del costo, presionando a OpenAI y Anthropic para que justifiquen sus precios premium. Se informa que el modelo más reciente de DeepSeek logra un rendimiento comparable al de los modelos de clase GPT-4 a aproximadamente una décima parte del costo de inferencia. Google, por su parte, ha estado invirtiendo fuertemente en sus propias unidades de procesamiento tensorial (TPU) personalizadas para reducir los costos de servicio de sus modelos Gemini. El avance en los costos de inferencia de OpenAI ayudaría a cerrar la brecha con estas alternativas de bajo costo, preservando potencialmente su capacidad de cobrar precios más altos por un rendimiento superior, mientras aún ofrece una economía competitiva.
Las técnicas de optimización también llegan en un momento en que OpenAI enfrenta un creciente escrutinio sobre su gasto. La empresa está quemando efectivo a un ritmo acelerado para financiar el entrenamiento de modelos y la infraestructura, y los inversores han presionado por un camino más claro hacia la rentabilidad. Reducir los costos de inferencia a la mitad mejoraría directamente los márgenes brutos de los ingresos por API, un indicador clave para la salud financiera de la compañía.
Para los inversores, las implicaciones tienen un doble filo. Los menores costos de inferencia expanden el mercado total direccionable para la IA al hacerla económica para más casos de uso —un factor positivo para toda la industria. Pero también comprimen los márgenes de los proveedores de modelos de IA que no puedan igualar las ganancias de eficiencia. Nvidia, cuyas GPU alimentan la mayoría de las cargas de trabajo de inferencia de IA, podría enfrentar vientos en contra si los chips personalizados y la optimización de software reducen la computación requerida por consulta. La valoración de OpenAI, recientemente reportada en 300 mil millones de dólares, se vería respaldada por una mejora demostrable en la economía unitaria. Microsoft, el mayor inversor y socio en la nube de OpenAI, se beneficiaría de servicios de IA de menor costo ejecutándose en Azure, lo que potencialmente aceleraría la adopción de sus productos Copilot entre los clientes empresariales. El mercado aún no ha descontado estas ganancias de eficiencia, ya que las técnicas permanecen no divulgadas y no verificadas por evaluaciones independientes.
Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.