La inferencia de IA reforma la demanda de memoria, creando 2 nuevos mercados de crecimiento

El cambio del entrenamiento de IA a la inferencia está reformando la industria de la memoria de maneras que se extienden mucho más allá de la HBM, con la descarga de KV cache y las cargas de trabajo de IA agéntica creando dos mercados de crecimiento distintos para SSD empresariales y LPDRAM.

"El sistema de memoria de la IA transformará completamente los sistemas de almacenamiento", dijo Jensen Huang, fundador y director ejecutivo de Nvidia, en la conferencia GTC Taipei en junio de 2026, calificando la infraestructura de memoria como una de las partes más desafiantes del stack de IA.

El cambio estructural está impulsado por dos fuerzas. En primer lugar, las cargas de trabajo de inferencia están generando una explosión en la demanda de KV cache (la memoria dinámica que almacena vectores clave-valor durante la fase de prellenado para evitar cómputos redundantes durante la decodificación). Los datos de Nvidia muestran que el promedio de tokens de salida por consulta se ha disparado más de cinco veces anualmente desde la segunda mitad de 2024, alcanzando aproximadamente 30,000 a 40,000 tokens. Cuando la capacidad de HBM de la GPU se agota, los sistemas deben descartar la caché y recomputar, elevando la latencia y el costo total de propiedad.

Para resolver esto, Nvidia lanzó el software Dynamo en marzo de 2025, que descarga la KV cache a la que se accede con menos frecuencia a niveles de memoria más económicos, incluyendo DRAM de CPU y SSD. En enero de 2026, la compañía lanzó la Plataforma de Almacenamiento de Memoria de Contexto CMX, gestionada por el DPU BlueField-4. Cada rack utiliza 64 DPU BlueField-4 para gestionar aproximadamente 9,600 terabytes de capacidad, insertando una nueva capa de almacenamiento de contexto a nivel de pod "G3.5" entre el SSD local y el almacenamiento compartido. En Computex 2026, el modelo estructural del DPU BlueField-4 de Nvidia ya contenía muestras de SSD SK Hynix PEB210 E1.S y PE9010 M.2, señalando que el submercado de SSD POD está pasando del concepto al hardware.

La IA Agéntica Reforma la Demanda de Memoria de CPU

El segundo impulsor es la IA agéntica, donde los modelos deben planificar activamente, llamar herramientas, tomar decisiones y ejecutar bucles de agente (todas tareas manejadas por la CPU). Huang ha dicho que los agentes viven en un mundo de escala nanosegundos donde la latencia ultrabaja es primordial, elevando la importancia de la arquitectura de CPU.

TrendForce estima que, a medida que se escalan los despliegues de IA agéntica, la relación de carga de trabajo CPU-GPU pasará del tradicional 1:4 o 1:8 hacia aproximadamente 1:1, creando una demanda incremental significativa de memoria conectada a la CPU. La CPU Vera de Nvidia, lanzada en 2026 para cargas de trabajo agénticas, soporta hasta 1.5 terabytes de LPDDR5X (tres veces la capacidad de su predecesora Grace).

Sin embargo, TrendForce informó que Nvidia ha reducido a la mitad la capacidad de memoria SOCAMM en el módulo superchip Vera Rubin de próxima generación, citando una capacidad insuficiente de LPDRAM asignada a Nvidia en los planes preliminares de producción de los proveedores para 2027. El ajuste refleja restricciones de oferta a corto plazo más que una reducción en la demanda general de memoria de Nvidia.

El mercado más amplio de CPU está experimentando su propia renovación generacional para la IA agéntica. Intel lanzó Xeon 6+ (Clearwater Forest), AMD lanzó EPYC Venice, Arm presentó la CPU Arm AGI, y se espera que AmpereOne MX de Ampere entre en producción este año. La competencia de múltiples proveedores está acelerando el crecimiento de la demanda de memoria de CPU en toda la industria.

Implicaciones de Inversión

Para los inversores en memoria, las dos tendencias apuntan a mercados de crecimiento más allá de la HBM. Los SSD empresariales están ganando un nuevo vector de demanda gracias a la descarga de KV cache, ya que Nvidia, Google y otros proveedores de plataformas implementan arquitecturas SSD POD. La LPDRAM está viendo una expansión estructural de la demanda desde el lado de la CPU, ya que la IA agéntica empuja las arquitecturas de servidores hacia configuraciones equilibradas de CPU-GPU.

La restricción de oferta señalada para la Vera Rubin de Nvidia sugiere que la capacidad de LPDRAM a corto plazo podría ser ajustada, beneficiando a los fabricantes de memoria establecidos, incluyendo SK Hynix, Samsung Electronics y Micron Technology, que controlan la mayor parte de la producción de LPDRAM. Para los fabricantes de SSD, la aparición de niveles de almacenamiento de contexto dedicados en la infraestructura de IA representa un mercado direccionable nuevo que no existía hace dos años.

Este artículo es únicamente con fines informativos y no constituye asesoramiento de inversión.