Xiaomi supera los 1.000 tokens por segundo en un modelo de IA de un billón de parámetros

El MiMo-V2.5-Pro-UltraSpeed de Xiaomi supera los 1.000 tokens por segundo en GPU estándar — 15 veces más rápido que GPT-5.5 — usando solo software.

El MiMo-V2.5-Pro-UltraSpeed de Xiaomi supera los 1.000 tokens por segundo en un único nodo comercial de 8 GPU, 15 veces más rápido que GPT-5.5, sin utilizar silicio personalizado, un hito que redefine las suposiciones sobre el costo de inferencia y la accesibilidad.

"El codiseño extremo entre modelo y sistema es lo que hace esto posible", dijo la compañía en su anuncio. Según Artificial Analysis, GPT-5.5 funciona a 68 tokens por segundo y Claude Opus 4.6 a 71, mientras que MiMo-V2.5-Pro iguala a Opus en benchmarks de programación.

La velocidad proviene de dos técnicas coordinadas. La cuantización FP4 reduce las capas de expertos del modelo — la mayor parte de su billón de parámetros — a precisión de 4 bits, reduciendo la huella de memoria mientras mantiene la pérdida de calidad cercana a cero. La decodificación especulativa DFlash completa un bloque completo de posiciones enmascaradas en una sola pasada hacia adelante, aceptando el modelo 6.3 de cada 8 tokens propuestos por ronda de verificación en tareas de programación. TileRT, el motor de inferencia, mantiene todo el pipeline residente dentro de la GPU, eliminando la sobrecarga de lanzamiento por operador.

Cerebras alcanzó 969 tokens por segundo en Meta Llama 3.1 405B — un modelo de menos de la mitad de tamaño — utilizando un chip a escala de oblea del tamaño de un plato. La arquitectura LPU personalizada de Groq alcanza un máximo de 300 a 750 tokens por segundo. Ninguno funciona con hardware disponible en proveedores de nube estándar. El enfoque de Xiaomi sí lo hace, y a 3 veces la tarifa estándar de MiMo por aproximadamente 10 veces la velocidad de generación. La prueba de API se realizará del 9 al 23 de junio.

El logro trasciende la cifra bruta. A 1.000 tokens por segundo, las aplicaciones con restricciones estrictas de latencia — detección de fraude, señales de trading en tiempo real, cadenas de razonamiento en paralelo, bucles de agentes en vivo — se vuelven viables donde 68 tokens por segundo no podían satisfacerlas. MiMo-V2.5-Pro ya igualaba a Claude Opus en la mayoría de los benchmarks de programación a una fracción del costo: aproximadamente $0.43 de entrada y $0.87 de salida por millón de tokens, en comparación con Opus a $5 y $25, respectivamente.

El enfoque técnico es notable por lo que no requiere. Cerebras diseñó un chip a escala de oblea con 44 GB de memoria integrada para eliminar el cuello de botella de ancho de banda que ralentiza la inferencia en GPU. Groq construyó una Unidad de Procesamiento de Lenguaje personalizada. Xiaomi utilizó GPU comerciales — el mismo hardware disponible en AWS — y resolvió el problema mediante optimización a nivel de modelo y un motor de inferencia diseñado a propósito.

La cuantización FP4 es quirúrgica: solo se comprimen las capas de expertos, mientras que todo lo demás se mantiene con precisión completa. DFlash omite el paso de redacción secuencial utilizado en la decodificación especulativa estándar, proponiendo un bloque completo de tokens a la vez. TileRT los une manteniendo el pipeline de cómputo continuamente residente, eliminando los vacíos de ejecución que normalmente ralentizan la generación.

Xiaomi (01810.HK) ha estado desarrollando capacidades de IA en gran medida fuera del foco de la industria. MiMo-V2.5-Pro se lanzó en abril igualando a los modelos frontera en benchmarks a una fracción de su costo. UltraSpeed acelera ese mismo modelo — no una versión reducida — y el checkpoint FP4-DFlash ya se ha publicado como código abierto en Hugging Face para pruebas de la comunidad.

Si los benchmarks independientes confirman las afirmaciones de velocidad, Xiaomi habrá logrado lo que requirió cientos de millones en inversión en silicio personalizado de Cerebras y Groq, utilizando software en hardware estándar. Esto cambia el cálculo sobre qué empresas pueden implementar modelos de un billón de parámetros en producción — y a qué costo.

Este artículo es solo con fines informativos y no constituye asesoramiento de inversión.