Tencent Hunyuan reduce el consumo de IA en un 75% con un nuevo algoritmo de atención dispersa

El equipo de inteligencia artificial Hunyuan de Tencent Holdings Ltd. desarrolló un algoritmo de atención dispersa que logra una precisión cercana a la de la atención densa utilizando un 75% menos de potencia de cálculo, lo que podría reducir los costos de inferencia para el razonamiento de contexto largo en millones de dólares anuales.

"Stem reexamina la dispersión a nivel de bloque desde la perspectiva del flujo de información causal, algo que los enfoques anteriores pasaban por alto", señaló el equipo de investigación de Tencent Hunyuan en un documento técnico que detalla el algoritmo.

El algoritmo introduce dos innovaciones: Token Position Decay, que pondera los tokens según su distancia en la secuencia, y Output-Aware Metric, que selecciona bloques de atención según su contribución a la salida final. A nivel de operador, los operadores HPC Stem+BSA de código abierto redujeron la latencia del primer token en 3,7 veces bajo una ventana de contexto de 128.000 tokens, según reportó el equipo.

Tencent, que cotiza a aproximadamente 20 veces las ganancias proyectadas, ha estado invirtiendo fuertemente en su modelo Hunyuan para competir con Qwen de Alibaba Group Holding Ltd., Ernie de Baidu Inc. y DeepSeek. Los menores costos de inferencia podrían mejorar los márgenes del negocio en la nube de Tencent y permitir funciones de IA más asequibles en WeChat, que cuenta con más de 1.300 millones de usuarios activos mensuales.

Se intensifica el panorama competitivo

Esta ganancia en eficiencia llega en un momento en que la carrera de modelos de IA en China entra en una fase de reducción de costos. El modelo V3 de DeepSeek, lanzado a finales de 2024, demostró que era posible lograr un rendimiento competitivo con una fracción del costo de entrenamiento de los modelos estadounidenses más avanzados. El algoritmo Stem de Tencent apunta al lado de la inferencia —el gasto recurrente de ejecutar modelos en producción— que representa entre el 60% y el 80% de los costos totales de carga de trabajo de IA para aplicaciones implementadas, según estimaciones de la industria.

El equipo de Qwen de Alibaba también ha publicado investigaciones sobre atención dispersa, mientras que Baidu ha optimizado su modelo Ernie para tareas de contexto largo. La decisión de Tencent de publicar los operadores HPC Stem+BSA como código abierto distingue su enfoque, permitiendo a los desarrolladores integrar las ganancias de eficiencia sin licencias propietarias.

Qué significa la reducción de latencia de 3,7 veces

Una reducción de 3,7 veces en la latencia del primer token bajo contextos de 128.000 tokens es significativa para aplicaciones en tiempo real. Para un agente de IA en WeChat que procesa una conversación larga de servicio al cliente, esto se traduce en que una respuesta comience en segundos en lugar de decenas de segundos. Analistas de Citi señalaron en una nota que TongchengTravel Holdings Ltd. podría beneficiarse de una posible colaboración estrecha con el agente de IA de WeChat de Tencent, reiterando una calificación de compra para la acción.

La ventana de contexto de 128.000 tokens es comparable a la que ofrecen los modelos líderes —GPT-4 Turbo de OpenAI admite 128.000 tokens, mientras que Claude 3.5 de Anthropic admite 200.000. El algoritmo de Tencent podría otorgar a Hunyuan una ventaja en costos en el segmento de contexto largo, donde los costos de inferencia se escalan de forma cuadrática con la longitud de la secuencia bajo la atención densa estándar.

Implicaciones de inversión

Para Tencent, el ahorro de costos se acumula en todo su ecosistema de IA. La empresa reportó ingresos en la nube de 53.300 millones de yuanes (7.400 millones de dólares) en el año fiscal 2024, con cargas de trabajo relacionadas con la IA como un componente creciente. Cada punto porcentual de reducción en el costo de inferencia mejora los márgenes en un negocio donde Tencent compite en precio con Alibaba Cloud y Huawei Cloud.

La estrategia de código abierto también tiene una lógica estratégica. Al publicar los operadores HPC públicamente, Tencent obtiene contribuciones de la comunidad y adopción en el ecosistema —los desarrolladores que construyen sobre infraestructura optimizada con Stem tienen más probabilidades de implementar los modelos Hunyuan. Esto refleja el enfoque de Meta Platforms Inc. con su serie de modelos Llama, que se ha convertido en la familia de IA de código abierto más ampliamente adoptada.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.