Tencent Hunyuan réduit la puissance de calcul IA de 75% avec un nouvel algorithme d'attention sparse

L'équipe Hunyuan AI de Tencent Holdings Ltd. a développé un algorithme d'attention sparse qui atteint une précision quasi-dense en utilisant 75% de puissance de calcul en moins, ce qui pourrait réduire les coûts d'inférence pour le raisonnement à long contexte de millions de dollars par an.

« Stem réexamine la sparsité au niveau des blocs du point de vue du flux d'information causal, que les approches antérieures avaient négligé », a déclaré l'équipe de recherche Tencent Hunyuan dans un document technique détaillant l'algorithme.

L'algorithme introduit deux innovations : le Token Position Decay, qui pondère les jetons en fonction de leur distance dans la séquence, et la Output-Aware Metric, qui sélectionne les blocs d'attention en fonction de leur contribution à la sortie finale. Au niveau de l'opérateur, les opérateurs HPC Stem+BSA open-sourcés ont réduit la latence du premier jeton de 3,7 fois dans une fenêtre de contexte de 128 000 jetons, a rapporté l'équipe.

Tencent, qui se négocie à environ 20 fois les bénéfices à terme, a investi massivement dans son modèle Hunyuan pour concurrencer Qwen d'Alibaba Group Holding Ltd., Ernie de Baidu Inc. et DeepSeek. La baisse des coûts d'inférence pourrait améliorer les marges de l'activité cloud de Tencent et permettre des fonctionnalités IA plus abordables sur WeChat, qui compte plus de 1,3 milliard d'utilisateurs actifs mensuels.

Le paysage concurrentiel s'intensifie

Ce gain d'efficacité survient alors que la course aux modèles d'IA en Chine entre dans une phase de réduction des coûts. Le modèle V3 de DeepSeek, publié fin 2024, a démontré qu'une performance compétitive était possible à une fraction du coût d'entraînement des modèles américains de pointe. L'algorithme Stem de Tencent cible le côté inférence — la dépense récurrente liée à l'exploitation des modèles en production — qui représente 60% à 80% des coûts totaux des charges de travail IA pour les applications déployées, selon les estimations du secteur.

L'équipe Qwen d'Alibaba a également publié des recherches sur l'attention sparse, tandis que Baidu a optimisé son modèle Ernie pour les tâches à long contexte. La décision de Tencent d'open-sourcer les opérateurs HPC Stem+BSA distingue son approche, permettant aux développeurs d'intégrer les gains d'efficacité sans licence propriétaire.

Ce que signifie la réduction de latence de 3,7x

Une réduction de 3,7 fois de la latence du premier jeton dans des contextes de 128 000 jetons est significative pour les applications en temps réel. Pour un agent IA WeChat traitant une longue conversation de service client, cela se traduit par une réponse commençant en secondes plutôt qu'en dizaines de secondes. Les analystes de Citi ont indiqué dans une note que TongchengTravel Holdings Ltd. pourrait bénéficier d'une collaboration potentielle étroite avec l'agent IA WeChat de Tencent, réitérant une note d'achat sur l'action.

La fenêtre de contexte de 128 000 jetons est comparable à ce qu'offrent les principaux modèles — le GPT-4 Turbo d'OpenAI prend en charge 128 000 jetons, tandis que le Claude 3.5 d'Anthropic en prend en charge 200 000. L'algorithme de Tencent pourrait donner à Hunyuan un avantage de coût dans le segment du long contexte, où les dépenses d'inférence augmentent de façon quadratique avec la longueur de la séquence sous une attention dense standard.

Implications pour les investisseurs

Pour Tencent, les économies de coûts se cumulent sur l'ensemble de son empreinte IA. La société a déclaré un chiffre d'affaires cloud de 53,3 milliards de yuans (7,4 milliards de dollars) pour l'exercice 2024, avec des charges de travail liées à l'IA comme composante croissante. Chaque point de pourcentage de réduction du coût d'inférence améliore les marges dans une activité où Tencent concurrence Alibaba Cloud et Huawei Cloud sur les prix.

La stratégie open-source comporte également une logique stratégique. En publiant publiquement les opérateurs HPC, Tencent gagne des contributions de la communauté et une adoption dans l'écosystème — les développeurs qui construisent sur une infrastructure optimisée par Stem sont plus susceptibles de déployer des modèles Hunyuan. Cette approche reflète celle de Meta Platforms Inc. avec sa série de modèles Llama, devenue la famille open-source d'IA la plus largement adoptée.

Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.