0G, en collaboration avec China Mobile, a entraîné un modèle d'IA à 107 milliards de paramètres en utilisant une infrastructure décentralisée, marquant la première fois qu'un modèle de plus de 100 milliards de paramètres est développé sans clusters de centres de données centralisés.
« L'entraînement décentralisé à cette échelle prouve que le développement de grands modèles ne nécessite plus un accès exclusif aux fermes de GPU hyperscale », a déclaré Michael Heinrich, cofondateur de 0G Labs. « Les opérateurs télécoms disposant de capacités de calcul sous-utilisées peuvent désormais participer à la chaîne d'approvisionnement de l'IA. »
Le modèle a été entraîné à l'aide du framework d'entraînement décentralisé de 0G, qui intègre la méthode DiLoCoX — une technique capable d'entraîner des models jusqu'à 357 fois plus rapidement que les approches décentralisées précédentes, même sur des réseaux disposant d'à peine un gigaoctet de bande passante, selon les recherches de 0G Labs. En répartissant la charge de calcul sur l'infrastructure existante de China Mobile plutôt que sur un seul centre de données, le projet a contourné le goulot d'étranglement traditionnel des clusters de GPU centralisés qui ont limité le développement de l'IA à une poignée d'hyperscalers.
Pourquoi l'entraînement décentralisé est important pour l'IA en entreprise
Cette réalisation répond à un problème structurel de l'industrie de l'IA : l'entraînement de grands modèles a nécessité d'importantes dépenses d'investissement initiales dans des clusters de GPU, excluant ainsi toutes les entreprises sauf les plus riches. L'entraînement décentralisé inverse ce modèle en traitant toute puissance de calcul connectée au réseau comme un nœud d'entraînement potentiel. Pour les opérateurs télécoms comme China Mobile, qui exploitent une vaste infrastructure de calcul souvent inutilisée sur l'ensemble de leur réseau, cela crée une nouvelle source de revenus à partir d'actifs existants.
L'approche réduit également la dépendance aux GPU H100 et B200 de Nvidia, qui ont été confrontés à des contraintes d'approvisionnement et à des contrôles à l'exportation. En agrégeant des ressources de calcul hétérogènes sur un réseau distribué, le framework de 0G peut entraîner des modèles en utilisant une combinaison de types de matériel plutôt que d'exiger des clusters de GPU uniformes. Cela pourrait atténuer la pression sur le marché des GPU pour centres de données, estimé à 200 milliards de dollars, où les délais de livraison des dernières puces de Nvidia dépassent les 12 mois.
Cependant, la préparation des données reste un obstacle. Gartner estime que jusqu'à 60 % des projets d'IA pourraient être abandonnés d'ici 2026 en raison de données fragmentées ou cloisonnées, un problème que l'entraînement décentralisé seul ne résout pas. Les entreprises qui souhaitent adopter cette approche doivent d'abord unifier leur infrastructure de données avant de bénéficier du calcul distribué.
Implications concurrentielles pour la pile d'infrastructure IA
Le jalon 0G-China Mobile remet en question le modèle d'entraînement centralisé défendu par Nvidia et les principaux fournisseurs de cloud. Si l'entraînement décentralisé gagne en adoption, il pourrait déplacer les schémas d'approvisionnement des offres de GPU-as-a-service des hyperscalers vers un marché plus fragmenté où les opérateurs télécoms et les fournisseurs de périphérie monétisent leur capacité excédentaire.
Bittensor et Render Network, deux projets qui tokenisent les ressources de calcul, pourraient voir leur demande augmenter à mesure que les entreprises explorent des alternatives décentralisées. La capacité à entraîner des modèles sur une infrastructure distribuée s'aligne également avec la pression réglementaire croissante dans des régions comme l'Union européenne et la Chine, où les exigences de souveraineté des données rendent difficile l'entraînement centralisé transfrontalier.
Pour les investisseurs, ce développement introduit une nouvelle variable dans la thèse de l'infrastructure IA. Le chiffre d'affaires des centres de données de Nvidia, qui a atteint 47,5 milliards de dollars au cours de son dernier exercice fiscal, a été construit sur l'hypothèse que l'entraînement de grands modèles nécessite des clusters de GPU concentrés. Si les méthodes décentralisées s'avèrent viables à grande échelle, le marché total adressable pour le calcul IA centralisé pourrait se réduire, bénéficiant aux fournisseurs d'infrastructure capables d'agréger des ressources distribuées.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.