Sakana Fugu obtient 73,7 au SWE-Bench Pro, défiant les modèles d'IA monolithiques

Le nouveau cadre d'orchestration Fugu de Sakana AI a obtenu un score de 73,7 au SWE-Bench Pro, surpassant le Claude Opus 4,8 d'Anthropic (69,2) et le GPT-5,5 d'OpenAI (58,6), en répartissant les sous-tâches entre un ensemble de modèles spécialisés plutôt que de s'appuyer sur une architecture monolithique unique. La startup basée à Tokyo remet ainsi en cause la stratégie dominante du secteur, qui consiste à développer des modèles fondateurs toujours plus volumineux.

« Fugu orchestre dynamiquement les meilleurs modèles du monde pour s'attaquer à des tâches complexes. Nous prouvons qu'un ensemble bien orchestré d'agents interchangeables peut égaler les modèles de pointe restreints », a déclaré David Ha, PDG et cofondateur de Sakana AI, dans un message publié sur X. Ha, ancien de Google Brain, a cofondé Sakana en 2023 avec Llion Jones, co-auteur de l'article fondateur « Attention Is All You Need ».

Fugu fonctionne comme un coordinateur principal plutôt que comme un modèle autonome. Face à une requête complexe, il décompose le problème en sous-tâches, les délègue à un ensemble de modèles fondateurs experts, vérifie leur travail et synthétise le résultat final — le tout derrière un point d'accès API unique compatible OpenAI. Le système s'appuie sur deux articles de recherche de Sakana datant de 2026, TRINITY et le Conductor, qui enseignent au modèle des stratégies de coordination apprises plutôt que des flux de travail conçus manuellement. Deux variantes sont disponibles : Fugu standard pour les tâches courantes et Fugu Ultra pour les charges de travail à enjeux élevés comme la recherche en IA et l'analyse de cybersécurité.

Ce lancement intervient deux semaines après qu'Anthropic a révoqué l'accès public à ses modèles les plus puissants, Claude Mythos 5 et Claude Fable 5, à la suite d'un décret américain sur le contrôle des exportations. Cette décision a mis en lumière une vulnérabilité que les entreprises et les États redoutaient depuis longtemps : l'accès à une IA de premier plan peut disparaître du jour au lendemain en raison de décisions géopolitiques. L'architecture de Fugu intègre une redondance native dans la pile d'IA — si un fournisseur fait face à des restrictions, le système contourne la perturbation. Les modèles spécifiques composant l'ensemble de Fugu et la manière dont il les coordonne restent propriétaires, mais les développeurs peuvent exclure certains fournisseurs de l'ensemble de routage pour des raisons de conformité.

Comment les performances de Fugu se comparent à celles des modèles de pointe

Fugu Ultra a égalé ou dépassé les modèles de pointe restreints sur plusieurs indicateurs clés. Sur LiveCodeBench, qui teste les performances de codage sur des problèmes logiciels régulièrement actualisés, Fugu Ultra a obtenu 93,2 et Fugu standard 92,9, battant tous deux le Claude Fable 5 d'Anthropic (89,8). Sur GPQA-Diamond, un test de questions à choix multiples de niveau graduate en biologie, physique et chimie, les deux variantes de Fugu ont obtenu 95,5, devançant légèrement Claude Mythos Preview (94,6).

Cependant, Fugu ne remporte pas tous les suffrages. Au SWE-Bench Pro, les 73,7 de Fugu Ultra sont inférieurs aux 80,0 de Fable 5 — un modèle actuellement absent de l'ensemble interchangeable de Fugu en raison du décret sur le contrôle des exportations. Au Humanity's Last Exam, Fugu Ultra a obtenu 50,0 contre 53,3 pour Fable 5. En matière de rappel de contexte long (MRCRv2), le GPT-5,5 d'OpenAI est en tête avec 94,8 contre 93,6 pour Fugu Ultra. Ces résultats suggèrent que pour le raisonnement de force brute dans un domaine unique et contraint, les plus grands modèles autonomes conservent un avantage — à condition que les entreprises puissent y accéder sans interruption.

Tarification et économie de l'orchestration

Fugu Ultra est proposé à 5 dollars par million de jetons d'entrée et 30 dollars par million de jetons de sortie, ce qui le place parmi les options les plus chères du marché — comparable au GPT-5,5 d'OpenAI à 5 et 30 dollars respectivement, et bien en dessous du désormais restreint Fable 5 d'Anthropic à 10 et 50 dollars. Il existe toutefois une réserve importante : les jetons d'arrière-plan consommés lorsque Fugu délègue des sous-tâches et route entre les agents ne sont pas absorbés par le fournisseur. Ils représentent une utilisation réelle de jetons et sont comptabilisés dans le prix final aux tarifs standards.

Un test en conditions réelles mené par Mark Santos, propriétaire d'une agence de création, a illustré ces compromis. Chargé de construire un clone du jeu « Crossy Road » à l'aide de Three.js, Fugu Ultra a terminé le travail en 22 minutes en utilisant environ 89 000 jetons pour environ 7,32 dollars, bien que le jeu final ait souffert d'erreurs logiques mineures. Claude Opus 4,8 a mis 79 minutes, brûlé environ 940 000 jetons pour près de 37,85 dollars et a nécessité une intervention humaine pour sortir d'une boucle de tentatives — mais a finalement produit une conception d'application supérieure.

Le paysage de l'orchestration et ce qu'il signifie pour les investisseurs

Fugu repose sur un paradigme fondamentalement différent des plateformes de routage standard comme Not Diamond, Martian ou le cadre open-source RouteLLM. Ces systèmes prennent une décision de routage unique — analyser une invite entrante et l'envoyer à un seul modèle. Fugu, en revanche, s'aligne plus étroitement sur des systèmes multi-tours complexes comme Router-R1, en décomposant les requêtes, en entrelaçant le raisonnement avec la délégation et en assignant des sous-tâches à plusieurs modèles en parallèle avant de synthétiser le résultat.

L'émergence de modèles d'orchestration qui atteignent des performances de pointe sans recourir au calcul intensif a des implications qui dépassent le cadre d'une seule entreprise. Rich Privorotsky, responsable du desk 1-Delta chez Goldman Sachs, a identifié les coûts de location de serveurs comme un indicateur central de la thèse d'investissement dans le matériel d'IA. Si l'orchestration réduit le besoin de clusters GPU massifs, cela pourrait peser sur les marges des hyperscalers et des fournisseurs de GPU. Les ETF sur les semi-conducteurs ont enregistré des entrées anormalement élevées la semaine dernière, suggérant que le marché reste positionné sur une demande continue en calcul — un pari que les modèles d'orchestration comme Fugu pourraient éventuellement remettre en question.

Sakana, qui a atteint une valorisation de 2,6 milliards de dollars lors de son tour de série B fin 2025, fait également face à une pression concurrentielle du côté open-source. Le GLM-5,2 de Zhipu AI a obtenu 74,4 au benchmark FrontierSWE, à moins d'un point du 75,1 de Claude Opus 4,8, tout en étant proposé à un prix inférieur de 72 % à 82 % à celui du modèle d'Anthropic. Le modèle utilise une licence MIT et prend en charge l'ouverture des poids, la distillation et la quantification.

Fugu est disponible immédiatement dans la plupart des régions, à l'exception temporaire de l'Union européenne et de l'Espace économique européen, le temps que Sakana aligne son architecture de routage de données opaque avec le règlement RGPD. Les abonnements commencent à 20 dollars par mois pour une utilisation standard, avec des plans professionnels de paiement à l'usage offrant une priorité plus élevée pour les charges de travail de production.

Pour les investisseurs, la question clé est de savoir si l'orchestration représente un complément ou un substitut aux dépenses traditionnelles en calcul. Si l'approche de Fugu est largement adoptée, elle pourrait comprimer la demande pour les plus grands clusters GPU — un vent contraire pour Nvidia et AMD. Mais si le marché y voit une couche supplémentaire sur l'infrastructure existante, elle pourrait élargir le marché total adressable pour l'inférence IA. Le prochain signal viendra des taux d'adoption par les entreprises et de la question de savoir si les hyperscalers ajustent leurs prix en conséquence.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.