Sakana Fugu、SWE-Bench Proで73.7を達成——モノリシックAIモデルに挑戦状

Sakana AIが開発した新しいオーケストレーションフレームワーク「Fugu」が、SWE-Bench Proで73.7を獲得し、AnthropicのClaude Opus 4.8（69.2）やOpenAIのGPT-5.5（58.6）を上回った。Fuguは単一のモノリシックアーキテクチャに依存するのではなく、専門化されたモデルのプール全体にサブタスクを振り分ける手法を採用している。東京に拠点を置くこのスタートアップのアプローチは、より大規模なファウンデーションモデルを拡張するという業界の支配的な戦略に挑戦するものだ。

「Fuguは世界最高のモデルを動的にオーケストレーションし、複雑なタスクに取り組みます。私たちは、適切に調整された交換可能なエージェントのプールが、制限付きのフロンティアモデルに匹敵することを証明しています」と、Sakana AIのCEO兼共同創業者であるDavid Ha氏はX（旧Twitter）への投稿で述べた。Google Brain出身のHa氏は、「Attention Is All You Need」論文の共同著者であるLlion Jones氏とともに、2023年にSakanaを創業した。

Fuguはスタンドアロンのモデルではなく、マスターコーディネーターとして機能する。複雑なリクエストを受け取ると、問題をサブタスクに分解し、専門的なファウンデーションモデルのプールに委任し、その成果を検証し、最終的な出力を統合する——これらすべてを、OpenAI互換の単一APIエンドポイントを通じて実行する。このシステムは、Sakanaが2026年に発表した2つの研究論文、TRINITYとThe Conductorに基づいている。これらの論文は、手作業で設計されたワークフローではなく、学習された協調戦略をモデルに教えるものだ。日常的なタスク向けの標準Fuguと、AI研究やサイバーセキュリティ分析などの高リスクワークロード向けのFugu Ultraの2つのバリエーションが提供されている。

今回の発表は、Anthropicが米政府の輸出管理命令を受けて、最も高性能なモデルであるClaude Mythos 5とClaude Fable 5への一般公開を停止してから2週間後のことである。この動きにより、企業や国家が長く懸念してきた脆弱性が露呈した。すなわち、地政学的な決定によって、トップクラスのAIへのアクセスが一夜にして消失する可能性があるということだ。Fuguのアーキテクチャは、AIスタックにネイティブな冗長性を組み込んでいる。あるプロバイダーが制限を受けた場合、システムはその障害を回避してルーティングを行う。Fuguのプール内の具体的なモデルとその調整方法はプロプライエタリだが、開発者はコンプライアンス上の理由から特定のプロバイダーをルーティングプールから除外することができる。

Fuguのベンチマークスコアとフロンティアモデルの比較

Fugu Ultraは、いくつかの主要ベンチマークにおいて、制限付きのフロンティアモデルに匹敵するか、それを上回るスコアを記録した。定期的に更新されるソフトウェア問題におけるコーディング性能をテストするLiveCodeBenchでは、Fugu Ultraが93.2、標準Fuguが92.9を獲得し、AnthropicのClaude Fable 5（89.8）を上回った。生物学、物理学、化学における大学院レベルの多肢選択問題をテストするGPQA-Diamondでは、両方のFuguバリアントが95.5を獲得し、Claude Mythos Preview（94.6）をわずかに上回った。

しかし、Fuguが完全に優勢というわけではない。SWE-Bench Proでは、Fugu Ultraの73.7はFable 5の80.0に及ばなかった。Fable 5は現在、輸出管理命令によりFuguの交換可能なプールに含まれていないモデルである。Humanity's Last Examでは、Fugu Ultraが50.0だったのに対し、Fable 5は53.3だった。長文コンテキスト想起（MRCRv2）では、OpenAIのGPT-5.5が94.8でリードし、Fugu Ultraの93.6を上回った。これらの結果は、単一の制約されたドメイン内での総合力による推論においては、最大のスタンドアロンモデルが依然として優位性を持つことを示唆している——ただし、企業が中断のないアクセスを維持できる場合に限られる。

価格設定とオーケストレーションの経済性

Fugu Ultraの価格は、入力トークン100万件あたり5ドル、出力トークン100万件あたり30ドルであり、市場で最も高価な選択肢の一つに位置づけられる。これはOpenAIのGPT-5.5（それぞれ5ドルと30ドル）と同程度であり、現在アクセス制限されているAnthropicのFable 5（それぞれ10ドルと50ドル）を大幅に下回る。ただし、重要な注意点がある。Fuguがサブタスクを委任し、エージェント間でルーティングを行う際に消費されるバックグラウンドトークンは、プロバイダーによって吸収されない。これらは実際のトークン使用量を表し、標準レートで最終価格に計上される。

クリエイティブエージェンシー経営者Mark Santos氏による実際のテストでは、そのトレードオフが明らかになった。Three.jsを使用した「クロッシィ・ロード」ゲームのクローンを構築するタスクにおいて、Fugu Ultraは約89,000トークンを使用して22分でジョブを完了し、コストは約7.32ドルだった。ただし、最終的なゲームには軽微なロジックエラーが残った。一方、Claude Opus 4.8は79分を要し、約940,000トークンを消費して約37.85ドルのコストがかかり、リトライループから脱出するために人間の介入を必要としたが、最終的には優れたアプリケーションデザインを生み出した。

オーケストレーションの現状と投資家への意味合い

Fuguは、Not Diamond、Martian、オープンソースのRouteLLMフレームワークといった標準的なルーティングプラットフォームとは根本的に異なるパラダイムで動作する。これらのシステムは、受信したプロンプトを分析し、単一のモデルにディスパッチするという、ワンショットのルーティング決定を行う。対照的にFuguは、Router-R1のような複雑なマルチラウンドシステムにより近い。クエリを分解し、推論と委任をインターリーブし、複数のモデルにサブタスクを並行して割り当てた後、出力を統合する。

ブルートフォースな計算能力に依存せずにフロンティアレベルのパフォーマンスを達成するオーケストレーションモデルの出現は、個々の企業を超えた影響を持つ。Goldman Sachsの1-Deltaデスク責任者であるRich Privorotsky氏は、AIハードウェア投資のテーゼの中核指標としてサーバーレンタルコストを挙げている。オーケストレーションが大規模なGPUクラスターの必要性を低減させるなら、ハイパースケーラーやGPUサプライヤーの利益率を圧迫する可能性がある。半導体ETFには先週、異常に高い資金流入が記録されており、市場は計算需要の継続を見込んだポジションを維持していることを示唆している——これは、Fuguのようなオーケストレーションモデルが最終的に挑戦する可能性のある賭けである。

2025年後半のシリーズBラウンドで評価額26億ドルに達したSakanaは、オープンソース側からの競争圧力にも直面している。Zhipu AIのGLM-5.2は、FrontierSWEベンチマークで74.4を獲得し、Claude Opus 4.8の75.1に1ポイント差まで迫りながら、価格はAnthropicのモデルより72％から82％低い。このモデルはMITライセンスを採用し、ウェイトの公開、蒸留、量子化をサポートする。

Fuguは、欧州連合（EU）および欧州経済領域（EEA）を一時的に除くほとんどの地域で即座に利用可能である。Sakanaは、ブラックボックス型のデータルーティングアーキテクチャをGDPR規制に適合させる作業を進めている。サブスクリプション tierは、標準使用で月額20ドルからとなっており、エンタープライズ向けの従量課金プランでは本番環境のワークロードに対してより高い優先順位が提供される。

投資家にとっての重要な論点は、オーケストレーションが伝統的な計算資源への支出にとって補完物なのか、代替物なのかということである。Fuguのアプローチが広く採用されれば、最大規模のGPUクラスターへの需要を圧縮し、NVIDIAやAMDにとっての逆風となる可能性がある。しかし、市場がこれを既存インフラへの追加レイヤーと見なせば、AI推論の総アドレス可能市場（TAM）を拡大する可能性もある。次のシグナルは、企業の採用率と、ハイパースケーラーが価格設定を調整するかどうかによってもたらされるだろう。

本記事は情報提供のみを目的としており、投資助言を構成するものではない。