Anthropic、安全性ガードレール付きの2つのMythosクラスAIモデルを発表

Anthropicは6月9日、2つのMythosクラスAIモデルをリリースした。初の広く一般利用可能なバージョンを含み、サイバーセキュリティと生物学の分野における回答をブロックするセーフガードを開発した上での発表である。同社は以前、これらの分野を一般公開するには危険すぎると判断していた。

「Fable 5は、ソフトウェアエンジニアリング、知識業務、ビジョンにおいて卓越したパフォーマンスを示しており、タスクが長期化・複雑化するにつれて、他のモデルに対するリードは拡大している」とAnthropicはブログ投稿で述べている。

一般提供向けのClaude Fable 5と、承認された組織向けのClaude Mythos 5という2つのモデルは、同一の基盤技術上に構築されている。同社によれば、Fable 5は複数のベンチマークでClaude Opus 4.8を10%以上上回るパフォーマンスを達成した。価格は入力トークン100万個あたり10ドル、出力トークン100万個あたり50ドルに設定されており、Opus 4.8の2倍のレートだが、Mythos Previewティアの半額となる。

このローンチは、Anthropicが高度な能力を持つAIが悪用されるリスクを理由にMythos Previewモデルへのアクセスを制限してから2ヶ月後に行われた。同社はその後、新規株式公開（IPO）を機密扱いで申請しており、今回の広範なリリースは、社内外のレッドチーミング演習でテストされた安全性メカニズムが、意図的な攻撃者に対しても耐えうるという自信を示すものだ。

自己改善の軌道

Anthropicがアクセスを拡大する決定を下した背景には、6月4日のブログ投稿がある。研究者のMarina Favaroと共同創業者のJack Clarkは、AIシステムが「再帰的自己改善」—モデルが人間の最小限の監視で自らを改善できる段階—に近づいていると警告した。同社は内部データを公開し、Claudeを搭載したエージェントが2026年4月にオープンエンドのAI安全性研究プロジェクトを完了し、人間の研究者が1週間でパフォーマンスギャップの約23%を回復したのに対し、Claudeエージェントは97%を回復したことを明らかにした。

新しくリリースされたモデルの前身であるClaude Mythos Previewは、最適化タスクにおいてベースラインコードに対して52倍の高速化を達成した。熟練した人間の研究者であれば、4倍の改善を達成するのに4〜8時間を要するタスクである。Anthropicによれば、Claudeは現在同社の新規プロダクションコードの約80%を記述しており、複雑なエンジニアリング問題の成功率は2026年5月に76%に上昇した。

Claudeが確実に処理できるタスクの時間幅は、約4ヶ月ごとに倍増しており、2024年初頭の数分単位のタスクから、現在は12時間単位のタスクへと進化している。Anthropicは2027年までに週単位の自律タスクを実現する見通しだ。

セーフガード vs. 敵対的攻撃者

Anthropicは、Fable 5が社内外の広範なレッドチーミング演習を受け、ジェイルブレイク試行を含む一般的なAI脆弱性の特定が行われたと述べている。同社によれば、テストではモデルのセーフガードを一貫して回避できる既知の「ユニバーサル」ジェイルブレイク技術は発見されなかった。テストでは、Fableセッションの95%がOpus 4.8にフォールバックすることなく、完全にFableの応答で実行された。

それでも同社は、サイバーセキュリティ研究者が過去のAIモデルにおいて安全性メカニズムを回避する方法を歴史的に見つけてきたことを認めている。「Mythosレベルの能力による向上は、多くの敵対者—例えばサイバー攻撃から金銭的利益を得られる者—にとって価値があり、したがって彼らが我々の安全対策を回避しようと動機づけられると予想している」とAnthropicは述べた。

Claude Mythos 5は、AnthropicのProject Glasswingイニシアチブを通じてすでに承認された組織が利用可能で、一部の領域ではセーフガードが解除された同一の基盤モデルを提供する。同社は、より体系的な信頼アクセスプログラムを通じて、時間をかけてアクセスを拡大する計画だと述べている。

競争上の争点と投資家への影響

今回のリリースにより、AnthropicはエンタープライズAI市場でOpenAIやGoogleとより直接的に競合する立場となる。この市場では、推論価格と安全性保証が主要な差別化要因となっている。Fable 5の出力トークン100万個あたり50ドルという価格は、多くの公開モデルよりもプレミアム価格帯に位置しており、企業がより強力な安全性ガードレールを備えたモデルにより多くの費用を支払うという同社の賭けを反映している。

最近報告されたAnthropicの機密IPO申請は、明確な収益成長への道筋を示すプレッシャーを強めている。The Dallas Expressの以前の報道によれば、ある匿名のエンタープライズ顧客は、無制限の使用によりClaudeで1ヶ月に約5億ドルを費やしたとされ、強力なAIシステムに関連する需要とコストリスクの両方を浮き彫りにしている。

ペンシルベニア大学ウォートン校の教授Ethan Mollick氏は、Anthropicの安全性に関するメッセージを一部の批評家は広報活動と見なしているが、社内の多くの人々は「真の信奉者」であると、ウォール・ストリート・ジャーナルに語っている。同氏のAIに関する著書「Co-Existence」は今秋発売予定である。

本記事は情報提供のみを目的としており、投資助言を構成するものではない。