新しいAIベンチマックは、モデルが16時間に及ぶタスクを処理できるようになったことを示唆しており、自律的な作業とサイバーセキュリティの応用における重要な閾値を超えました。
AnthropicのフロンティアAIモデルは、最大16時間続く複雑なソフトウェアエンジニアリングタスクを自律的に完了する能力を実証しました。この新しい能力の閾値は、AI主導のサイバーセキュリティの展望を塗り替えようとしています。AI評価グループMETRによる結果は、モデル能力の超指数関数的な成長を示唆しており、Palo Alto Networks Inc.などのサイバーセキュリティベンダーは、この傾向がすでに攻防両面の運用に劇的な影響を与えていると報告しています。
Palo Alto Networksは、このテクノロジーの影響に関する最近のレポートで次のように記しています。「[フロンティアAI]を使用して脆弱性分析を支援したところ、わずか3週間で完了した作業の深さと広さは、トップレベルのペネトレーションテストチーム全体の丸1年分の作業量に相当しました」
新しいベンチマークによると、AnthropicのClaude Mythosモデルは、人間が16時間を要するタスクにおいて50%の成功率を達成できることが示されました。この能力の飛躍は、ソフトウェアの世界におけるリスクと生産性の迅速な再計算を迫っています。同モデルへの早期アクセスを許可されたPalo Alto Networksは、複数の低リスクの脆弱性を見つけ出し、それらを組み合わせて致命的な攻撃チェーンを構築するプロセスをわずか25分に圧縮できることを発見しました。
この進展はサイバーセキュリティ企業間のAI軍拡競争を加速させ、Palo Alto Networks (PANW)、Fortinet (FTNT)、Zscaler Inc.などの既存企業に圧力をかけています。また、AnthropicとそのライバルであるOpenAIのようなAI開発者間のプラットフォーム競争も激化させています。投資家にとっての鍵となる疑問は、この新しいレベルのAI自律性が、いかにして信頼性の高いエンタープライズ製品と防御可能な収益源に変換されるかです。
AI自律性の新たなベンチマーク
METRの「タイムホライゾン」グラフは、フロンティアモデルが完了できるソフトウェア開発タスクの長さを測定しています。最新の結果では、Mythosが16時間のタスクを半分の確率で成功させており、モデルが以前に処理できた数分から1時間のタスクから大幅なジャンプを遂げたことを示しています。評価機関は、16時間以上かかるように設計されたタスクの数が限られているため、自らのモデルテスト能力が試されており、モデル能力の真の上限を測定することが困難になっていると指摘しました。
この急速かつ加速する進歩は「超指数関数的」成長と呼ばれ、AI能力の世代ごとの飛躍は、回を追うごとに大きくなっているように見えます。トレンドラインは、2027年に予測されていた能力がすでに達成されていることを示唆しており、生産性向上への期待と、ますます強力で自律的になるAIエージェントのセキュリティへの影響に対する不安の両方を煽っています。
研究室から実戦へ:サイバーセキュリティの「原子力的瞬間」
Palo Alto Networksの研究結果は、METRベンチマークが持つ意味の鮮明な実例を提供しています。トップクラスの人間チームによる1年分の仕事を3週間に自動化できる能力は、サイバー攻撃と防御のバランスにおける根本的な変化を意味します。
この能力は1社に限定されたものではありません。競合他社も高度なAIを統合しています。最近、2026年ガートナー・マジック・クアドラントのサイバー脅威インテリジェンス部門でリーダーに選出されたCrowdStrike Holdings (CRWD)は、リスク管理にフロンティアAIを適用するため、Project QuiltWorks連合を拡大しています。SentinelOne (S)は、悪用可能な攻撃パスを特定して優先順位を付けるためにAIを使用するWayfinderサービスを開始し、Okta Inc. (OKTA)はAIエージェント自身のアイデンティティを管理するための新しいフレームワークを開発しています。
現状確認:50%の成功率は十分か?
16時間という数字は印象的ですが、批評家はベンチマークから過度な推測をすることに注意を促しています。重要な限定要因は50%という成功率です。人間の専門家が失敗した試みをレビューして破棄できる研究開発においては、16時間のタスクで50%の成功率は革新的です。これは事実上、人間のエンジニアの成果を倍増させます。
しかし、本番環境に導入される完全自律型システムの場合、50%の失敗率は容認できません。AI研究者のゲイリー・マーカス氏は最近の分析で、「自律的な商業利用のための信頼性の閾値は95%から99.9%の間にある」と指摘しています。同氏は、METRのグラフが50%の成功ラインのみに焦点を当てることで、AIがエンタープライズ級の信頼性との差をどれほど速く縮めているかを示していないと主張しています。50%から99%の成功までのギャップを埋めるのにどれくらいの時間がかかるかという議論は、汎用人工知能(AGI)とその現実世界への影響を巡る議論の中心となっています。
この記事は情報提供のみを目的としており、投資アドバイスを構成するものではありません。