Anthropic 推出兩款 Mythos 級 AI 模型，內建安全防護機制

Anthropic 於 6 月 9 日推出兩款 Mythos 級 AI 模型，其中包括首個廣泛可用的版本，該公司此前已開發出安全防護機制，以阻擋網路安全與生物學領域的回應——這些領域曾被 Anthropic 認為過於危險，不適合向公眾開放。

「Fable 5 在軟體工程、知識工作與視覺領域展現出卓越表現，且隨著任務時間拉長、複雜度增加，其領先其他模型的優勢也持續擴大，」Anthropic 在一篇部落格文章中表示。

這兩款模型——面向大眾廣泛提供的 Claude Fable 5，以及面向經核准組織的 Claude Mythos 5——均基於相同的底層技術。據該公司稱，Fable 5 在數項基準測試中，表現超越 Claude Opus 4.8 超過 10%。定價方面，每百萬輸入代幣為 10 美元，每百萬輸出代幣為 50 美元，是 Opus 4.8 費率的兩倍，但僅為 Mythos Preview 層級的一半。

此次發布距離 Anthropic 限制其 Mythos Preview 模型存取權限僅兩個月，當時該公司引用了高效能 AI 可能遭到濫用的風險。此後，Anthropic 已秘密提交首次公開發行（IPO）申請，而此次擴大釋出範圍，顯示該公司對其安全機制——經過內部和外部紅隊演練測試——能夠抵禦惡意攻擊者充滿信心。

自我改進的軌跡

Anthropic 決定擴大存取權限，是在 6 月 4 日一篇部落格文章之後做出的決定。研究員 Marina Favaro 與共同創辦人 Jack Clark 在文中警告，AI 系統正接近「遞迴式自我改進」階段——亦即模型能在最低限度的人類監督下自行改進。該公司披露的內部數據顯示，由 Claude 驅動的代理程式在 2026 年 4 月完成了一項開放式的 AI 安全研究項目，人類研究員在一週內彌補了約 23% 的性能差距，而 Claude 代理程式則恢復了 97% 的性能。

Claude Mythos Preview（新發布模型的前身）在最佳化任務上實現了相比基準程式碼 52 倍的速度提升，而一位熟練的人類研究員需要四到八小時才能達到 4 倍的改進。Anthropic 表示，Claude 目前約佔該公司新生產程式碼的 80%，而在複雜工程問題上的成功率已於 2026 年 5 月升至 76%。

Claude 能夠可靠處理的任務時長大約每四個月翻倍，從 2024 年初的數分鐘級任務，發展到今天的 12 小時級任務。Anthropic 預測，到 2027 年將可實現一週級別的自動化任務。

防護機制 vs. 攻擊者

Anthropic 表示，Fable 5 經過了廣泛的內部和外部紅隊演練，旨在識別常見的 AI 漏洞，包括越獄攻擊嘗試。據該公司稱，測試過程中並未發現任何已知的「通用」越獄技術能夠持續繞過該模型的防護機制。在測試中，95% 的 Fable 會話完全依賴 Fable 自身的回應，而無需回退到 Opus 4.8。

儘管如此，該公司承認，網路安全研究人員過去曾找到繞過早期 AI 模型安全機制的方法。「Mythos 級能力所帶來的提升，對許多攻擊者來說極具價值——例如那些能從網路攻擊中獲得經濟利益的人——因此我們預期他們會有動機嘗試繞過我們的安全措施，」Anthropic 表示。

Claude Mythos 5 面向已透過 Anthropic 的 Project Glasswing 計畫獲得核准的組織，提供與前述模型相同的底層技術，但在某些領域放寬了安全防護限制。該公司表示，計畫未來透過更系統化的信任存取計畫逐步擴大存取範圍。

競爭格局與投資影響

此次發布使 Anthropic 能夠在企業 AI 市場上與 OpenAI 和 Google 更直接地競爭，其中推論定價與安全保證是關鍵差異化因素。Fable 5 每百萬輸出代幣 50 美元的定價，使其處於許多公開可用模型之上的 premium 水準，反映出該公司的判斷：企業願意為具有更強安全防護機制的模型支付更高價格。

Anthropic 近幾週被報導的秘密 IPO 申請，進一步增加了證明其營收成長路徑清晰的壓力。根據《The Dallas Express》此前的一篇報導，某匿名企業客戶因無限制使用 Claude，在單月內累計約 5 億美元的費用，這凸顯了強大 AI 系統所伴隨的需求與成本風險。

賓州大學華頓商學院教授 Ethan Mollick 向《華爾街日報》表示，雖然部分批評者認為 Anthropic 的安全訊息宣傳帶有公關性質，但該公司內部許多人是「真正的信徒」。他關於 AI 的新書《Co-Existence》預計將於今年秋季出版。

本文僅供參考，不構成投資建議。