Anthropic 的 Fable 5 在暫停 19 天後回歸，但安全護欄過於激進

Anthropic 最先進的 AI 模型已重新上線，但倉促部署的安全系統正在標記無害的程式碼請求，迫使使用者轉用較弱的模型。

Anthropic 於 7 月 1 日在暫停 19 天後恢復了 Fable 5 的存取權限，但新的安全分類器在常規編碼任務上觸發了大量誤報，迫使開發者轉用能力較弱的 Opus 4.8。該模型是該公司首個向公眾開放的神話級（Mythos-class）系統，於六月下线，原因是亞馬遜主導發現的一種提示技術繞過了其安全防護，隨後川普政府實施了出口管制。

Anthropic 在宣布重新部署的部落格文章中表示：「新的分類器在日常生活編程和除錯任務上的誤報率比我們預期的要高。」這項為遵守商務部要求而新增的安全措施，會攔截其認為有風險的請求，並在使用者未收到通知的情況下將其路由至 Opus 4.8。

截至 7 月 7 日，符合條件的 Pro、Max、Team 及部分 Enterprise 訂閱用戶，每週可使用最多 50% 的配額分配給 Fable 5，超出部分將消耗額外點數。該模型消耗點數的速度比 Opus 4.8 更快，加劇了使用者的不滿。7 月 7 日之後，所有 Fable 5 的使用都將消耗點數。

這場爭議凸顯了 AI 安全監管與產品可用性之間的矛盾——這種動態可能減緩企業採用先進模型的速度，並將開發者推向 DeepSeek 等營運商所提供的開放權重替代方案，這些方案沒有集中式安全護欄。

一個分不清樹木和無人機的分類器

一位 Reddit 上的地球科學博士生描述，他試圖使用 Fable 5 進行樹木如何降低環境溫度的研究。分類器標記了該請求並將他切換到 Opus 4.8。當他測試該系統，要求提供使用 DJI SDK 控制無人機群的程式碼時，Fable 5 卻完整無中斷地給出了解決方案。

這位研究人員寫道：「這不是安全系統——這是一道隨機閘門。」

Anthropic 在重新部署公告中承認了這個問題，表示該分類器在超過 99% 的情況下能攔截亞馬遜研究人員識別出的特定提示技術，但代價是對無害請求頻繁發出誤報。該公司未透露有多少使用者會話受到影響。

誤報問題尤其具有破壞性，因為 Fable 5 的核心優勢在於複雜的多步驟編碼任務。測試過該模型的開發者回報，當沒有被分類器中斷時，它在長期代理任務上的表現優於任何公開可用的模型，在 SWE-Bench Pro 基準測試中得分超過 80%。一位開發者使用 Fable 5 在 20 分鐘內透過從公共來源拉取真實建築數據，在 Blender 中重建了紐約市天際線。另一位開發者僅用四個提示詞就從頭建立了一個完整遊戲，花費了 173 美元的代幣成本。

Anthropic 推動行業安全標準

為防止未來再次出現監管僵局，Anthropic 正與亞馬遜、微軟和 Google 合作，創建一個用於評估 AI 越獄嚴重性的標準化框架。提議的系統從四個維度對漏洞利用進行評分：能力提升、提升廣度、武器化難度和可發現性。只有同時達到所有四個類別最高分的漏洞利用——例如可能破壞關鍵基礎設施的技術——才會觸發需要立即緩解的最高警報級別。

該公司還同意向政府機構提供未來模型的發布前存取權限以供安全測試，及時分享漏洞資訊，並為 Fable 5 資助 HackerOne 漏洞獎勵計畫。商務部長霍華德·盧特尼克（Howard Lutnick）在一封信中確認了解除限制，指出 Anthropic 已「同意主動檢測和解決模型帶來的安全風險」。

這起事件可能有利於 DeepSeek 等開放權重模型供應商，其 V4-Pro 模型在沒有集中式安全護欄的情況下運作，並在編碼基準測試中展現出具有競爭力的表現。Anthropic 在開發者——AI 採用的關鍵群體——中的信譽已受到打擊，而該公司將 Fable 5 能力變現的能力取決於解決分類器的誤報問題。Anthropic 未揭露 Fable 5 的每代幣定價，但表示使用點數將在 7 月 7 日後開始計算。

本文僅供資訊參考，不構成投資建議。