Fable 5 của Anthropic trở lại sau 19 ngày với hàng rào bảo vệ quá mức

Mô hình AI mạnh nhất của Anthropic đã trở lại trực tuyến, nhưng một hệ thống an toàn được triển khai vội vàng đang gắn cờ các yêu cầu mã vô hại và buộc người dùng phải chuyển sang một mô hình yếu hơn.

Anthropic đã khôi phục quyền truy cập vào Fable 5 vào ngày 1 tháng 7 sau 19 ngày bị đình chỉ, nhưng một bộ phân loại an toàn mới đang gây ra các kết quả dương tính giả đối với các tác vụ lập trình thông thường, buộc các nhà phát triển phải chuyển sang Opus 4.8 kém mạnh mẽ hơn. Mô hình này, hệ thống lớp Mythos đầu tiên của công ty được công bố rộng rãi, đã bị ngừng hoạt động vào tháng 6 sau khi chính quyền Trump áp đặt các biện pháp kiểm soát xuất khẩu sau một phát hiện do Amazon dẫn đầu về một kỹ thuật nhắc nhở đã vượt qua các biện pháp bảo vệ của nó.

"Bộ phân loại mới có tỷ lệ dương tính giả cao hơn mức chúng tôi mong muốn đối với các tác vụ lập trình và gỡ lỗi hàng ngày," Anthropic cho biết trong một bài đăng trên blog công bố việc triển khai lại. Biện pháp bảo vệ, được thêm vào để tuân thủ các yêu cầu của Bộ Thương mại, chặn các yêu cầu mà nó cho là rủi ro và chuyển hướng chúng đến Opus 4.8 mà không cảnh báo người dùng.

Cho đến ngày 7 tháng 7, các thuê bao Pro, Max, Team và một số thuê bao Enterprise đủ điều kiện có thể phân bổ tối đa 50% hạn mức sử dụng hàng tuần của họ cho Fable 5 trước khi tiêu thụ thêm tín dụng. Mô hình này tiêu thụ tín dụng nhanh hơn Opus 4.8, làm gia tăng sự thất vọng của người dùng. Sau ngày 7 tháng 7, tất cả việc sử dụng Fable 5 sẽ yêu cầu tín dụng.

Cuộc tranh cãi này làm nổi bật sự căng thẳng giữa quy định an toàn AI và khả năng sử dụng sản phẩm – một yếu tố có thể làm chậm quá trình áp dụng các mô hình tiên tiến của doanh nghiệp và đẩy các nhà phát triển sang các giải pháp thay thế mã nguồn mở từ DeepSeek và các nhà cung cấp khác hoạt động mà không có hàng rào bảo vệ tập trung.

Một Bộ Phân Loại Không Thể Phân Biệt Cây Cối Và Drone

Một nghiên cứu sinh tiến sĩ khoa học trái đất trên Reddit đã mô tả việc cố gắng sử dụng Fable 5 để nghiên cứu cách cây cối làm giảm nhiệt độ môi trường. Bộ phân loại đã gắn cờ yêu cầu và chuyển anh ta sang Opus 4.8. Khi anh ta kiểm tra hệ thống bằng cách yêu cầu mã để điều khiển một bầy drone sử dụng SDK của DJI, Fable 5 đã đưa ra một giải pháp hoàn chỉnh mà không bị gián đoạn.

"Đây không phải là một hệ thống an toàn – nó là một cánh cổng ngẫu nhiên," nhà nghiên cứu viết.

Anthropic đã thừa nhận vấn đề trong bài đăng triển khai lại của mình, cho biết bộ phân loại chặn kỹ thuật nhắc nhở cụ thể được các nhà nghiên cứu Amazon xác định trong hơn 99% trường hợp, nhưng phải đánh đổi bằng các báo động giả thường xuyên đối với các yêu cầu vô hại. Công ty không tiết lộ có bao nhiêu phiên người dùng đã bị ảnh hưởng.

Vấn đề dương tính giả đặc biệt gây hại vì thế mạnh cốt lõi của Fable 5 nằm ở các tác vụ lập trình phức tạp, nhiều bước. Các nhà phát triển đã thử nghiệm mô hình này cho biết khi không bị bộ phân loại làm gián đoạn, nó vượt trội hơn bất kỳ mô hình công khai nào hiện có trong các tác vụ đại lý dài hạn, đạt điểm trên 80% trên chuẩn SWE-Bench Pro. Một nhà phát triển đã sử dụng Fable 5 để tái tạo đường chân trời của Thành phố New York trong Blender trong 20 phút bằng cách kéo dữ liệu tòa nhà thực tế từ các nguồn công cộng. Một người khác đã xây dựng một trò chơi hoàn chỉnh từ đầu chỉ bằng bốn lần nhắc với chi phí 173 đô la token.

Anthropic Thúc Đẩy Các Tiêu Chuẩn An Toàn Ngành

Để ngăn chặn các bế tắc quy định trong tương lai, Anthropic đang làm việc với Amazon, Microsoft và Google để tạo ra một khuôn khổ tiêu chuẩn hóa nhằm đánh giá mức độ nghiêm trọng của jailbreak AI. Hệ thống được đề xuất chấm điểm các cuộc khai thác theo bốn chiều: mức tăng khả năng, độ rộng lợi ích, độ khó vũ khí hóa và khả năng khám phá. Chỉ những cuộc khai thác đạt điểm tối đa ở cả bốn hạng mục – ví dụ, một kỹ thuật có thể phá vỡ cơ sở hạ tầng quan trọng – mới kích hoạt mức cảnh báo cao nhất yêu cầu các biện pháp giảm thiểu ngay lập tức.

Công ty cũng đồng ý cung cấp cho các cơ quan chính phủ quyền truy cập trước khi phát hành đối với các mô hình tương lai để kiểm tra an toàn, chia sẻ kịp thời thông tin về lỗ hổng và tài trợ cho một chương trình săn lỗi HackerOne cho Fable 5. Bộ trưởng Thương mại Howard Lutnick đã xác nhận việc dỡ bỏ các hạn chế trong một lá thư, lưu ý rằng Anthropic đã "đồng ý chủ động phát hiện và giải quyết các rủi ro bảo mật do các mô hình gây ra."

Sự kiện này có thể mang lại lợi ích cho các nhà cung cấp mô hình mã nguồn mở như DeepSeek, với mô hình V4-Pro hoạt động mà không có hàng rào bảo vệ tập trung và đã chứng minh hiệu suất cạnh tranh trên các chuẩn lập trình. Uy tín của Anthropic với các nhà phát triển – một nhóm cử tri quan trọng cho việc áp dụng AI – đã bị ảnh hưởng, và khả năng kiếm tiền từ các khả năng của Fable 5 của công ty phụ thuộc vào việc giải quyết vấn đề dương tính giả của bộ phân loại. Anthropic không tiết lộ giá mỗi token của Fable 5 nhưng cho biết tín dụng sử dụng sẽ được áp dụng sau ngày 7 tháng 7.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.