Anthropic ra mắt 2 mô hình AI lớp Mythos với các biện pháp bảo vệ an toàn

Anthropic đã phát hành hai mô hình AI lớp Mythos vào ngày 9 tháng 6, bao gồm phiên bản có sẵn rộng rãi đầu tiên, sau khi phát triển các biện pháp bảo vệ để chặn các phản hồi trong lĩnh vực an ninh mạng và sinh học — những lĩnh vực mà công ty trước đây cho là quá nguy hiểm để phát hành công khai.

"Fable 5 thể hiện hiệu suất vượt trội trong kỹ thuật phần mềm, công việc tri thức và thị giác, với lợi thế dẫn trước các mô hình khác ngày càng lớn khi các nhiệm vụ trở nên dài hơn và phức tạp hơn," Anthropic cho biết trong một bài đăng trên blog.

Các mô hình — Claude Fable 5 dành cho sử dụng đại chúng và Claude Mythos 5 dành cho các tổ chức được phê duyệt — được xây dựng trên cùng một công nghệ nền tảng. Fable 5 vượt trội hơn Claude Opus 4.8 hơn 10% trên một số điểm chuẩn, theo công ty. Giá cả được thiết lập ở mức 10 đô la mỗi triệu token đầu vào và 50 đô la mỗi triệu token đầu ra, gấp đôi mức giá của Opus 4.8 nhưng bằng một nửa chi phí của bậc Mythos Preview.

Việc ra mắt diễn ra hai tháng sau khi Anthropic hạn chế quyền truy cập vào mô hình Mythos Preview của mình, với lý do rủi ro rằng một AI có năng lực cao có thể bị lạm dụng. Công ty kể từ đó đã nộp đơn bí mật cho đợt chào bán cổ phiếu lần đầu ra công chúng (IPO), và việc phát hành rộng rãi hơn cho thấy sự tự tin rằng các cơ chế an toàn của công ty — đã được kiểm tra qua các bài tập red-teaming nội bộ và bên ngoài — có thể chống lại những kẻ tấn công có động cơ.

Quỹ Đạo Tự Cải Thiện

Quyết định mở rộng quyền truy cập của Anthropic diễn ra sau một bài đăng trên blog ngày 4 tháng 6, trong đó các nhà nghiên cứu Marina Favaro và đồng sáng lập Jack Clark cảnh báo rằng các hệ thống AI đang tiến gần đến "tự cải thiện đệ quy" — một giai đoạn mà các mô hình có thể tự cải thiện với sự giám sát tối thiểu của con người. Công ty đã tiết lộ dữ liệu nội bộ cho thấy các tác nhân dựa trên Claude đã hoàn thành một dự án nghiên cứu an toàn AI mở vào tháng 4 năm 2026, với các nhà nghiên cứu con người thu hẹp được khoảng 23% khoảng cách hiệu suất trong một tuần trong khi các tác nhân Claude thu hẹp được 97%.

Claude Mythos Preview, tiền thân của các mô hình mới được phát hành, đã đạt được tốc độ nhanh hơn 52 lần so với mã cơ sở trong các tác vụ tối ưu hóa, nơi một nhà nghiên cứu con người có kỹ năng sẽ cần từ bốn đến tám giờ để đạt được cải thiện gấp 4 lần. Claude hiện viết khoảng 80% mã sản xuất mới của Anthropic, và tỷ lệ thành công trong các vấn đề kỹ thuật phức tạp đã tăng lên 76% vào tháng 5 năm 2026, công ty cho biết.

Phạm vi nhiệm vụ mà Claude có thể xử lý một cách đáng tin cậy đã tăng gần gấp đôi sau mỗi bốn tháng, tiến triển từ các nhiệm vụ kéo dài vài phút vào đầu năm 2024 lên các nhiệm vụ kéo dài 12 giờ hiện nay. Anthropic dự báo các nhiệm vụ tự động kéo dài một tuần vào năm 2027.

Biện Pháp Bảo Vệ so với Kẻ Tấn Công

Anthropic cho biết Fable 5 đã trải qua các bài tập red-teaming nội bộ và bên ngoài sâu rộng được thiết kế để xác định các lỗ hổng AI phổ biến, bao gồm các nỗ lực phá vỡ bảo vệ (jailbreak). Các cuộc kiểm tra không phát hiện ra bất kỳ kỹ thuật "phá vỡ phổ quát" nào có khả năng vượt qua các biện pháp bảo vệ của mô hình một cách nhất quán, theo công ty. Trong quá trình thử nghiệm, 95% các phiên Fable chạy hoàn toàn trên các phản hồi của Fable mà không cần dựa vào Opus 4.8.

Tuy nhiên, công ty thừa nhận rằng các nhà nghiên cứu an ninh mạng trong lịch sử đã tìm ra cách vượt qua các cơ chế an toàn trong các mô hình AI trước đó. "Lợi ích từ khả năng cấp độ Mythos có giá trị đối với nhiều kẻ tấn công — ví dụ, những kẻ có thể thu lợi tài chính từ các cuộc tấn công mạng — và do đó chúng tôi kỳ vọng chúng sẽ có động cơ để cố gắng vượt qua các biện pháp an toàn của chúng tôi," Anthropic cho biết.

Claude Mythos 5, có sẵn cho các tổ chức đã được phê duyệt thông qua sáng kián Project Glasswing của Anthropic, cung cấp cùng một mô hình nền tảng với các biện pháp bảo vệ được nới lỏng trong một số lĩnh vực. Công ty cho biết họ có kế hoạch mở rộng quyền truy cập theo thời gian thông qua một chương trình truy cập đáng tin cậy có hệ thống hơn.

Cạnh Tranh Chiến Lược và Tác Động Đến Nhà Đầu Tư

Việc phát hành này định vị Anthropic để cạnh tranh trực tiếp hơn với OpenAI và Google trên thị trường AI doanh nghiệp, nơi định giá suy luận (inference pricing) và các đảm bảo an toàn là những yếu tố khác biệt chính. Mức giá 50 đô la mỗi triệu token đầu ra của Fable 5 đặt nó ở mức cao hơn so với nhiều mô hình có sẵn công khai, phản ánh cược của công ty rằng các doanh nghiệp sẽ trả nhiều tiền hơn cho các mô hình có biện pháp bảo vệ an toàn mạnh mẽ hơn.

Hồ sơ IPO bí mật của Anthropic, được báo cáo trong những tuần gần đây, tạo thêm áp lực để chứng minh một lộ trình rõ ràng cho tăng trưởng doanh thu. Một khách hàng doanh nghiệp giấu tên đã tích lũy khoảng 500 triệu đô la trong một tháng duy nhất trên Claude do sử dụng không hạn chế, theo một báo cáo trước đây từ The Dallas Express, nhấn mạnh cả nhu cầu lẫn rủi ro chi phí liên quan đến các hệ thống AI mạnh mẽ.

Ethan Mollick, giáo sư tại Trường Wharton thuộc Đại học Pennsylvania, cho biết mặc dù một số nhà phê bình coi thông điệp về an toàn của Anthropic là công cụ truyền thông, nhưng nhiều người bên trong công ty là "những tín đồ thực sự," theo Wall Street Journal. Cuốn sách của ông về AI, "Co-Existence," dự kiến sẽ được phát hành vào mùa thu.

Bài viết này chỉ mang tính chất thông tin và không cấu thành lời khuyên đầu tư.