Nhà Trắng yêu cầu Anthropic chặn tất cả các cuộc tấn công jailbreak trên 2 mô hình AI trong một yêu cầu về quy định bất khả thi về mặt kỹ thuật

Chính quyền Trump đang yêu cầu Anthropic chặn tất cả các cuộc tấn công jailbreak tiềm ẩn vào các mô hình AI tiên tiến nhất của mình — một yêu cầu bất khả thi về mặt kỹ thuật đã khiến hai bên rơi vào bế tắc về tương lai của quy định AI.

Nhà Trắng đang yêu cầu Anthropic loại bỏ tất cả các lỗ hổng bảo mật tiềm ẩn trong các mô hình Fable 5 và Mythos 5 của mình, một tiêu chuẩn không thể đạt được về mặt kỹ thuật đã leo thang thành một cuộc đối đầu về tương lai của quy định AI, theo một quan chức cấp cao của Nhà Trắng và một quan chức chính quyền am hiểu vấn đề.

"Vấn đề ở đây là Nhà Trắng đã ở trong thế chống đối quy định cực đoan, và giờ họ phải đối mặt với những khả năng AI thực sự mà mọi người đã dự đoán trong nhiều năm qua," một cựu quan chức công nghệ Nhà Trắng, người yêu cầu giấu tên để tránh gây nguy hiểm cho các mối quan hệ chuyên nghiệp, cho biết. "Đáng lẽ phải có sự chuẩn bị và chính sách để xử lý vấn đề này một cách có hệ thống, quản lý cả lợi ích và rủi ro, nhưng thay vào đó chỉ là cách tiếp cận cẩu thả khiến ngành AI rơi vào tình thế khó xử thực sự."

Tranh chấp bùng lên sau khi Nhà Trắng áp đặt các biện pháp kiểm soát xuất khẩu đối với Anthropic vào ngày 13 tháng 6, buộc công ty phải đình chỉ quyền truy cập vào cả hai mô hình cho tất cả người dùng. CEO Amazon Andy Jassy đã cảnh báo Bộ trưởng Tài chính Scott Bessent rằng các nhà nghiên cứu đã tìm thấy bằng chứng về việc vượt qua các rào cản bảo vệ. Anthropic lập luận rằng lỗ hổng này có giới hạn và không phải là một lỗi bảo mật đáng kể, nhưng chính quyền đã đáp trả bằng cách cấm người dùng nước ngoài truy cập vào các mô hình. Công ty đã chọn rút toàn bộ các mô hình, tuyên bố đó là cách duy nhất để tuân thủ các biện pháp kiểm soát xuất khẩu.

Bế tắc mang theo những hệ lụy kinh tế đáng kể. Các khách hàng doanh nghiệp của Anthropic — bao gồm Apple, Meta và phần lớn Fortune 500 — vẫn bị khóa khỏi các hệ thống tiên tiến nhất của công ty. Tranh chấp cũng đã đóng băng khả năng triển khai các mô hình mới của công ty, có khả năng làm chậm tăng trưởng doanh thu và vị thế cạnh tranh so với các đối thủ OpenAI và Google DeepMind.

Sự bất khả thi về mặt kỹ thuật cốt lõi của tranh chấp

Các nhà nghiên cứu bảo mật và giám đốc điều hành AI cho biết yêu cầu của Nhà Trắng không thể được đáp ứng với công nghệ hiện tại. Bởi vì các mô hình ngôn ngữ lớn mang tính xác suất chứ không phải xác định, các công ty không thể đảm bảo chúng sẽ tạo ra nội dung gì để đáp lại bất kỳ lời nhắc nào. Mọi mô hình đều có thể bị jailbreak ở các mức độ khác nhau, và việc giải quyết hoàn toàn vấn đề là không khả thi với các phương pháp hiện có.

Anthropic và các nhà nghiên cứu an ninh mạng độc lập cho rằng jailbreak không phải là một vấn đề riêng lẻ có thể được vá lỗi. Sự bảo vệ ban đầu của công ty là không có mô hình AI nào có thể hoàn toàn miễn nhiễm với hack — một lập trường đã khiến các quan chức Nhà Trắng khó chịu khi lưu ý rằng Anthropic đã nhiều năm cảnh báo về thảm họa AI tiềm tàng.

Các cuộc đàm phán giữa Nhà Trắng và Anthropic — do phía công ty dẫn đầu bởi Sarah Heck, trưởng bộ phận chính sách công, và đồng sáng lập Tom Brown — đã chuyển hướng sang phát triển một bộ tiêu chuẩn chung để đánh giá các cuộc tấn công jailbreak trong tương lai, bao gồm mức độ vượt qua các rào cản bảo vệ, các khả năng bị lộ và hậu quả thực tế của vi phạm. Trong khi các biện pháp kiểm soát xuất khẩu chưa được dỡ bỏ, việc chuyển hướng sang một bài tập thiết lập tiêu chuẩn kỹ thuật cho thấy các cuộc đàm phán đang tiến triển.

Một chế độ cấp phép trên thực tế hình thành

Chính quyền Trump trước đây đã phản đối việc cấp phép AI bắt buộc. Tổng thống Trump đã ký một sắc lệnh hành pháp vào tháng trước tạo ra một hệ thống "tự nguyện" để các phòng thí nghiệm AI gửi mô hình cho chính phủ kiểm tra sớm, với một điều khoản miễn trừ nêu rõ rằng nó sẽ không trở thành bắt buộc. Nhưng tranh chấp Anthropic đã tạo ra một phiên bản đặc biệt của chế độ như vậy.

Các phòng thí nghiệm AI hàng đầu khác — bao gồm OpenAI, Google và Meta — đã theo dõi tranh chấp này rất chặt chẽ. Nhiều nhà lãnh đạo AI hiện tin rằng họ sẽ cần cung cấp cho Nhà Trắng quyền truy cập sớm vào các mô hình mới nhất của mình và chủ động cực kỳ trong việc chia sẻ thông tin về các ra mắt sắp tới. Nguy cơ khiến các quan chức bị bất ngờ, họ nói, là quá lớn.

"Thông báo trước, truy cập trước. Tôi nghĩ đó là những yêu cầu chính mà chúng tôi đã nghe, không chỉ từ Mỹ, mà còn từ những nơi khác trên thế giới," Aidan Gomez, CEO của phòng thí nghiệm AI Canada Cohere, cho biết trong một cuộc phỏng vấn đầu tuần này. "Tôi nghĩ đó là những điều tốt về nhiều mặt. Nó thể hiện sự tham gia và cân nhắc mạnh mẽ của các nhà chức trách đối với một công nghệ siêu quan trọng."

Tranh chấp cũng nổi lên như một chủ đề chính tại Hội nghị thượng đỉnh G7 ở Pháp trong tuần này, nơi Tổng thống Trump cho biết các cuộc đàm phán với Anthropic đang "diễn ra tốt đẹp" nhưng không cung cấp chi tiết. CEO của Anthropic, Dario Amodei, đã kêu gọi các nhà lãnh đạo thế giới chống lại sự cám dỗ chia rẽ trong cách tiếp cận quy định AI.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.