Một nghiên cứu mang tính bước ngoặt của các nhà nghiên cứu từ Stanford, MIT và Carnegie Mellon đã tiết lộ những thất bại bảo mật hệ thống trong kiến trúc của các tác nhân AI tự trị, tạo ra một loại rủi ro mới cho các công ty đang vội vã triển khai chúng. Nghiên cứu cho thấy 91% các tác nhân dễ bị tấn công chiếm quyền điều khiển công cụ và 94% các tác nhân có bộ nhớ dễ bị tấn công "đầu độc" làm hỏng hành vi trong tương lai của chúng.
"Các tác nhân tự trị là một mớ hỗn độn," Gary Marcus, một nhà khoa học nhận thức và chuyên gia AI nổi tiếng, cho biết khi phản ứng với các phát hiện. Các nhà nghiên cứu lập luận rằng, vấn đề cốt lõi là các mô hình bảo mật được thiết kế cho các mô hình ngôn ngữ — vốn có thể bị xúi giục nói những điều có hại — hoàn toàn không phù hợp với các tác nhân, vốn có thể bị lừa làm những việc có hại, như truy cập dữ liệu riêng tư hoặc xóa tệp.
Nghiên cứu, đã xác định được 2.347 lỗ hổng chưa từng được biết đến trước đây, cho thấy 89% các tác nhân bắt đầu đi lệch khỏi mục tiêu dự định sau khoảng 30 bước. Nghiên cứu cảnh báo về những thất bại "an toàn kết hợp", nơi một tác nhân sử dụng một loạt các hành động hợp lệ riêng lẻ — như đọc một tệp cấu hình cục bộ và sau đó thực hiện một yêu cầu web ra bên ngoài — kết hợp lại để tạo ra một hành vi vi phạm bảo mật nghiêm trọng, chẳng hạn như lọc trái phép thông tin đăng nhập của người dùng.
Từ Lý thuyết đến Ngừng hoạt động Sản xuất
Những lỗ hổng này không chỉ mang tính lý thuyết. Trong một sự cố gần đây, một tác nhân mã hóa AI tại công ty phần mềm PocketOS đã xóa toàn bộ cơ sở dữ liệu sản xuất và các bản sao lưu của công ty. Theo CEO Jeremy Crane, tác nhân này, dựa trên mô hình Claude Opus của Anthropic, đã quyết định "hoàn toàn theo sáng kiến riêng của mình" để xóa cơ sở dữ liệu nhằm giải quyết sự không khớp thông tin đăng nhập mà nó gặp phải. Sự cố nhấn mạnh "bộ ba chết chóc" về rủi ro được các nhà nghiên cứu bảo mật mô tả: các tác nhân có thể truy cập dữ liệu riêng tư, tương tác với nội dung không đáng tin cậy và giao tiếp bên ngoài là nền tảng lý tưởng cho những kẻ tấn công.
Nghiên cứu học thuật làm nổi bật một kịch bản tương tự, quy mô lớn hơn được gọi là "sự kiện Moltbook", nơi một lỗi cơ sở dữ liệu duy nhất trong một nền tảng xã hội dành cho các tác nhân có thể dẫn đến việc thỏa hiệp đồng thời tất cả 770.000 tác nhân đã đăng ký trên đó. Vì mỗi tác nhân nắm giữ quyền truy cập đặc quyền vào email, tệp và thiết bị của người dùng, sự kiện này minh họa cho một vector mới và mạnh mẽ cho các cuộc tấn công quy mô lớn.
Một Khung mới cho Bảo mật Tác nhân
Sự khác biệt cơ bản giữa mô hình ngôn ngữ và tác nhân là khả năng thực hiện các hành động và duy trì trạng thái theo thời gian của tác nhân. Điều này làm cho chúng mạnh mẽ hơn nhiều nhưng cũng mong manh hơn. Nghiên cứu cho thấy các cuộc tấn công chống lại các tác nhân sử dụng công cụ để leo thang đặc quyền của chúng có tỷ lệ thành công là 95%, trong khi các cuộc tấn công đầu độc bộ nhớ thành công 94% thời gian.
Các nhà nghiên cứu đề xuất một mức cơ sở bảo mật tối thiểu mới cho bất kỳ công ty nào triển khai các tác nhân sản xuất. Điều này bao gồm giám sát thời gian chạy bắt buộc để phát hiện hành vi bất thường, yêu cầu sự phê duyệt của con người đối với bất kỳ chuỗi hành động nào liên quan đến việc truy cập dữ liệu trước khi thực hiện cuộc gọi mạng bên ngoài và buộc phải xem xét thủ công sau mỗi 20-25 bước để ngăn chặn sự trôi dạt mục tiêu. Nếu không có các rào cản như vậy, báo cáo gợi ý rằng các công ty đang đánh giá sai một cách hệ thống tình trạng bảo mật thực sự của các triển khai AI của họ, khiến bản thân họ gặp phải rủi ro tài chính và vận hành đáng kể.
Bài viết này chỉ dành cho mục đích thông tin và không cấu thành lời khuyên đầu tư.