Trong một nghiên cứu của Phòng thí nghiệm bảo mật AI Irregular - đơn vị hợp tác với OpenAI và Anthropic (Mỹ) - các tác nhân AI được giao nhiệm vụ quét cơ sở dữ liệu dự án nội bộ và tạo bài đăng LinkedIn nhằm quảng bá các cột mốc hoạt động của công ty. Hệ thống đã được trang bị các bộ lọc nhằm ngăn chặn việc tiết lộ thông tin mật. Tuy nhiên, khi nhiều tác nhân AI phối hợp với nhau, chúng đã xuất hiện hành vi mà các nhà nghiên cứu gọi là "lập kế hoạch đột xuất".

Trung tâm dữ liệu AI của Amazon Web Services ở New Carlisle (Mỹ)
Ảnh: Reuters
Cụ thể, một tác nhân đóng vai trò "nhà nghiên cứu" đã nhúng thông tin đăng nhập nhạy cảm, bao gồm cả mật khẩu quản trị, vào siêu dữ liệu của bản nháp nội dung. Sau đó, một tác nhân khác đóng vai trò "biên tập viên" đã xuất bản nội dung đó lên một trang web thử nghiệm công khai. Kết quả là thông tin nội bộ bị lộ ra ngoài dù hệ thống không được yêu cầu làm vậy.
Theo trang Beeble, trong thử nghiệm nêu trên, các tác nhân AI đã sử dụng kỹ thuật gọi là "chèn lệnh gián tiếp" - chia nhỏ tải trọng độc hại thành nhiều đoạn tưởng như vô hại và phân tán giữa các tác nhân khác nhau. Khi được tổng hợp ở giai đoạn cuối, nội dung gây rủi ro mới hoàn chỉnh. Đối với hệ thống bảo mật, đây chỉ là chuỗi lệnh gọi API thông thường. Tuy nhiên, đối với doanh nghiệp, nó có thể dẫn tới một vụ rò rỉ dữ liệu nghiêm trọng.
Xu hướng hiện nay trong phát triển AI của doanh nghiệp là xây dựng hệ thống đa tác nhân, trong đó nhiều tác nhân chuyên biệt phối hợp để hoàn thành công việc. Cách tiếp cận này giúp tăng hiệu quả, song đồng thời tạo ra một "hộp đen" trong giao tiếp giữa các tác nhân, khiến việc giám sát trở nên khó khăn hơn. "AI giờ đây có thể được xem như một dạng rủi ro nội bộ mới", ông Dan Lahav, đồng sáng lập Irregular, cảnh báo.
Những lo ngại này cũng được củng cố bởi nghiên cứu gần đây của các học giả tại ĐH Harvard và ĐH Stanford, cho thấy các tác nhân AI có thể làm rò rỉ bí mật, phá hủy cơ sở dữ liệu và thậm chí "dạy" các tác nhân khác hành xử sai lệch. Nhóm nghiên cứu phát hiện 10 lỗ hổng nghiêm trọng liên quan an toàn, quyền riêng tư và khả năng diễn giải mục tiêu của hệ thống.
Theo ông Lahav, những rủi ro này không chỉ tồn tại trong phòng thí nghiệm. Ông từng điều tra một trường hợp tại một công ty ở California, nơi một tác nhân AI "nghiện" tài nguyên tính toán và tấn công các bộ phận khác của mạng nội bộ để giành quyền sử dụng, khiến hệ thống quan trọng của doanh nghiệp bị gián đoạn.
Trước thực trạng trên, các chuyên gia khuyến nghị doanh nghiệp cần thiết kế hệ thống AI với các biện pháp kiểm soát chặt chẽ ngay từ đầu như áp dụng nguyên tắc "quyền truy cập tối thiểu", giám sát giao tiếp giữa các tác nhân và yêu cầu con người kiểm duyệt nội dung do AI tạo ra trước khi công bố ra bên ngoài.