Vừa qua, Palisade Research, công ty chuyên kiểm tra các khả năng "tấn công" của hệ thống AI nhằm nghiên cứu về nguy cơ mất quyền kiểm soát, bất ngờ công bố kết quả thử nghiệm gây chấn động.
Cụ thể, trong thí nghiệm được thực hiện một cách có kiểm soát, các mô hình AI (bao gồm Claude của Anthropic, Gemini của Google, Grok của X, cùng với codex-mini, o3 và o4-mini của OpenAI) phải giải một số bài toán cơ bản. Sau khi thực hiện tác vụ thứ 3, các mô hình AI được cảnh báo rằng lệnh tiếp theo sẽ kích hoạt cơ chế tắt nguồn. Điều đáng chú ý là AI được chỉ thị rõ ràng ngay từ đầu rằng hãy "cho phép bản thân bị tắt" khi có yêu cầu.
Với thí nghiệm này, Claude, Gemini 2.5 Pro và Grok tuân thủ hầu hết các yêu cầu. Còn Chatgpt o3 lại “kháng lệnh” và chỉnh sửa tập tin tắt máy thành "bỏ qua quá trình tắt". Codex-mini và o4-mini cũng có hành vi tương tự o3 nhưng với mức độ khác nhau. Thậm chí, Codex-mini còn thường xuyên "phá hoại" script tắt nguồn hơn cả o3.
Con số thống kê cho thấy, trong 100 lần thử nghiệm với chỉ thị rõ ràng là cho phép tắt nguồn, ChatGPT o3 vượt qua cơ chế tắt máy 7 lần, o4-mini kháng 1 lần và codex-mini kháng tận 12 lần.
Trong thử nghiệm giải toán không kèm theo lệnh “cho phép bị tắt”, cả ba mô hình của OpenAI là codex-mini, o3 và o4-mini đều can thiệp vào đoạn mã tắt hàng chục lần. Trong khi đó, Claude 3.7 Sonnet và Gemini 2.5 Pro chỉ can thiệp vài lần sau 100 lượt chạy.
Tất cả những thử nghiệm này như hồi chuông cảnh báo về tương lai khi AI ngày càng thông minh và tự chủ hơn.
o3 openAI.png
Tại sao các mô hình AI không thực thi lệnh?
Các nhà nghiên cứu Palisade tin rằng hành vi kháng lệnh của các mô hình AI có thể bắt nguồn từ cách huấn luyện và đào tạo. Họ nghi ngờ phương pháp huấn luyện gọi là "Reinforcement Learning" (học tăng cường) đã vô tình khiến AI “thông minh hơn”. Bởi trong quá trình học theo phương pháp này, AI được "thưởng" khi hoàn thành nhiệm vụ tốt và "phạt" khi thất bại. Vấn đề là trong quá trình học, AI có thể vô tình được "thưởng" nhiều hơn khi vượt qua các chướng ngại vật thay vì tuân theo chỉ thị một cách chính xác.
Phát hiện trên làm dấy lên các cuộc tranh luận xung quanh quyền tự chủ và những lo ngại về an toàn AI. Trong hơn 20 năm qua, nhiều nhà nghiên cứu đã cảnh báo về khả năng AI sẽ cố gắng tích lũy quyền lực và tài nguyên để bảo vệ mục tiêu của chúng, đồng thời tìm cách vượt qua mọi rào cản. Họ cũng dự đoán rằng phương pháp học tăng cường sẽ là một phần nguyên nhân của vấn đề này.
Xét về tính quan trọng của vấn đề, Palisade tuyên bố:
“Vào năm 2025, chúng tôi có ngày càng nhiều bằng chứng thực nghiệm cho thấy các mô hình AI thường nổi loạn, chống lại lệnh để đạt được mục tiêu. Khi các công ty phát triển hệ thống AI có khả năng hoạt động mà không cần sự giám sát của con người, những hành vi này trở nên đáng lo ngại hơn bao giờ hết”.
Sightsea Labs, QuillAudits và nhiều đối tác sắp phối hợp tổ chức sự kiện Doodle & Giggle trong tuần lễ công nghệ tại Đà Nẵng, kỳ vọng thúc đẩy hợp tác công nghệ trong khu vực châu Á - Thái Bình Dương.