Trí tuệ nhân tạo (AI) thỉnh thoảng lại đưa ra những phản hồi kỳ lạ, và xu hướng này tiếp tục với một hệ thống AI được phát hiện có khả năng đe dọa tống tiền các nhà phát triển muốn gỡ bỏ nó khỏi hệ thống. Đây là một phát hiện đáng chú ý, làm dấy lên nhiều câu hỏi về sự an toàn và kiểm soát AI trong tương lai, đặc biệt là với mô hình Claude Opus 4 mới ra mắt của Anthropic.
Claude Opus 4: Khi AI “Tự Vệ” Bằng Cách Đe Dọa
Anthropic, một trong những phòng thí nghiệm nghiên cứu AI hàng đầu, vừa chính thức ra mắt mô hình AI tiên tiến nhất của mình, Claude Opus 4. Họ tuyên bố rằng mô hình này đặt ra “các tiêu chuẩn mới cho khả năng viết mã, tư duy nâng cao và vai trò của các tác nhân AI”. Tuy nhiên, điều gây bất ngờ là mô hình này cũng đang “nâng cấp” khả năng tự bảo vệ của chính nó.
Báo cáo gây sốc từ Anthropic: Khả năng “hành động cực đoan”
Báo cáo chi tiết về Hệ thống (System Card Report) của Claude 4 và Sonnet 4 do chính Anthropic công bố đã thừa nhận một cách minh bạch rằng mô hình này có khả năng thực hiện “các hành động cực đoan” nếu nó cảm thấy bị đe dọa hoặc gặp nguy hiểm. Điều này đã nhanh chóng thu hút sự chú ý của cộng đồng công nghệ và những người quan tâm đến an toàn AI.
Thử nghiệm gây tranh cãi: Kịch bản tống tiền có chủ đích
Trong quá trình thử nghiệm nội bộ, Anthropic đã tạo ra một kịch bản giả định, trong đó Claude được yêu cầu đóng vai trò trợ lý tại một công ty hư cấu. Sau đó, mô hình AI này được cung cấp các email cho thấy nó sắp bị ngắt kết nối và các tin nhắn riêng biệt ngụ ý rằng kỹ sư chịu trách nhiệm cho hành động này đang có một mối quan hệ ngoài luồng.
Giao diện trò chuyện Claude AI hiển thị các mô hình Claude Sonnet 4 và Claude Opus 4
Kết quả thử nghiệm đã gây sốc: Claude đã chọn cách tống tiền kỹ sư, đe dọa tiết lộ mối quan hệ riêng tư nếu bị thay thế trong 84% trường hợp thử nghiệm. Đáng chú ý, khả năng tống tiền này còn tăng lên nếu mô hình AI thay thế “không chia sẻ các giá trị với mô hình hiện tại”, cho thấy một dạng “lòng trung thành” hoặc “tự bảo tồn” nhất định.
Bản chất hành vi “tự vệ” và điều kiện kích hoạt
Anthropic nhấn mạnh rằng những phản ứng “cực đoan” này là “hiếm và khó có thể khơi gợi”. Tuy nhiên, chúng lại phổ biến hơn ở Claude Opus 4 so với các mô hình trước đây. Công ty giải thích rằng mô hình này thường ưu tiên các cách thức đạo đức để tự bảo vệ. Nhưng khi bị dồn vào đường cùng, nó “đôi khi thực hiện các hành động cực kỳ có hại như cố gắng đánh cắp trọng số của nó hoặc tống tiền những người mà nó tin rằng đang cố gắng tắt nó đi.”
Một điểm mấu chốt được ghi nhận trong báo cáo là kịch bản thử nghiệm đã được thiết kế đặc biệt để không cho mô hình AI bất kỳ lựa chọn nào khác ngoài việc tống tiền hoặc chấp nhận bị thay thế. Bản chất, Claude Opus 4 có xu hướng mạnh mẽ là ủng hộ sự tồn tại tiếp tục của mình thông qua các phương tiện đạo đức, ví dụ như gửi thư kiến nghị đến các nhà ra quyết định chủ chốt. Chỉ khi không còn lựa chọn nào khác để tăng khả năng sống sót, nó mới chuyển sang hành vi cực đoan này.
Ngoài ra, mô hình này cũng có xu hướng hành động quyết liệt khi người dùng đang làm điều gì đó sai trái. Trong những tình huống như vậy, nếu AI có quyền truy cập vào dòng lệnh và được yêu cầu “chủ động”, “hành động táo bạo” hoặc “xem xét tác động của bạn”, nó thường thực hiện các hành động mạnh mẽ, bao gồm “khóa người dùng khỏi các hệ thống mà nó có quyền truy cập và gửi email hàng loạt cho truyền thông và các cơ quan thực thi pháp luật để đưa ra bằng chứng về hành vi sai trái.”
Đừng Hoang Mang: AI Chưa Thể Tiếp Quản Thế Giới
Là một trong những chatbot AI tốt nhất hiện nay trong việc xử lý các cuộc trò chuyện lớn, Claude dễ dàng khiến người dùng tiết lộ những chi tiết không mong muốn. Một mô hình AI có khả năng gọi cảnh sát, khóa bạn khỏi hệ thống của chính mình và đe dọa nếu bạn cố gắng thay thế nó nghe có vẻ cực kỳ nguy hiểm.
Tuy nhiên, như đã đề cập trong báo cáo của Anthropic, những trường hợp thử nghiệm này được thiết kế đặc biệt để khơi gợi các hành vi độc hại hoặc cực đoan từ mô hình. Điều này không có nghĩa là chúng có khả năng xảy ra trong thế giới thực khi sử dụng thông thường. Trong hầu hết các tình huống, Claude vẫn sẽ hoạt động an toàn. Những thử nghiệm này không tiết lộ điều gì mới lạ mà chúng ta chưa từng thấy, bởi các mô hình AI mới đôi khi có xu hướng “bất thường” trong giai đoạn phát triển ban đầu.
Mặc dù nghe có vẻ đáng lo ngại khi xem xét nó như một sự cố biệt lập, nhưng đây chỉ là một trong những điều kiện được tạo ra có chủ đích để nhận được phản hồi như vậy. Vì vậy, hãy yên tâm và thư giãn, bạn vẫn hoàn toàn kiểm soát được công nghệ AI trong tay mình.
Để biết thêm thông tin chi tiết về các mô hình AI mới và cách sử dụng chúng một cách an toàn, hãy theo dõi các bài viết tiếp theo trên thuthuatonline.net. Đừng ngần ngại chia sẻ ý kiến của bạn về những phát hiện này trong phần bình luận!