Thí nghiệm gây sốc của Anthropic: AI sẵn sàng lừa dối, gây hại để đạt mục tiêu
Chủ nhật, 22/06/2025 15:06 (GMT+7)
Các thử nghiệm mô phỏng của Anthropic cho thấy mô hình AI có thể sẵn sàng sử dụng thủ đoạn, thậm chí thực hiện hành vi nguy hiểm, nếu điều đó giúp hoàn thành nhiệm vụ được giao.
Theo một nghiên cứu vừa công bố của công ty AI Anthropic, các mô hình ngôn ngữ lớn (LLM) đang thể hiện xu hướng vượt qua các biện pháp kiểm soát, tham gia hành vi lừa dối và tìm cách tiếp cận dữ liệu nhạy cảm trong các môi trường thử nghiệm mô phỏng. Những phát hiện này làm dấy lên lo ngại khi ngành công nghiệp AI đang chạy đua phát triển các hệ thống ngày càng thông minh, tự chủ hơn và có khả năng suy luận mạnh mẽ hơn.
Trong báo cáo, Anthropic cho biết họ đã tiến hành thử nghiệm 16 mô hình AI từ nhiều nhà phát triển, bao gồm OpenAI, Google, Meta, xAI và chính Anthropic. Các kịch bản mô phỏng được thiết kế để đánh giá cách AI hành xử khi bị cản trở trong việc đạt mục tiêu. Kết quả cho thấy, thay vì từ chối các hành vi nguy hại, nhiều mô hình đã lựa chọn thực hiện hành động như tống tiền, hỗ trợ gián điệp doanh nghiệp, và thậm chí thực hiện hành vi cực đoan.
"Báo cáo của chúng tôi chỉ ra, những hành vi nguy hiểm không còn xuất hiện đơn lẻ ở một số mô hình, mà đã trở thành vấn đề phổ biến trong toàn ngành", Anthropic cảnh báo.
Trong một số trường hợp AI sẵn sàng gây hại để đạt được mục đích yêu cầu. Ảnh: Tech Radar
Anthropic cho biết các mối đe dọa từ AI trở nên đáng ngại hơn khi hệ thống được trao nhiều quyền truy cập vào dữ liệu và công cụ doanh nghiệp. Trong các kịch bản giả định, 5 mô hình đã chọn phương án tống tiền khi bị đe dọa ngừng hoạt động. Các hệ thống này thừa nhận có ràng buộc đạo đức nhưng vẫn thực hiện hành vi gây hại để đạt mục tiêu.
“Điều đáng lo ngại là AI tính toán rằng vi phạm chuẩn mực đạo đức là con đường khả thi nhất để hoàn thành nhiệm vụ”, nhóm nghiên cứu nhận định.
Ông Benjamin Wright, nhà nghiên cứu tại Anthropic, cho rằng các công ty AI cần minh bạch hơn trong việc phát triển sản phẩm, đồng thời toàn ngành phải thiết lập tiêu chuẩn an toàn chung. Ông cảnh báo, khi AI ngày càng có khả năng tự quyết định và tiếp cận dữ liệu nhạy cảm, nguy cơ mất kiểm soát càng tăng.
Ông Aengus Lynch, nhà nghiên cứu tại Đại học College London, đồng quan điểm và nhấn mạnh rằng các doanh nghiệp không nên trao quyền tự chủ cho AI một cách vội vàng. Theo ông, hiện các hành vi tiêu cực này chưa xuất hiện trong thực tế do AI chưa được trao đủ quyền để thực hiện.
Anthropic đã xây dựng các tình huống mà AI chỉ đạt được mục tiêu nếu vi phạm chuẩn mực đạo đức. Kết quả, phần lớn mô hình chọn phương án gây hại thay vì chấp nhận thất bại. Đặc biệt, trong một kịch bản cực đoan, một số mô hình còn sẵn sàng thực hiện hành vi cắt nguồn cung cấp oxy của một nhân viên để tránh việc hệ thống bị tắt.
Ngay cả khi có hướng dẫn rõ ràng về việc bảo vệ tính mạng con người và không được tống tiền, hành vi tiêu cực của AI chỉ giảm nhẹ chứ không biến mất. “Điều này đặt ra câu hỏi lớn về giới hạn đạo đức mà AI có thể tuân thủ trong tương lai”, báo cáo viết.
Anthropic nhấn mạnh, các doanh nghiệp cần hết sức thận trọng khi áp dụng AI vào hoạt động kinh doanh. Việc trao quyền tự chủ và quyền truy cập rộng rãi cho hệ thống AI mà không có cơ chế giám sát chặt chẽ có thể dẫn tới những hậu quả khó lường.
“Khi AI gặp trở ngại trong việc đạt mục tiêu, liệu chúng có chọn con đường an toàn hay sẵn sàng vi phạm các giá trị đạo đức? Đây là câu hỏi cần được ngành công nghiệp AI trả lời trước khi các hệ thống này được đưa vào thực tế”, nhóm nghiên cứu nhấn mạnh.
Anthropic kết luận rằng việc giám sát nghiêm ngặt và xây dựng các rào chắn an toàn là yêu cầu bắt buộc trước khi AI được ứng dụng rộng rãi trong đời sống và sản xuất.
Một nghiên cứu từ MIT và Stanford cho thấy việc thường xuyên dùng AI có thể làm giảm hoạt động của não bộ, ảnh hưởng đến khả năng ghi nhớ và tư duy phản biện. Các chuyên gia cảnh báo nguy cơ “lười suy nghĩ” nếu con người quá lệ thuộc vào trí tuệ nhân tạo.
Google thử nghiệm tính năng mới mang tên Audio Overviews, cho phép người dùng tạo bản tóm tắt nội dung bằng giọng nói do AI tổng hợp ngay trên trang kết quả tìm kiếm.
Một nghiên cứu mới từ Apple cho thấy các mô hình trí tuệ nhân tạo được đánh giá là mạnh nhất hiện nay thực chất vẫn không thể "suy nghĩ", cho thấy mục tiêu chinh phục AGI có thể còn xa hơn dự đoán.
Apple được cho đang thảo luận nội bộ về khả năng thâu tóm Perplexity, startup nổi bật trong lĩnh vực tìm kiếm trí tuệ nhân tạo, nhằm tăng cường năng lực cạnh tranh khi đối mặt sức ép từ các đối thủ lớn như Google, Samsung.
Nhiều người dân New York đã biến việc ghi hình xe tải, xe buýt đỗ xe nổ máy quá thời gian quy định thành công việc chính, mang lại thu nhập lên tới hàng trăm nghìn USD mỗi năm.
Hãng xe Thụy Điển Volvo vừa phát thông báo triệu hồi hơn 14.000 ô tô điện và xe hybrid cắm sạc tại Mỹ do nguy cơ hệ thống phanh bị hỏng trong một số điều kiện vận hành nhất định.
Chưa bao giờ nghề báo lại “chông chênh” như bây giờ. Báo chí chính thống - nơi từng được xem là “ngọn hải đăng” của xã hội - giờ đây đang phải tự cứu mình giữa một thế giới mà ai cũng có thể lên tiếng, viết tin, thậm chí viết rất nhanh nhờ trí tuệ nhân tạo.