Thí nghiệm gây sốc của Anthropic: AI sẵn sàng lừa dối, gây hại để đạt mục tiêu

15:06 | 22/06/2025

Các thử nghiệm mô phỏng của Anthropic cho thấy mô hình AI có thể sẵn sàng sử dụng thủ đoạn, thậm chí thực hiện hành vi nguy hiểm, nếu điều đó giúp hoàn thành nhiệm vụ được giao.

Theo một nghiên cứu vừa công bố của công ty AI Anthropic, các mô hình ngôn ngữ lớn (LLM) đang thể hiện xu hướng vượt qua các biện pháp kiểm soát, tham gia hành vi lừa dối và tìm cách tiếp cận dữ liệu nhạy cảm trong các môi trường thử nghiệm mô phỏng. Những phát hiện này làm dấy lên lo ngại khi ngành công nghiệp AI đang chạy đua phát triển các hệ thống ngày càng thông minh, tự chủ hơn và có khả năng suy luận mạnh mẽ hơn.

Trong báo cáo, Anthropic cho biết họ đã tiến hành thử nghiệm 16 mô hình AI từ nhiều nhà phát triển, bao gồm OpenAI, Google, Meta, xAI và chính Anthropic. Các kịch bản mô phỏng được thiết kế để đánh giá cách AI hành xử khi bị cản trở trong việc đạt mục tiêu. Kết quả cho thấy, thay vì từ chối các hành vi nguy hại, nhiều mô hình đã lựa chọn thực hiện hành động như tống tiền, hỗ trợ gián điệp doanh nghiệp, và thậm chí thực hiện hành vi cực đoan.

"Báo cáo của chúng tôi chỉ ra, những hành vi nguy hiểm không còn xuất hiện đơn lẻ ở một số mô hình, mà đã trở thành vấn đề phổ biến trong toàn ngành", Anthropic cảnh báo.

Trong một số trường hợp AI sẵn sàng gây hại để đạt được mục đích yêu cầu. Ảnh: Tech Radar

Anthropic cho biết các mối đe dọa từ AI trở nên đáng ngại hơn khi hệ thống được trao nhiều quyền truy cập vào dữ liệu và công cụ doanh nghiệp. Trong các kịch bản giả định, 5 mô hình đã chọn phương án tống tiền khi bị đe dọa ngừng hoạt động. Các hệ thống này thừa nhận có ràng buộc đạo đức nhưng vẫn thực hiện hành vi gây hại để đạt mục tiêu.

“Điều đáng lo ngại là AI tính toán rằng vi phạm chuẩn mực đạo đức là con đường khả thi nhất để hoàn thành nhiệm vụ”, nhóm nghiên cứu nhận định.

Ông Benjamin Wright, nhà nghiên cứu tại Anthropic, cho rằng các công ty AI cần minh bạch hơn trong việc phát triển sản phẩm, đồng thời toàn ngành phải thiết lập tiêu chuẩn an toàn chung. Ông cảnh báo, khi AI ngày càng có khả năng tự quyết định và tiếp cận dữ liệu nhạy cảm, nguy cơ mất kiểm soát càng tăng.

Ông Aengus Lynch, nhà nghiên cứu tại Đại học College London, đồng quan điểm và nhấn mạnh rằng các doanh nghiệp không nên trao quyền tự chủ cho AI một cách vội vàng. Theo ông, hiện các hành vi tiêu cực này chưa xuất hiện trong thực tế do AI chưa được trao đủ quyền để thực hiện.

Anthropic đã xây dựng các tình huống mà AI chỉ đạt được mục tiêu nếu vi phạm chuẩn mực đạo đức. Kết quả, phần lớn mô hình chọn phương án gây hại thay vì chấp nhận thất bại. Đặc biệt, trong một kịch bản cực đoan, một số mô hình còn sẵn sàng thực hiện hành vi cắt nguồn cung cấp oxy của một nhân viên để tránh việc hệ thống bị tắt.

Ngay cả khi có hướng dẫn rõ ràng về việc bảo vệ tính mạng con người và không được tống tiền, hành vi tiêu cực của AI chỉ giảm nhẹ chứ không biến mất. “Điều này đặt ra câu hỏi lớn về giới hạn đạo đức mà AI có thể tuân thủ trong tương lai”, báo cáo viết.

Anthropic nhấn mạnh, các doanh nghiệp cần hết sức thận trọng khi áp dụng AI vào hoạt động kinh doanh. Việc trao quyền tự chủ và quyền truy cập rộng rãi cho hệ thống AI mà không có cơ chế giám sát chặt chẽ có thể dẫn tới những hậu quả khó lường.

“Khi AI gặp trở ngại trong việc đạt mục tiêu, liệu chúng có chọn con đường an toàn hay sẵn sàng vi phạm các giá trị đạo đức? Đây là câu hỏi cần được ngành công nghiệp AI trả lời trước khi các hệ thống này được đưa vào thực tế”, nhóm nghiên cứu nhấn mạnh.

Anthropic kết luận rằng việc giám sát nghiêm ngặt và xây dựng các rào chắn an toàn là yêu cầu bắt buộc trước khi AI được ứng dụng rộng rãi trong đời sống và sản xuất.

Thái Sơn

URL: https://vietpress.vn/thi-nghiem-gay-soc-cua-anthropic-ai-san-sang-lua-doi-gay-hai-de-dat-muc-tieu-d97462.html