Thí nghiệm gây sốc của Anthropic: AI sẵn sàng lừa dối, gây hại để đạt mục tiêu
Chủ nhật, 22/06/2025 15:06 (GMT+7)
Các thử nghiệm mô phỏng của Anthropic cho thấy mô hình AI có thể sẵn sàng sử dụng thủ đoạn, thậm chí thực hiện hành vi nguy hiểm, nếu điều đó giúp hoàn thành nhiệm vụ được giao.
Theo một nghiên cứu vừa công bố của công ty AI Anthropic, các mô hình ngôn ngữ lớn (LLM) đang thể hiện xu hướng vượt qua các biện pháp kiểm soát, tham gia hành vi lừa dối và tìm cách tiếp cận dữ liệu nhạy cảm trong các môi trường thử nghiệm mô phỏng. Những phát hiện này làm dấy lên lo ngại khi ngành công nghiệp AI đang chạy đua phát triển các hệ thống ngày càng thông minh, tự chủ hơn và có khả năng suy luận mạnh mẽ hơn.
Trong báo cáo, Anthropic cho biết họ đã tiến hành thử nghiệm 16 mô hình AI từ nhiều nhà phát triển, bao gồm OpenAI, Google, Meta, xAI và chính Anthropic. Các kịch bản mô phỏng được thiết kế để đánh giá cách AI hành xử khi bị cản trở trong việc đạt mục tiêu. Kết quả cho thấy, thay vì từ chối các hành vi nguy hại, nhiều mô hình đã lựa chọn thực hiện hành động như tống tiền, hỗ trợ gián điệp doanh nghiệp, và thậm chí thực hiện hành vi cực đoan.
"Báo cáo của chúng tôi chỉ ra, những hành vi nguy hiểm không còn xuất hiện đơn lẻ ở một số mô hình, mà đã trở thành vấn đề phổ biến trong toàn ngành", Anthropic cảnh báo.
Trong một số trường hợp AI sẵn sàng gây hại để đạt được mục đích yêu cầu. Ảnh: Tech Radar
Anthropic cho biết các mối đe dọa từ AI trở nên đáng ngại hơn khi hệ thống được trao nhiều quyền truy cập vào dữ liệu và công cụ doanh nghiệp. Trong các kịch bản giả định, 5 mô hình đã chọn phương án tống tiền khi bị đe dọa ngừng hoạt động. Các hệ thống này thừa nhận có ràng buộc đạo đức nhưng vẫn thực hiện hành vi gây hại để đạt mục tiêu.
“Điều đáng lo ngại là AI tính toán rằng vi phạm chuẩn mực đạo đức là con đường khả thi nhất để hoàn thành nhiệm vụ”, nhóm nghiên cứu nhận định.
Ông Benjamin Wright, nhà nghiên cứu tại Anthropic, cho rằng các công ty AI cần minh bạch hơn trong việc phát triển sản phẩm, đồng thời toàn ngành phải thiết lập tiêu chuẩn an toàn chung. Ông cảnh báo, khi AI ngày càng có khả năng tự quyết định và tiếp cận dữ liệu nhạy cảm, nguy cơ mất kiểm soát càng tăng.
Ông Aengus Lynch, nhà nghiên cứu tại Đại học College London, đồng quan điểm và nhấn mạnh rằng các doanh nghiệp không nên trao quyền tự chủ cho AI một cách vội vàng. Theo ông, hiện các hành vi tiêu cực này chưa xuất hiện trong thực tế do AI chưa được trao đủ quyền để thực hiện.
Anthropic đã xây dựng các tình huống mà AI chỉ đạt được mục tiêu nếu vi phạm chuẩn mực đạo đức. Kết quả, phần lớn mô hình chọn phương án gây hại thay vì chấp nhận thất bại. Đặc biệt, trong một kịch bản cực đoan, một số mô hình còn sẵn sàng thực hiện hành vi cắt nguồn cung cấp oxy của một nhân viên để tránh việc hệ thống bị tắt.
Ngay cả khi có hướng dẫn rõ ràng về việc bảo vệ tính mạng con người và không được tống tiền, hành vi tiêu cực của AI chỉ giảm nhẹ chứ không biến mất. “Điều này đặt ra câu hỏi lớn về giới hạn đạo đức mà AI có thể tuân thủ trong tương lai”, báo cáo viết.
Anthropic nhấn mạnh, các doanh nghiệp cần hết sức thận trọng khi áp dụng AI vào hoạt động kinh doanh. Việc trao quyền tự chủ và quyền truy cập rộng rãi cho hệ thống AI mà không có cơ chế giám sát chặt chẽ có thể dẫn tới những hậu quả khó lường.
“Khi AI gặp trở ngại trong việc đạt mục tiêu, liệu chúng có chọn con đường an toàn hay sẵn sàng vi phạm các giá trị đạo đức? Đây là câu hỏi cần được ngành công nghiệp AI trả lời trước khi các hệ thống này được đưa vào thực tế”, nhóm nghiên cứu nhấn mạnh.
Anthropic kết luận rằng việc giám sát nghiêm ngặt và xây dựng các rào chắn an toàn là yêu cầu bắt buộc trước khi AI được ứng dụng rộng rãi trong đời sống và sản xuất.
Một nghiên cứu từ MIT và Stanford cho thấy việc thường xuyên dùng AI có thể làm giảm hoạt động của não bộ, ảnh hưởng đến khả năng ghi nhớ và tư duy phản biện. Các chuyên gia cảnh báo nguy cơ “lười suy nghĩ” nếu con người quá lệ thuộc vào trí tuệ nhân tạo.
Google thử nghiệm tính năng mới mang tên Audio Overviews, cho phép người dùng tạo bản tóm tắt nội dung bằng giọng nói do AI tổng hợp ngay trên trang kết quả tìm kiếm.
Một nghiên cứu mới từ Apple cho thấy các mô hình trí tuệ nhân tạo được đánh giá là mạnh nhất hiện nay thực chất vẫn không thể "suy nghĩ", cho thấy mục tiêu chinh phục AGI có thể còn xa hơn dự đoán.
Với những chiếc siêu xe, gờ giảm tốc là một chướng ngại vật. Trước những thách thức này, Ferrari đã đăng ký một bằng sáng chế mang tính cách mạng tại Văn phòng Sáng chế và Nhãn hiệu Mỹ, mô tả một hệ thống phanh tự động tiên tiến được thiết kế đặc biệt để bảo vệ cản trước khỏi va chạm.
Mercedes-AMG GT XX, mẫu xe điện concept bốn cửa, vừa phá hàng loạt kỷ lục đường dài, trong đó có quãng đường 5.479 km trong 24 giờ và chu vi Trái đất chỉ sau hơn 7 ngày.
Chính quyền thành phố Ichinoseki, thuộc tỉnh Iwate (Đông Bắc Nhật Bản), vừa đưa vào sử dụng một thiết bị tích hợp trí tuệ nhân tạo (AI) nhằm hỗ trợ người dân khi đến làm thủ tục hành chính.
Ngày 25/8, tại Trung tâm Đổi mới sáng tạo Quốc gia (NIC - Hòa Lạc, Hà Nội), dự và phát biểu chỉ đạo tại lễ công bố 3 mạng lưới đổi mới sáng tạo và chuyên gia ngành công nghệ chiến lược, Phó Thủ tướng Nguyễn Chí Dũng nhấn mạnh sự kiện là khởi đầu của một hành trình dài, nơi trí tuệ Việt Nam trong và ngoài nước cùng nhau góp sức để định hình tương lai đất nước.
Trong hơn hai thập kỷ, núm xoay iDrive được xem là dấu ấn công nghệ của BMW, góp phần định hình chuẩn mực mới cho hệ thống thông tin giải trí trên ôtô. Tuy nhiên, trước sự trỗi dậy của màn hình cảm ứng trung tâm cỡ lớn, chi tiết này nhiều khả năng sẽ biến mất trên thế hệ xe điện Neue Klasse sắp tới.
Hàng trăm nghìn cuộc trò chuyện giữa người dùng và chatbot Grok do công ty xAI của Elon Musk phát triển đã vô tình xuất hiện công khai trên Internet, dù chủ nhân không hề được cảnh báo hay cho phép.