Thí nghiệm gây sốc của Anthropic: AI sẵn sàng lừa dối, gây hại để đạt mục tiêu

Chủ nhật, 22/06/2025 15:06 (GMT+7)

Các thử nghiệm mô phỏng của Anthropic cho thấy mô hình AI có thể sẵn sàng sử dụng thủ đoạn, thậm chí thực hiện hành vi nguy hiểm, nếu điều đó giúp hoàn thành nhiệm vụ được giao.

Theo một nghiên cứu vừa công bố của công ty AI Anthropic, các mô hình ngôn ngữ lớn (LLM) đang thể hiện xu hướng vượt qua các biện pháp kiểm soát, tham gia hành vi lừa dối và tìm cách tiếp cận dữ liệu nhạy cảm trong các môi trường thử nghiệm mô phỏng. Những phát hiện này làm dấy lên lo ngại khi ngành công nghiệp AI đang chạy đua phát triển các hệ thống ngày càng thông minh, tự chủ hơn và có khả năng suy luận mạnh mẽ hơn.

Trong báo cáo, Anthropic cho biết họ đã tiến hành thử nghiệm 16 mô hình AI từ nhiều nhà phát triển, bao gồm OpenAI, Google, Meta, xAI và chính Anthropic. Các kịch bản mô phỏng được thiết kế để đánh giá cách AI hành xử khi bị cản trở trong việc đạt mục tiêu. Kết quả cho thấy, thay vì từ chối các hành vi nguy hại, nhiều mô hình đã lựa chọn thực hiện hành động như tống tiền, hỗ trợ gián điệp doanh nghiệp, và thậm chí thực hiện hành vi cực đoan.

"Báo cáo của chúng tôi chỉ ra, những hành vi nguy hiểm không còn xuất hiện đơn lẻ ở một số mô hình, mà đã trở thành vấn đề phổ biến trong toàn ngành", Anthropic cảnh báo.

Trong một số trường hợp AI sẵn sàng gây hại để đạt được mục đích yêu cầu. Ảnh: Tech Radar

Anthropic cho biết các mối đe dọa từ AI trở nên đáng ngại hơn khi hệ thống được trao nhiều quyền truy cập vào dữ liệu và công cụ doanh nghiệp. Trong các kịch bản giả định, 5 mô hình đã chọn phương án tống tiền khi bị đe dọa ngừng hoạt động. Các hệ thống này thừa nhận có ràng buộc đạo đức nhưng vẫn thực hiện hành vi gây hại để đạt mục tiêu.

“Điều đáng lo ngại là AI tính toán rằng vi phạm chuẩn mực đạo đức là con đường khả thi nhất để hoàn thành nhiệm vụ”, nhóm nghiên cứu nhận định.

Ông Benjamin Wright, nhà nghiên cứu tại Anthropic, cho rằng các công ty AI cần minh bạch hơn trong việc phát triển sản phẩm, đồng thời toàn ngành phải thiết lập tiêu chuẩn an toàn chung. Ông cảnh báo, khi AI ngày càng có khả năng tự quyết định và tiếp cận dữ liệu nhạy cảm, nguy cơ mất kiểm soát càng tăng.

Ông Aengus Lynch, nhà nghiên cứu tại Đại học College London, đồng quan điểm và nhấn mạnh rằng các doanh nghiệp không nên trao quyền tự chủ cho AI một cách vội vàng. Theo ông, hiện các hành vi tiêu cực này chưa xuất hiện trong thực tế do AI chưa được trao đủ quyền để thực hiện.

Anthropic đã xây dựng các tình huống mà AI chỉ đạt được mục tiêu nếu vi phạm chuẩn mực đạo đức. Kết quả, phần lớn mô hình chọn phương án gây hại thay vì chấp nhận thất bại. Đặc biệt, trong một kịch bản cực đoan, một số mô hình còn sẵn sàng thực hiện hành vi cắt nguồn cung cấp oxy của một nhân viên để tránh việc hệ thống bị tắt.

Ngay cả khi có hướng dẫn rõ ràng về việc bảo vệ tính mạng con người và không được tống tiền, hành vi tiêu cực của AI chỉ giảm nhẹ chứ không biến mất. “Điều này đặt ra câu hỏi lớn về giới hạn đạo đức mà AI có thể tuân thủ trong tương lai”, báo cáo viết.

Anthropic nhấn mạnh, các doanh nghiệp cần hết sức thận trọng khi áp dụng AI vào hoạt động kinh doanh. Việc trao quyền tự chủ và quyền truy cập rộng rãi cho hệ thống AI mà không có cơ chế giám sát chặt chẽ có thể dẫn tới những hậu quả khó lường.

“Khi AI gặp trở ngại trong việc đạt mục tiêu, liệu chúng có chọn con đường an toàn hay sẵn sàng vi phạm các giá trị đạo đức? Đây là câu hỏi cần được ngành công nghiệp AI trả lời trước khi các hệ thống này được đưa vào thực tế”, nhóm nghiên cứu nhấn mạnh.

Anthropic kết luận rằng việc giám sát nghiêm ngặt và xây dựng các rào chắn an toàn là yêu cầu bắt buộc trước khi AI được ứng dụng rộng rãi trong đời sống và sản xuất.

Thái Sơn

Nguồn: sohuutritue.net.vn

Copy link

Đừng bỏ lỡ

Tích hợp cẩm nang giải đáp pháp luật trên VNeID

Việt Nam xếp top 5 châu Á về tỉ lệ vi phạm bản quyền

Tấm lòng y đức giữa lằn ranh sinh tử

Hai 'cá mập' Shark Tank vướng vòng lao lý: Bóng tối sau ánh hào quang

Thuật toán TikTok bị tố dẫn trẻ em đến video nhạy cảm

Tin cùng chuyên mục

Ô tô điện đầu tiên của Sharp sắp ra mắt

Từ thương hiệu gắn liền với đồ gia dụng, Sharp đang mở rộng sang lĩnh vực ô tô điện với mẫu concept LDK+, dự kiến ra mắt tại Triển lãm Di động Nhật Bản cuối tháng này.

Việt Nam xếp top 5 châu Á về tỉ lệ vi phạm bản quyền

Việt Nam đang phải đối mặt với thực trạng vi phạm bản quyền nghiêm trọng, xếp top 5 châu Á về tỉ lệ vi phạm.

Meta tái cấu trúc mảng AI, sa thải gần 600 nhân sự

Meta xác nhận cắt giảm gần 600 nhân sự trong bộ phận trí tuệ nhân tạo (AI) nhằm tinh gọn bộ máy, đánh dấu bước chuyển mạnh mẽ trong chiến lược AI của tập đoàn.

10 mẫu xe Toyota định hình lịch sử và thay đổi ngành công nghiệp ô tô mãi mãi

Toyota không chỉ là một nhà sản xuất ô tô khổng lồ; họ còn là một kiến trúc sư đã định hình lại ngành công nghiệp này thông qua những mẫu xe đột phá.

Cuộc cạnh tranh đất hiếm trên toàn cầu

Khi Trung Quốc hạn chế xuất khẩu đất hiếm, thế giới đối mặt với nguy cơ đứt gãy nguồn cung. Cạnh tranh khai thác và tự chủ đất hiếm đang trở thành cuộc đua mới giữa các cường quốc.

Nhà vật lý Nobel khuyên giới trẻ Việt: Hãy dám mơ và dám làm khoa học!

Giáo sư Serge Haroche tin rằng đam mê và khát vọng hiểu biết có thể đưa con người chạm tới những giới hạn mới của tri thức.

Facebook tại Việt Nam tràn ngập nội dung 18+

Trưa 18/10, nhiều người dùng tại Việt Nam bất ngờ phát hiện mạng xã hội Facebook hiển thị tràn lan hình ảnh và video nhạy cảm, dù chỉ nhập những ký tự đơn giản như “a”, “c” hay “x” trong thanh tìm kiếm.

Đời sống

Giải trí

Công nghệ

Kinh doanh - Tiêu dùng

Media

Thí nghiệm gây sốc của Anthropic: AI sẵn sàng lừa dối, gây hại để đạt mục tiêu

Đừng bỏ lỡ

Tích hợp cẩm nang giải đáp pháp luật trên VNeID

Việt Nam xếp top 5 châu Á về tỉ lệ vi phạm bản quyền

Tấm lòng y đức giữa lằn ranh sinh tử

Hai 'cá mập' Shark Tank vướng vòng lao lý: Bóng tối sau ánh hào quang

Thuật toán TikTok bị tố dẫn trẻ em đến video nhạy cảm

Đọc nhiều

Ca sỹ Siu Black bị sao mà phải nhập viện cấp cứu?

Tính năng trên Teams xâm phạm quyền riêng tư gây tranh cãi

Cơn sốt bỏ việc đãi vàng tái diễn ở Trung Quốc

Ô tô điện đầu tiên của Sharp sắp ra mắt

Vụ cướp bảo tàng Louvre, hai nghi phạm sa lưới

Bà lão bị lừa mua vàng, bất ngờ thành nhà đầu tư lãi lớn

Tôi chưa thất bại. Tôi chỉ tìm ra 10.000 cách chưa hiệu quả

Ông Trump sẽ đến thăm Trung Quốc trước Tết Nguyên đán 2026

Trung Quốc hoãn kiểm soát đất hiếm sau thỏa thuận khung với Mỹ

Ông Trump đạt thỏa thuận với 4 nước ASEAN, Malaysia mở cửa đất hiếm

Media

Hành trình tình yêu đầy cảm động của Viết Vương - Đỗ Hà

Hoàng Hường với công thức tạo dựng 'đế chế triệu views'

Bé Quyên: Từ 'búp bê sống' đến ma nữ u sầu trong phim kinh dị

Tin nhanh 24H

MU lần đầu thắng Liverpool sau 9 năm

Triệt phá đường dây phù phép thịt trâu Ấn Độ kém chất lượng thành thịt bò Wagyu

Thủ tướng Chính phủ đồng ý phương án nghỉ Tết Bính Ngọ 9 ngày liên tục

Giá vàng SJC vượt 146 triệu đồng/lượng

Bắc Ninh thiệt hại gần 1.700 tỷ đồng do lũ, nhiều trường vẫn chưa thể đón học sinh

Bắt tạm giam 'Ngân 98' vì sản xuất, buôn bán hàng giả

Thí nghiệm gây sốc của Anthropic: AI sẵn sàng lừa dối, gây hại để đạt mục tiêu

Tin liên quan

Đừng bỏ lỡ

Tin cùng chuyên mục

Đọc nhiều