Nhiều quốc gia ban hành lệnh cấm DeepSeek
DeepSeek, mô hình AI gây sốt của Trung Quốc, đối mặt hàng loạt lệnh cấm từ nhiều quốc gia vì lo ngại các vấn đề liên quan đến bảo mật.
hoặc
Vui lòng nhập thông tin cá nhân
hoặc
Vui lòng nhập thông tin cá nhân
Nhập email của bạn để lấy lại mật khẩu
Bằng phương pháp “chưng cất” dựa trên Gemeni 2.0, các nhà khoa học từ Đại học Stanford và Washington chỉ mất chưa đến 50 USD để tạo ra mô hình AI mới.
Trong một bài nghiên cứu công bố đầu tháng 2, các nhà nghiên cứu tại Stanford và Đại học Washington đã thành công tạo ra một mô hình AI với chi phí dưới 50 USD (khoảng 1,2 triệu VNĐ).
Mô hình này có tên là s1, được xây dựng dựa trên Qwen2.5 - một mô hình mã nguồn mở từ Alibaba Cloud. Ban đầu, nhóm nghiên cứu đã sử dụng một tập dữ liệu lớn với 59.000 câu hỏi, nhưng sau đó nhận thấy rằng việc thu hẹp xuống còn 1.000 câu hỏi không làm giảm hiệu quả của mô hình. Đáng chú ý, họ đã đào tạo s1 chỉ với 16 GPU Nvidia H100, nhưng không mua trực tiếp mà chỉ “thuê dịch vụ điện toán đám mây”.
Quá trình huấn luyện này chỉ mất chưa đầy 30 phút, nhưng vẫn cho kết quả mạnh mẽ trên một số chỉ số đánh giá AI. Niklas Muennighoff, một nhà nghiên cứu từ Stanford, cho biết chi phí thuê điện toán cần thiết chỉ rơi vào khoảng 20 USD.
Nhóm chuyên gia cho biết s1 được phát triển dựa trên mô hình Gemini 2.0 Flash Thinking Experimental của Google, sau đó tinh chỉnh nó thông qua quá trình chuyển tải dữ liệu. Phương pháp này dựa trên hoạt động “chưng cất” các câu trả lời từ một mô hình AI khác để tạo ra mô hình của mình. Đây cũng là phương pháp mà DeepSeek áp dụng để tạo ra mô hình R1 dựa trên các dữ liệu chỉnh sửa từ ChatGPT.
Theo Tạp chí công nghệ TechCrunch, mặc dù sao chép được chứng minh là một phương pháp tốt để tái tạo mô hình AI với chi phí thấp, nó không tạo ra những mô hình AI mới vượt trội so với những gì có sẵn hiện nay. Bên cạnh đó, việc sử dụng Gemini để “chưng cất” có thể khiến các nhà phát triển của s1 đối mặt với rủi ro về pháp lý, trong trường hợp mô hình AI mới của họ được thương mại hóa.
Vào năm 2025, Meta, Google và Microsoft dự định đầu tư hàng trăm tỷ USD vào cơ sở hạ tầng AI, một phần trong đó sẽ được sử dụng để huấn luyện các mô hình AI thế hệ tiếp theo. Đây vẫn là những khoản đầu tư cần thiết để thúc đẩy sự phát triển của lĩnh vực trí thông minh nhân tạo.