Đăng nhập Đăng ký

hoặc

Vui lòng nhập thông tin cá nhân

Đặt lại mật khẩu

Nhập email của bạn để lấy lại mật khẩu

Email không đúng

DeepSeek ra mắt AI chuyên đọc hiểu và tổng hợp dữ liệu

Thứ năm, 23/10/2025 15:30 (GMT+7)

DeepSeek vừa giới thiệu mô hình AI đa phương thức DeepSeek-OCR, sử dụng thị giác máy tính để đọc và hiểu văn bản, giúp tăng hiệu quả xử lý dữ liệu.

Theo SCMP, DeepSeek vừa công bố phát hành mô hình trí tuệ nhân tạo mới mang tên DeepSeek-OCR, có khả năng xử lý các tài liệu lớn và phức tạp với số lượng token ít hơn đáng kể so với phương pháp xử lý văn bản truyền thống

Token là đơn vị văn bản nhỏ nhất mà AI xử lý. Việc giảm số token đồng nghĩa với tiết kiệm chi phí tính toán và tăng độ hiệu quả của một mô hình AI.

Về cách thức vận hành, DeepSeek-OCR chuyển nội dung thành hình ảnh rồi sử dụng thị giác máy tính để nén thông tin. Cách tiếp cận này giúp mô hình xử lý toàn bộ trang tài liệu giống cách con người đọc sách, nhìn tổng thể bố cục và ý nghĩa thay vì từng ký tự. Nhờ đó, mỗi trang chỉ cần từ 100 đến 200 token hình ảnh, trong khi các hệ thống OCR trước đây cần từ 256 đến 6.000 token, tiết kiệm đáng kể chi phí tính toán.

Mô hình AI mới của DeepSeek có thể đọc hiểu ngữ cảnh phức tạp trong hình ảnh. Ảnh: The Decorer

Mô hình gồm hai thành phần chính. DeepEncoder là bộ mã hóa giúp nén dữ liệu hình ảnh mà vẫn bảo toàn thông tin, còn DeepSeek3B-MoE-A570M là mô hình Mixture-of-Experts với 570 triệu tham số, chuyên tái tạo văn bản từ các token. Cấu trúc này chỉ kích hoạt các phần cần thiết, tối ưu hóa hiệu suất và tiết kiệm tài nguyên, cho phép xử lý các tài liệu có độ phân giải cao và bố cục phức tạp mà không ảnh hưởng tốc độ.

DeepSeek-OCR được huấn luyện trên hơn 30 triệu trang PDF bằng 100 ngôn ngữ, cùng 10 triệu mẫu OCR cảnh tự nhiên, 10 triệu biểu đồ, 5 triệu công thức hóa học và 1 triệu bài toán hình học. Nhờ sự đa dạng này, AI không chỉ đọc chữ mà còn hiểu bố cục, ngữ nghĩa và cấu trúc tài liệu, bao gồm bảng biểu, sơ đồ và công thức phức tạp. Công nghệ này phù hợp với nhiều lĩnh vực từ phân tích tài liệu khoa học, báo cáo tài chính đến bản vẽ kỹ thuật.

Theo kết quả thử nghiệm, mô hình đạt độ chính xác giải mã tới 97% khi nén dưới 10 lần và vẫn giữ khoảng 60% khi nén 20 lần. Trên bộ dữ liệu OmniDocBench, DeepSeek-OCR vượt trội so với các mô hình OCR khác như GOT-OCR 2.0 và MinerU 2.0.

Tốc độ xử lý là điểm mạnh khác của DeepSeek-OCR. Mỗi ngày mô hình có thể tạo hơn 200.000 trang dữ liệu huấn luyện chỉ với một card đồ họa NVIDIA A100-40G, tạo ra khả năng mở rộng quy mô chưa từng có. Công nghệ này giữ nội dung gần đây ở độ phân giải cao, trong khi các ngữ cảnh cũ tiêu tốn ít tài nguyên tính toán hơn, linh hoạt cho các nhiệm vụ xử lý dữ liệu dài.

Thái Sơn
Nguồn: sohuutritue.net.vn