olmOCR: Công cụ nguồn mở xử lý 1 triệu trang PDF với chi phí chỉ 190 USD, rẻ hơn 32 lần so với GPT-4o

  • Allen Institute for AI vừa phát hành olmOCR, bộ công cụ nguồn mở hiệu năng cao được thiết kế để chuyển đổi PDF và hình ảnh tài liệu thành văn bản thuần túy có cấu trúc.

  • Việc tiếp cận dữ liệu văn bản chất lượng cao là yếu tố quan trọng để phát triển các mô hình ngôn ngữ hiện đại. Các hệ thống AI ngày nay phụ thuộc vào bộ dữ liệu khổng lồ hàng nghìn tỷ token để nâng cao độ chính xác.

  • Khác với trang web có cấu trúc dễ phân tích, PDF ưu tiên bố cục trực quan hơn là luồng văn bản hợp lý, gây khó khăn cho việc trích xuất.

  • Nhiều PDF mã hóa văn bản ở cấp độ ký tự, ghi lại vị trí và thuộc tính phông chữ của mỗi chữ cái mà không bảo toàn cấu trúc câu, khiến việc tái tạo nội dung mạch lạc trong bố cục nhiều cột trở nên khó khăn.

  • olmOCR được xây dựng trên mô hình ngôn ngữ thị giác (VLM) 7 tỷ tham số và được tinh chỉnh trên 260.000 trang PDF từ hơn 100.000 tài liệu độc đáo.

  • Đổi mới cốt lõi của olmOCR là "document anchoring" - kỹ thuật kết hợp metadata văn bản với phân tích dựa trên hình ảnh, giúp nhận dạng cấu trúc tài liệu phức tạp tốt hơn.

  • Hệ thống có khả năng xử lý hàng loạt quy mô lớn, cho phép chuyển đổi hiệu quả về chi phí với các kho tài liệu khổng lồ - xử lý một triệu trang PDF chỉ với 190 USD, rẻ hơn 32 lần so với GPT-4o (6.200 USD).

  • olmOCR đạt điểm căn chỉnh 0,875 với mô hình giáo viên của nó, vượt qua các mô hình quy mô nhỏ hơn như GPT-4o Mini và nhận được xếp hạng ELO cao nhất trong đánh giá của con người.

  • Khi văn bản được trích xuất bằng olmOCR được sử dụng để huấn luyện mô hình ngôn ngữ OLMo-2-1124-7B, nó đã cải thiện độ chính xác trung bình 1,3 điểm phần trăm trên nhiều bài kiểm tra AI.

  • Công cụ này tương thích với các framework suy luận như vLLM và SGLang, cho phép triển khai linh hoạt trên các cấu hình phần cứng khác nhau.

📌 Allen Institute for AI đã tạo bước đột phá với olmOCR, công cụ nguồn mở chuyển đổi PDF thành văn bản có cấu trúc với chi phí chỉ 190 USD cho 1 triệu trang, rẻ hơn GPT-4o 32 lần. Sử dụng mô hình 7 tỷ tham số, olmOCR cải thiện hiệu suất mô hình ngôn ngữ lên 1,3% khi dùng trong huấn luyện.

 

https://www.marktechpost.com/2025/02/26/allen-institute-for-ai-released-olmocr-a-high-performance-open-source-toolkit-designed-to-convert-pdfs-and-document-images-into-clean-and-structured-plain-text/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo