• IBM Research đã giới thiệu Docling, một gói phần mềm mã nguồn mở được thiết kế đặc biệt để chuyển đổi tài liệu PDF sang các định dạng có thể xử lý bằng máy.
• Docling sử dụng các mô hình AI chuyên biệt cho phân tích bố cục và nhận dạng cấu trúc bảng, bao gồm DocLayNet và TableFormer. Các mô hình này được đào tạo trên các bộ dữ liệu lớn và có thể xử lý nhiều loại tài liệu và định dạng khác nhau.
• Công cụ này hoạt động hiệu quả trên phần cứng thông thường, có thể cấu hình cho xử lý hàng loạt và sử dụng tương tác.
• Quy trình xử lý của Docling bao gồm các bước: phân tích cú pháp tài liệu PDF, trích xuất token văn bản và tọa độ hình học, áp dụng mô hình AI để phân tích bố cục, nhận dạng các phần tử như bảng và hình ảnh, tái tạo cấu trúc gốc với độ chính xác cao.
• Mô hình TableFormer của Docling có khả năng nhận dạng các cấu trúc bảng phức tạp, bao gồm cả những bảng không có đường viền, trải dài nhiều hàng hoặc cột, hoặc chứa các ô trống.
• Kết quả phân tích được tổng hợp và xử lý sau để nâng cao metadata, xác định ngôn ngữ tài liệu và sửa thứ tự đọc. Tài liệu chuyển đổi được xuất ra dưới dạng JSON hoặc Markdown.
• Trong các bài kiểm tra trên bộ dữ liệu 225 trang, Docling đã xử lý tài liệu với độ trễ dưới 1 giây/trang trên một CPU.
• Trên MacBook Pro M3 Max 16 nhân, Docling xử lý 92 trang trong 103 giây sử dụng 16 luồng, đạt thông lượng 2,45 trang/giây.
• Trên phần cứng cũ hơn như Intel Xeon E5-2690, Docling vẫn duy trì hiệu suất tốt, xử lý 143 trang trong 239 giây với 16 luồng.
• Docling giải quyết các thách thức trong chuyển đổi tài liệu PDF phức tạp, bao gồm việc mất các tính năng cấu trúc, khó khăn trong việc khôi phục bảng, hình ảnh và thứ tự đọc.
• Công cụ này khắc phục những hạn chế của các giải pháp hiện có, cả thương mại và mã nguồn mở, trong việc xử lý bố cục tài liệu phức tạp và nhận dạng bảng chính xác.
• Docling cung cấp một giải pháp mạnh mẽ và linh hoạt cho chuyển đổi tài liệu, phù hợp cho cả nhà nghiên cứu học thuật và doanh nghiệp thương mại.
📌 Docling của IBM Research là công cụ AI mã nguồn mở tiên tiến cho chuyển đổi PDF, xử lý 2,45 trang/giây trên MacBook Pro M3 Max. Nó giải quyết các thách thức về bảo toàn cấu trúc và nhận dạng bảng phức tạp, phù hợp cho cả nghiên cứu và ứng dụng thương mại.
https://www.marktechpost.com/2024/09/06/ibm-research-open-sources-docling-an-ai-tool-for-high-precision-pdf-document-conversion-and-structural-integrity-maintenance-across-complex-layouts/