NuMind giới thiệu NuExtract - mô hình ngôn ngữ text-to-JSON tiên tiến cho trích xuất dữ liệu có cấu trúc

• NuMind vừa ra mắt NuExtract - mô hình ngôn ngữ text-to-JSON tiên tiến cho việc trích xuất dữ liệu có cấu trúc từ văn bản.

• NuExtract có 3 phiên bản với số lượng tham số khác nhau:
- NuExtract-tiny: 0,5 tỷ tham số
- NuExtract: 3,8 tỷ tham số  
- NuExtract-large: 7 tỷ tham số

• Mô hình này có thể hoạt động hiệu quả với số lượng tham số từ 0,5 tỷ đến 7 tỷ, đạt khả năng trích xuất tương đương hoặc vượt trội so với các mô hình lớn hơn.

• NuExtract giải quyết thách thức trích xuất có cấu trúc - trích xuất các loại thông tin đa dạng như thực thể, số lượng, ngày tháng và mối quan hệ phân cấp từ tài liệu.

• Thông tin được trích xuất được cấu trúc thành định dạng JSON, giúp dễ dàng phân tích và tích hợp vào cơ sở dữ liệu.

• NuExtract có thể xử lý các tác vụ trích xuất zero-shot và fine-tuned. Trong trường hợp zero-shot, mô hình có thể trích xuất thông tin dựa trên template hoặc schema được định nghĩa trước mà không cần dữ liệu huấn luyện cụ thể cho tác vụ.

• Phương pháp huấn luyện mới được sử dụng: sử dụng một corpus văn bản lớn và đa dạng từ bộ dữ liệu C4, được gán nhãn bằng LLM hiện đại với các prompt được thiết kế cẩn thận.

• Dữ liệu tổng hợp này sau đó được sử dụng để fine-tune một mô hình nền tảng nhỏ gọn, tạo ra một mô hình chuyên biệt cho tác vụ cụ thể.

• NuExtract luôn tạo ra đầu ra JSON hợp lệ, tuân thủ schema và trích xuất chính xác thông tin liên quan.

• Trong các bài kiểm tra phân tích phản ứng hóa học, NuExtract đã thành công trong việc nhận dạng, phân loại và trích xuất số lượng các chất hóa học cũng như điều kiện phản ứng như thời gian và nhiệt độ.

• Kích thước nhỏ gọn của NuExtract mang lại nhiều lợi ích thực tế: chi phí vận hành thấp hơn, có thể triển khai cục bộ (quan trọng cho các ứng dụng yêu cầu bảo mật dữ liệu), và dễ dàng fine-tune cho các trường hợp sử dụng cụ thể.

📌 NuExtract của NuMind là bước tiến quan trọng trong trích xuất dữ liệu có cấu trúc, với 3 phiên bản từ 0,5B đến 7B tham số. Mô hình này vượt trội so với các LLM lớn hơn, mang lại hiệu suất cao và tiết kiệm chi phí trong nhiều tác vụ trích xuất phức tạp.

https://www.marktechpost.com/2024/06/25/numind-releases-nuextract-a-lightweight-text-to-json-llm-specialized-for-the-task-of-structured-extraction/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo