Mô hình Political DEBATE: Nguồn mở cho phân loại văn bản trong khoa học chính trị

• Các nhà nghiên cứu từ Đại học Princeton, Pennsylvania State và Louisiana State đã phát triển mô hình Political DEBATE (DeBERTa Algorithm for Textual Entailment) để phân loại văn bản chính trị.

• Mô hình có hai phiên bản: Large (304 triệu tham số) và Base (86 triệu tham số), được thiết kế để thực hiện phân loại zero-shot và few-shot hiệu quả.

• Political DEBATE sử dụng khung phân loại Natural Language Inference (NLI), cho phép sử dụng mô hình mã hóa ngôn ngữ nhỏ hơn như BERT, giảm đáng kể yêu cầu tính toán so với mô hình LLM tạo sinh.

• Nhóm nghiên cứu giới thiệu bộ dữ liệu PolNLI gồm hơn 200.000 tài liệu chính trị được gán nhãn, bao gồm 201.691 tài liệu ghép với 852 giả thuyết suy luận duy nhất.

• PolNLI được chia thành 4 nhiệm vụ chính: phát hiện quan điểm, phân loại chủ đề, phát hiện phát ngôn thù địch và độc hại, và trích xuất sự kiện.

• Dữ liệu được lấy từ nhiều nguồn đa dạng như mạng xã hội, tin tức, bản tin quốc hội, luật pháp và phản hồi từ cộng đồng. Phần lớn văn bản trong PolNLI do con người tạo ra.

• Mô hình Political DEBATE được xây dựng dựa trên DeBERTa V3 base và large, được tinh chỉnh trước cho phân loại NLI mục đích chung.

• Quá trình đào tạo sử dụng thư viện Transformers và được giám sát bằng thư viện Weights and Biases. Việc lựa chọn mô hình cuối cùng dựa trên đánh giá định lượng và định tính.

• Political DEBATE được so sánh với 4 mô hình khác: DeBERTa base và large NLI mục đích chung, Llama 3.1 8B nguồn mở và Claude 3.5 Sonnet độc quyền.

• Mô hình thể hiện khả năng học ít mẫu hiệu quả, học các nhiệm vụ mới chỉ với 10-25 tài liệu được lấy mẫu ngẫu nhiên.

• Phân tích hiệu quả chi phí cho thấy Political DEBATE nhanh hơn đáng kể so với Llama 3.1 8B trên nhiều cấu hình phần cứng khác nhau.

• Mô hình hoạt động hiệu quả trên phần cứng phổ biến như GPU laptop (M3 max) và GPU đám mây miễn phí (Tesla T4).

📌 Mô hình Political DEBATE và bộ dữ liệu PolNLI mang lại giải pháp nguồn mở hiệu quả cho phân loại văn bản chính trị. Với 304 triệu tham số, mô hình có thể xử lý 5.000 tài liệu trong vài phút trên phần cứng phổ thông, đạt hiệu suất tương đương mô hình độc quyền lớn hơn nhiều lần.

 

https://www.marktechpost.com/2024/09/09/political-debate-language-models-open-source-solutions-for-efficient-text-classification-in-political-science/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo