- Các nhà nghiên cứu từ Microsoft, Đại học Bắc Kinh và Đại học Giao Thông Tây An đã phát triển phương pháp huấn luyện mới gọi là INformation-INtensive (IN2) để giải quyết vấn đề "bị mất ở giữa" trong các mô hình ngôn ngữ lớn (LLM).
- Hiện tượng "bị mất ở giữa" là một trong những thách thức lớn nhất đối với LLM, khi chúng hiểu thông tin ở đầu và cuối một ngữ cảnh dài nhưng gặp khó khăn khi xử lý thông tin ở giữa.
- Nguyên nhân của vấn đề này được cho là do sự thiên vị không chủ ý trong dữ liệu huấn luyện. Tiền huấn luyện tập trung vào dự đoán token tiếp theo dựa trên các token lân cận, trong khi tinh chỉnh thường liên quan đến các hướng dẫn hệ thống ở đầu ngữ cảnh ảnh hưởng mạnh đến việc tạo phản hồi.
- IN2 sử dụng dữ liệu câu hỏi-câu trả lời tổng hợp để chỉ rõ cho mô hình rằng thông tin quan trọng có thể nằm ở bất kỳ vị trí nào trong ngữ cảnh. Ngữ cảnh dài (4K-32K token) được lấp đầy bằng nhiều phân đoạn ngắn (128 token) và các câu hỏi nhắm vào thông tin trong các phân đoạn được đặt ngẫu nhiên này.
- Các nhà nghiên cứu đã áp dụng IN2 cho Mistral-7B, tạo ra FILM-7B (FILl-in-the-Middle). Các bài kiểm tra trên ba tác vụ trích xuất mới được thiết kế cho ngữ cảnh dài, bao gồm các loại ngữ cảnh khác nhau (tài liệu, mã, dữ liệu có cấu trúc) và các mẫu tìm kiếm (tiến, lùi, hai chiều).
- Kết quả cho thấy IN2 giảm đáng kể vấn đề "bị mất ở giữa" của mô hình Mistral gốc. Ngoài ra, với quy mô nhỏ hơn nhiều, FILM-7B đạt được hiệu suất tương đương hoặc thậm chí mạnh mẽ hơn các mô hình độc quyền như GPT-4 Turbo với 128K token.
- FILM-7B cũng cho thấy những cải thiện đáng kể trong các tác vụ thực tế với ngữ cảnh dài.
📌 Phương pháp huấn luyện IN2 giúp giảm đáng kể vấn đề "bị mất ở giữa" của các mô hình ngôn ngữ lớn. FILM-7B, một mô hình nhỏ hơn nhiều được huấn luyện bằng IN2, đạt hiệu suất tương đương hoặc vượt trội hơn các mô hình độc quyền như GPT-4 Turbo trong các tác vụ trích xuất và thực tế với ngữ cảnh dài.
Citations:
[1] https://the-decoder.com/new-ai-training-method-mitigates-the-lost-in-the-middle-problem-that-plagues-llms/