Các nhà nghiên cứu tại Anthropic cùng các tổ chức như Schmidt Sciences và NYU đã phát triển phương pháp Internal Coherence Maximization (ICM) giúp mô hình ngôn ngữ tự tinh chỉnh mà không cần nhãn từ con người.
ICM dựa trên hai nguyên lý:
Mutual Predictability (dự đoán lẫn nhau): mô hình đánh giá tính liên kết giữa các câu trả lời dựa trên các câu hỏi tương tự.
Logical Consistency (nhất quán logic): mô hình tự kiểm tra mâu thuẫn nội bộ trong câu trả lời, như khi đưa ra hai đáp án khác nhau cho cùng một bài toán.
Mô hình bắt đầu từ một tập nhỏ ví dụ gán nhãn ngẫu nhiên, sau đó tự điều chỉnh qua từng vòng lặp bằng cách phát hiện mâu thuẫn và điều chỉnh.
Kết quả kiểm thử trên 3 bộ dữ liệu:
TruthfulQA: đo mức độ đúng sự thật.
GSM8K: kiểm tra khả năng giải toán.
Alpaca: đo lường tính hữu ích và vô hại.
=> Mô hình sử dụng ICM đạt kết quả ngang hoặc vượt qua mô hình huấn luyện bằng nhãn "vàng" từ con người, đặc biệt vượt trội trên tập Alpaca (tính chủ quan cao).
Trong một thử nghiệm phân biệt giới tính tác giả qua văn bản, ICM đạt 80% độ chính xác, so với 60% của con người, dù mô hình không được huấn luyện đặc biệt cho tác vụ này.
Một chatbot Claude 3.5 Haiku được huấn luyện bằng mô hình thưởng từ ICM đánh bại phiên bản huấn luyện truyền thống trong 60% so sánh trực tiếp.
Tuy nhiên, ICM thất bại khi học sở thích cá nhân như yêu thích thơ về "mặt trời", và gặp khó khăn với đầu vào dài do giới hạn của context window.
ICM được kỳ vọng là hướng đi mới để tinh chỉnh mô hình theo giá trị con người mà không bị nhiễm thiên kiến hay lỗi chủ quan.
📌 Phương pháp ICM của Anthropic cho phép mô hình ngôn ngữ tự tinh chỉnh nhờ đánh giá tính logic và dự đoán lẫn nhau trong câu trả lời. Trên các tác vụ như toán, tính đúng sự thật và hữu ích, mô hình đạt hiệu suất ngang hoặc vượt mô hình được con người huấn luyện, như đạt 80% độ chính xác trong phân biệt giới tính tác giả. Dù còn hạn chế với đầu vào dài và học sở thích cá nhân, ICM mở ra khả năng giảm phụ thuộc vào con người trong huấn luyện AI.
https://the-decoder.com/anthropic-researchers-teach-language-models-to-fine-tune-themselves/