• Mô hình ngôn ngữ lớn (LLMs) đã cách mạng hóa xử lý ngôn ngữ tự nhiên nhưng có thể thể hiện sự thiên vị và tạo ra nội dung độc hại. Các kỹ thuật điều chỉnh như RLHF giúp giảm thiểu vấn đề này, nhưng tác động của chúng đến tính sáng tạo (đa dạng cú pháp và ngữ nghĩa) vẫn chưa được khám phá.
• Nghiên cứu điều tra hậu quả ngoài ý muốn của RLHF đối với tính sáng tạo của LLMs thông qua 3 thí nghiệm tập trung vào dòng Llama-2. Kết quả cho thấy mô hình đã điều chỉnh có entropy thấp hơn trong dự đoán token, tạo thành các cụm riêng biệt trong không gian nhúng và có xu hướng hướng tới "trạng thái hấp dẫn", cho thấy đa dạng đầu ra hạn chế.
• Kết quả có ý nghĩa quan trọng đối với các nhà tiếp thị dựa vào LLMs cho các tác vụ sáng tạo như viết quảng cáo, tạo persona khách hàng. Sự đánh đổi giữa tính nhất quán và sáng tạo trong mô hình đã điều chỉnh cần được cân nhắc kỹ lưỡng khi lựa chọn mô hình phù hợp cho ứng dụng cụ thể.
• Tầm quan trọng của kỹ thuật lập trình prompt trong việc khai thác tiềm năng sáng tạo của các mô hình cơ sở cũng được thảo luận. Nghiên cứu đề xuất rằng các kỹ thuật này sẽ quan trọng hơn bao giờ hết trong việc tận dụng sức mạnh của các mô hình cơ sở.
• Thí nghiệm 1 chỉ ra tác động của RLHF đến tính sáng tạo trong bối cảnh tiếp thị thực tế bằng cách so sánh sự đa dạng của persona khách hàng và đánh giá sản phẩm được tạo ra bởi mô hình cơ sở và đã điều chỉnh.
• Thí nghiệm 2 điều tra tính đa dạng ngữ nghĩa của các đầu ra mô hình, cho thấy mô hình đã điều chỉnh tạo thành các cụm riêng biệt trong không gian nhúng, chỉ ra phạm vi đầu ra hạn chế về cơ bản so với mô hình cơ sở.
• Thí nghiệm 3 đi sâu vào tính đa dạng cú pháp, cho thấy mô hình đã điều chỉnh có entropy thấp hơn trong dự đoán token. Điều này cho thấy nguyên nhân của sự suy giảm tính sáng tạo mô hình là do nhiều quỹ đạo token bị chặn trong quá trình RLHF.
📌 Quá trình RLHF nhằm giảm thiên vị và độc hại trong LLMs có thể biến chúng thành các thuật toán xác định hơn, thiếu khả năng khám phá các tập hợp quỹ đạo token đa dạng, dẫn đến giảm tính đa dạng ngữ nghĩa và cú pháp trong đầu ra. Mô hình đã điều chỉnh thể hiện sự tự tin cao hơn, đảm bảo tính nhất quán và hành vi dự đoán được, nhưng đổi lại tính sáng tạo bị giảm sút do xu hướng gắn với một tập hợp đầu ra hạn chế.
https://arxiv.org/pdf/2406.05587