• Chi phí xây dựng mô hình AI hiện nay có thể lên tới hàng trăm triệu USD và dự kiến sẽ đạt mức 1 tỷ USD trong vài năm tới. Phần lớn chi phí là cho sức mạnh tính toán từ các chip chuyên dụng, thường là GPU của Nvidia có giá lên tới 30.000 USD mỗi chiếc.
• Ngoài chi phí phần cứng, các công ty còn phải đối mặt với một chi phí ngày càng tăng khác: gán nhãn dữ liệu. Đây là quá trình gắn thẻ cho dữ liệu để mô hình AI có thể nhận dạng và diễn giải các mẫu.
• Gán nhãn dữ liệu đã được sử dụng từ lâu trong phát triển mô hình AI cho xe tự lái. Tuy nhiên, quy trình này cũng gây ra những lo ngại về đạo đức, như trường hợp OpenAI bị chỉ trích vì thuê ngoài công việc gán nhãn cho người Kenya với mức lương dưới 2 USD/giờ.
• Các mô hình ngôn ngữ lớn (LLM) hiện nay sử dụng phương pháp Học tăng cường từ phản hồi của con người, trong đó con người cung cấp đánh giá định tính về kết quả của mô hình. Đây là một nguồn chi phí đáng kể.
• Gán nhãn dữ liệu chuyên môn cao trong các lĩnh vực như pháp lý, tài chính và y tế đang đẩy chi phí lên cao. Một số công ty phải thuê bác sĩ, luật sư, tiến sĩ và nhà khoa học với chi phí cao để gán nhãn dữ liệu hoặc thuê ngoài công việc cho các công ty bên thứ ba như Scale AI.
• Theo Alex Ratner, CEO của Snorkel AI, khách hàng doanh nghiệp có thể chi hàng triệu USD cho gán nhãn dữ liệu, chiếm tới 80% thời gian và ngân sách AI của họ.
• Neal Shah, CEO của CareYaYa, cho biết chi phí gán nhãn dữ liệu đã tăng 40% trong năm qua do cần thông tin chuyên môn từ các chuyên gia về lão khoa và chăm sóc người mắc chứng sa sút trí tuệ.
• Một số công ty đang tìm cách giảm chi phí bằng cách sử dụng dữ liệu "tổng hợp" được tạo ra bởi chính AI để tự động hóa một phần quá trình thu thập và gán nhãn dữ liệu.
• Mặc dù tốn kém và mất thời gian, gán nhãn dữ liệu vẫn được coi là đáng giá vì tiềm năng to lớn mà nó mang lại cho việc phát triển AI.
📌 Chi phí AI tăng vọt không chỉ do chip đắt đỏ mà còn vì gán nhãn dữ liệu chuyên môn. Doanh nghiệp chi tới 80% ngân sách AI cho việc này, với mức tăng 40% trong năm qua. Tuy nhiên, đầu tư này được coi là xứng đáng vì tiềm năng to lớn của AI.
https://fortune.com/2024/08/23/data-labeling-ai-scaleai-snorkel-costs/