- Các trình tạo hình ảnh AI thường gặp khó khăn trong việc tạo ra văn bản một cách chính xác do chúng vẽ chữ cái thay vì gõ chúng như con người.
- Giáo sư Peter Bentley từ University College London giải thích rằng AI không hiểu về thế giới của chúng ta, không nhận thức được vật thể 3D hoặc văn bản trong hình ảnh.
- Các chương trình như DALL-E và Midjourney được xây dựng trên mạng lưới thần kinh nhân tạo, học hỏi mối liên kết giữa từ ngữ và hình ảnh.
- Trong bài báo về DALLE-2, các tác giả nói rằng mô hình không "mã hóa chính xác thông tin chính tả của văn bản được hiển thị", tức là mô hình đang đoán cách một từ nên được đọc.
- Một bài báo nghiên cứu từ Google gợi ý rằng việc thêm nhiều tham số có thể cải thiện đáng kể việc hiển thị văn bản.
- AI gặp khó khăn trong việc khái niệm hóa hình học 3D của một từ và cuối cùng tất cả đều phụ thuộc vào dữ liệu đào tạo.
- Các trình tạo hình ảnh AI được đào tạo trên nhiều hình ảnh khuôn mặt người hơn là văn bản trong hình ảnh, do đó chúng tạo hình ảnh khuôn mặt người tốt hơn là văn bản trong hình ảnh.
📌 Các trình tạo hình ảnh AI hiện nay vẫn gặp khó khăn trong việc tạo ra văn bản chính xác do chúng xem văn bản như một phần của hình ảnh chứ không phải là đối tượng cần được hiểu và xử lý riêng biệt. Vấn đề này phản ánh sự hạn chế trong cách AI hiểu và tái tạo văn bản, dẫn đến những lỗi chính tả và hiển thị văn bản không chính xác. Cải thiện việc hiển thị văn bản trong hình ảnh AI đòi hỏi sự đổi mới trong cách thức đào tạo và phát triển các mô hình AI.
https://petapixel.com/2024/03/06/why-ai-image-generators-struggle-to-get-text-right/