Omnigen - mô hình AI nguồn mở mới cho phép chỉnh sửa ảnh qua trò chuyện

• Các nhà nghiên cứu tại Beijing Academy of Artificial Intelligence vừa phát hành Omnigen - mô hình AI nguồn mở tích hợp nhiều tính năng xử lý ảnh trong một hệ thống duy nhất

• Omnigen sử dụng 2 thành phần chính: Variational Autoencoder để phân tích cấu trúc ảnh và transformer model để xử lý đa dạng đầu vào

• Mô hình được huấn luyện trên tập dữ liệu 1 tỷ ảnh, có khả năng:
  - Tạo ảnh từ văn bản
  - Chỉnh sửa ảnh phức tạp
  - Tô vẽ nội dung
  - Điều chỉnh depth map

• Tích hợp Microsoft Phi-3 LLM giúp Omnigen hiểu ngữ cảnh và tương tác qua hội thoại tự nhiên như ChatGPT

• Người dùng có thể:
  - Chạy miễn phí trên Hugging Face
  - Cài đặt locally với yêu cầu tối thiểu 12GB VRAM
  - Tích hợp vào ComfyUI thông qua node riêng

• Ưu điểm nổi bật:
  - Đơn giản hóa quy trình chỉnh sửa ảnh phức tạp
  - Hiểu và thực hiện lệnh qua ngôn ngữ tự nhiên
  - Không cần kiến thức chuyên sâu về công cụ chỉnh sửa

• Hạn chế hiện tại:
  - Tốc độ xử lý chậm hơn SD 3.5 và Flux
  - Chất lượng ảnh chưa vượt trội
  - Chỉ tương thích với card Nvidia

📌 Omnigen mở ra hướng đi mới cho công nghệ xử lý ảnh AI với khả năng tương tác qua hội thoại tự nhiên. Dù chưa vượt trội về chất lượng ảnh nhưng mô hình đã đơn giản hóa quy trình chỉnh sửa phức tạp, phù hợp cho cả người mới bắt đầu lẫn chuyên gia AI.

 

https://decrypt.co/290075/omnigen-open-source-ai-model-images-art

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo