OpenVision ra mắt: mã hóa thị giác nguồn mở vượt mặt CLIP và SigLIP

 

  • Đại học California, Santa Cruz vừa công bố OpenVision, một bộ mã hóa thị giác mã nguồn mở mới nhằm thay thế các mô hình nổi tiếng như CLIP (OpenAI) và SigLIP (Google).

  • OpenVision gồm 26 mô hình, từ 5.9 triệu đến 632.1 triệu tham số, cấp phép theo Apache 2.0, cho phép sử dụng thương mại tự do.

  • Các mô hình hỗ trợ nhiều kích thước patch (8×8, 16×16) và độ phân giải linh hoạt, thích hợp cho cả thiết bị biên lẫn trung tâm dữ liệu.

  • Dữ liệu huấn luyện dựa trên Recap-DataComp-1B, một tập dữ liệu hình ảnh web được tái chú thích bằng AI từ LLaVA.

  • OpenVision đạt hiệu suất cao hơn CLIP và SigLIP trong nhiều benchmark như:

    • TextVQA

    • ChartQA

    • MME

    • OCR

    • SEED, SQA, POPE khi huấn luyện ở độ phân giải 224×224 và 336×336.

  • Chiến lược huấn luyện "progressive resolution" (tăng dần độ phân giải) giúp giảm chi phí tính toán 2–3 lần mà không mất độ chính xác.

  • Thiết kế thêm bộ giải mã văn bản phụ trợ và caption tổng hợp giúp mô hình học được biểu diễn ngữ nghĩa sâu hơn.

  • Ngay cả các mô hình nhỏ (dưới 250M tham số khi ghép với Smol-LM 150M) vẫn giữ độ chính xác tốt trong các tác vụ VQA và OCR, lý tưởng cho smartphone hoặc camera sản xuất.

  • Dành cho các nhóm kỹ thuật doanh nghiệp:

    • Kỹ sư AI có thể tích hợp mô hình thị giác mạnh mẽ mà không phụ thuộc API đóng

    • Kỹ sư dữ liệu có thể xử lý hình ảnh và văn bản song song

    • Nhóm bảo mật có thể kiểm toán mô hình minh bạch, tránh rò rỉ dữ liệu

  • Tất cả mô hình có sẵn trên Hugging Face, hỗ trợ PyTorch và JAX, và đi kèm công cụ tích hợp với framework LLaVA.

📌 OpenVision mang đến một nền tảng mã hóa thị giác mã nguồn mở toàn diện với 26 mô hình linh hoạt, đánh bại CLIP và SigLIP trong nhiều bài benchmark. Dễ triển khai, chi phí thấp và bảo mật cao, đây là công cụ lý tưởng cho doanh nghiệp muốn tự chủ AI tạo sinh thị giác mà không phụ thuộc nhà cung cấp bên ngoài.

https://venturebeat.com/ai/new-fully-open-source-vision-encoder-openvision-arrives-to-improve-on-openais-clip-googles-siglip/

Không có file đính kèm.

36

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo