AI ảnh-video-music-âm thanh AI mở-nguồn mở 2025-05-13 07:05:58

OpenVision ra mắt: mã hóa thị giác nguồn mở vượt mặt CLIP và SigLIP

Đại học California, Santa Cruz vừa công bố OpenVision, một bộ mã hóa thị giác mã nguồn mở mới nhằm thay thế các mô hình nổi tiếng như CLIP (OpenAI) và SigLIP (Google).
OpenVision gồm 26 mô hình, từ 5.9 triệu đến 632.1 triệu tham số, cấp phép theo Apache 2.0, cho phép sử dụng thương mại tự do.
Các mô hình hỗ trợ nhiều kích thước patch (8×8, 16×16) và độ phân giải linh hoạt, thích hợp cho cả thiết bị biên lẫn trung tâm dữ liệu.
Dữ liệu huấn luyện dựa trên Recap-DataComp-1B, một tập dữ liệu hình ảnh web được tái chú thích bằng AI từ LLaVA.
OpenVision đạt hiệu suất cao hơn CLIP và SigLIP trong nhiều benchmark như:
- TextVQA
- ChartQA
- MME
- OCR
- SEED, SQA, POPE khi huấn luyện ở độ phân giải 224×224 và 336×336.
Chiến lược huấn luyện "progressive resolution" (tăng dần độ phân giải) giúp giảm chi phí tính toán 2–3 lần mà không mất độ chính xác.
Thiết kế thêm bộ giải mã văn bản phụ trợ và caption tổng hợp giúp mô hình học được biểu diễn ngữ nghĩa sâu hơn.
Ngay cả các mô hình nhỏ (dưới 250M tham số khi ghép với Smol-LM 150M) vẫn giữ độ chính xác tốt trong các tác vụ VQA và OCR, lý tưởng cho smartphone hoặc camera sản xuất.
Dành cho các nhóm kỹ thuật doanh nghiệp:
- Kỹ sư AI có thể tích hợp mô hình thị giác mạnh mẽ mà không phụ thuộc API đóng
- Kỹ sư dữ liệu có thể xử lý hình ảnh và văn bản song song
- Nhóm bảo mật có thể kiểm toán mô hình minh bạch, tránh rò rỉ dữ liệu
Tất cả mô hình có sẵn trên Hugging Face, hỗ trợ PyTorch và JAX, và đi kèm công cụ tích hợp với framework LLaVA.

📌 OpenVision mang đến một nền tảng mã hóa thị giác mã nguồn mở toàn diện với 26 mô hình linh hoạt, đánh bại CLIP và SigLIP trong nhiều bài benchmark. Dễ triển khai, chi phí thấp và bảo mật cao, đây là công cụ lý tưởng cho doanh nghiệp muốn tự chủ AI tạo sinh thị giác mà không phụ thuộc nhà cung cấp bên ngoài.

https://venturebeat.com/ai/new-fully-open-source-vision-encoder-openvision-arrives-to-improve-on-openais-clip-googles-siglip/

Không có file đính kèm.

Nguồn tham khảo

Thảo luận

12,345 Fans 12,345 Followers 12,345 Subscribers

Tin phổ biến

AI coding assistant

Cursor AI - IDE thay thế VS Code với trợ lý AI tích hợp

AI giáo dục

UNESCO ra mắt 2 khung năng lực AI mới cho học sinh và giáo viên

AI giáo dục

Khung năng lực AI cho giáo viên của UNESCO

AI so sánh

OpenAI hay tự xây dựng: so sánh chi phí thực tế của việc tự lưu trữ các mô hình ngôn ngữ lớn

Apple joins AI fray with release of model framework

The AI skills gap is becoming incredibly troubling for companies everywhere

AI doanh nghiệp

10 use-case hàng đầu của AI trong kinh doanh

AI so sánh

Phân tích chuyên sâu về RAG, AI Agents và Agentic RAG

AI kiến thức-khóa học

Hướng dẫn toàn diện về lập trình AI với Cursor cho người mới bắt đầu

The AI Frenzy, Fed Meets, Hunter Biden: Your Sunday US Briefing

TAG

AI giáo dục AI sinh-y-duoc AI nghệ thuật AI pháp lý-quản trị-chủ quyền AI models AI xã hội AI prompts AI kiến thức-khóa học AI công nghiệp-lĩnh vực AI edge AI viễn thông AI tools AI chính phủ AI cybersecurity AI so sánh AI đạo đức AI tips AI market AI quân sự AI an toàn-an ninh-techwar AI việc làm AI doanh nghiệp OpenAI ChatGPT AI môi trường-năng lượng AI skill-talent AI & công nghệ khác AI nghiên cứu AI chips-hardware-compute AI vs con người AI coding assistant AI mở-nguồn mở AI năng suất AI startup-M&A AI tương lai AI báo chí AI data AI bản quyền AI PC AI riêng tư AI deepfake-ảo giác-ANTT AI ảnh-video-music-âm thanh AI minh bạch AI nhỏ AI nông nghiệp-thực phẩm AI ngân hàng-tài chính AI giao thông AI smartphone AI robotics-auto-agents AI consumer devices AI manufacturing AI benchmark Telecom AI thành công-thất bại Digital Semi-Cloud-DC-Green HTS STI FAQ

SongAI

Tin nóng

OpenVision ra mắt: mã hóa thị giác nguồn mở vượt mặt CLIP và SigLIP

Thảo luận

Follow Us

Tin phổ biến

TAG