- NVIDIA vừa công bố Fugatto - mô hình AI có 2,5 tỷ tham số được thiết kế để tạo và điều chỉnh âm nhạc, giọng nói và âm thanh
- Mô hình cho phép kết hợp câu lệnh văn bản với khả năng tổng hợp âm thanh nâng cao, giúp biến đổi linh hoạt các đầu vào âm thanh như chuyển giai điệu piano thành giọng hát người hoặc tạo âm thanh kèn trumpet độc đáo
- Fugatto sử dụng phương pháp tạo dữ liệu đột phá vượt qua học có giám sát thông thường:
+ Kết hợp bộ dữ liệu thông thường với kỹ thuật tạo dữ liệu chuyên biệt
+ Tận dụng mô hình ngôn ngữ lớn để nâng cao khả năng tạo hướng dẫn
+ Hiểu sâu mối quan hệ giữa âm thanh và gợi ý văn bản
- Đột phá chính là kỹ thuật Composable Audio Representation Transformation (ComposableART):
+ Cho phép kết hợp, nội suy hoặc phủ định các hướng dẫn tạo âm thanh một cách mượt mà
+ Kiểm soát chính xác quá trình tổng hợp âm thanh
+ Tạo ra các hiện tượng âm thanh độc đáo
- Kiến trúc của Fugatto dựa trên mô hình Transformer được cải tiến với Adaptive Layer Normalization, giúp duy trì tính nhất quán trên nhiều đầu vào đa dạng
- Kết quả thử nghiệm cho thấy:
+ Hiệu suất vượt trội so với các mô hình chuyên biệt trong tổng hợp và biến đổi âm thanh
+ Khả năng tạo âm thanh mới như kèn saxophone với đặc tính bất thường
+ Tạo giọng nói tích hợp mượt mà với âm thanh nền
📌 Fugatto đánh dấu bước tiến quan trọng trong AI tạo sinh cho âm thanh với 2,5 tỷ tham số. Mô hình tích hợp công nghệ ComposableART độc đáo cho phép biến đổi linh hoạt từ piano sang giọng hát người thật, mở ra tiềm năng ứng dụng rộng rãi trong game, giải trí và giáo dục.
https://www.marktechpost.com/2024/11/25/nvidia-ai-unveils-fugatto-a-2-5-billion-parameter-audio-model-that-generates-music-voice-and-sound-from-text-and-audio-input/
- Công cụ tạo video Sora của OpenAI đã bị rò rỉ trái phép trên nền tảng Hugging Face bởi nhóm người dùng tên "PR-Puppets"
- Sora là mô hình AI tạo sinh có khả năng:
+ Tạo video ngắn độ phân giải lên đến 1080p trong 10 giây
+ Chuyển đổi văn bản thành video dài tới 1 phút
+ Tạo nội dung video có tính nhất quán và ổn định cao
- Nguyên nhân rò rỉ:
+ Người thử nghiệm không hài lòng về việc không được trả công xứng đáng
+ OpenAI (định giá trên 150 tỷ USD) bị cáo buộc bóc lột lao động sáng tạo
+ Thiếu minh bạch về dữ liệu huấn luyện và vấn đề bản quyền
- Hậu quả của sự cố:
+ OpenAI phải tạm dừng quyền truy cập sớm của nghệ sĩ sau 3 giờ phát hiện
+ Làm dấy lên tranh cãi về đạo đức AI và quyền sở hữu trí tuệ
+ Ảnh hưởng đến niềm tin trong hợp tác giữa nghệ sĩ và nhà phát triển công nghệ
- Các vấn đề nổi bật:
+ An toàn và kiểm soát việc sử dụng mô hình bị rò rỉ
+ Mâu thuẫn giữa đổi mới công nghệ và quyền lợi người sáng tạo
+ Nhu cầu xây dựng khung đạo đức cho AI tạo sinh
📌 Vụ rò rỉ Sora phản ánh cuộc khủng hoảng trong ngành AI về vấn đề đạo đức và lao động sáng tạo. OpenAI (150 tỷ USD) đối mặt với cáo buộc bóc lột người thử nghiệm, dẫn đến hành động phát tán mô hình trên Hugging Face nhằm phản đối.
https://www.forbes.com/sites/moinroberts-islam/2024/11/26/openais-sora-tool-leaked-by-group-of-aggrieved-early-testers/
- Công ty khởi nghiệp aiOla của Israel vừa ra mắt mô hình Whisper-NER, được xây dựng trên nền tảng mô hình nguồn mở Whisper của OpenAI
- Whisper-NER tích hợp hai công nghệ:
+ Nhận dạng giọng nói tự động (ASR)
+ Nhận dạng thực thể có tên (NER)
- Tính năng chính:
+ Tự động nhận diện và che giấu thông tin nhạy cảm như tên, số điện thoại, địa chỉ trong quá trình chuyển đổi
+ Xử lý đồng thời việc chuyển đổi âm thanh và bảo vệ thông tin riêng tư
+ Hỗ trợ học không cần mẫu (zero-shot learning)
+ Có thể tùy chỉnh để đánh dấu thay vì che giấu thông tin
- Mô hình được phát hành dưới giấy phép MIT, cho phép:
+ Sử dụng miễn phí
+ Tùy chỉnh và triển khai
+ Áp dụng cho mục đích thương mại
- Phương pháp huấn luyện độc đáo:
+ Sử dụng tập dữ liệu tổng hợp
+ Kết hợp dữ liệu giọng nói và văn bản NER
+ Xử lý đồng thời hai tác vụ trong một khối
- Ứng dụng thực tế:
+ Giám sát tuân thủ
+ Quản lý kho hàng
+ Đảm bảo chất lượng
+ Đặc biệt phù hợp với ngành y tế và luật
📌 aiOla phát hành mô hình AI nguồn mở Whisper-NER tích hợp khả năng chuyển đổi âm thanh và bảo vệ dữ liệu nhạy cảm trong cùng một quy trình. Mô hình được cấp phép MIT, hỗ trợ zero-shot learning và đặc biệt phù hợp với các ngành có yêu cầu bảo mật cao như y tế và luật.
https://venturebeat.com/ai/aiola-unveils-open-source-ai-audio-transcription-model-that-obscures-sensitive-info-in-realtime/
- Instagram hiện có hàng trăm tài khoản người ảnh hưởng được tạo bằng AI, sử dụng video đánh cắp từ người mẫu và người sáng tạo nội dung người lớn thật
- Trong hơn 1.000 tài khoản được khảo sát:
+ 100 tài khoản sử dụng deepfake
+ 60 tài khoản tự nhận là AI
+ 40 tài khoản không công khai việc sử dụng AI
- Các tài khoản này kiếm tiền thông qua:
+ Trang hẹn hò
+ Patreon
+ OnlyFans
+ Fanvue
+ Các ứng dụng AI khác
- Hướng dẫn "Instagram Mastery" của Digital Divas có giá 50 USD, tập trung vào chiến lược tạo nội dung và tương tác với người dùng cô đơn
- Khóa học "AI Influencer Accelerator" của Professor EP có giá 220 USD, hướng dẫn:
+ Cách tạo khuôn mặt AI
+ Cách ghép mặt AI vào video người thật
+ Chiến lược định giá nội dung từ 6-80 USD
+ Cách tạo nhiều tài khoản người mẫu AI
- Instagram chỉ xử lý các tài khoản vi phạm khi có báo cáo từ chủ sở hữu bản quyền
- Apple và Google đã gỡ bỏ ứng dụng HelloFace sau khi bị phát hiện hỗ trợ tạo deepfake
📌 Ngành công nghiệp môi giới AI đang bùng nổ với hàng nghìn tài khoản trên Instagram, kiếm được hơn 1 triệu USD trong 6 tháng thông qua việc đánh cắp và biến tấu nội dung từ người mẫu thật. Các nền tảng lớn như Instagram, Apple và Google đang gặp khó khăn trong việc kiểm soát vấn đề này.
https://www.wired.com/story/ai-pimping-industry-deepfakes-instagram/
- Suno V4 vừa ra mắt ngày 20/11/2024, đánh dấu bước tiến quan trọng trong lĩnh vực tạo nhạc bằng AI với chất lượng âm thanh vượt trội
- Những cải tiến chính của phiên bản V4:
* Âm thanh giọng hát rõ ràng và tự nhiên hơn
* Cấu trúc bài hát mạch lạc và nhất quán
* Xử lý phối khí phức tạp tốt hơn
* Độ chính xác cao trong giai điệu và nhịp điệu
- Tính năng Persona nổi bật:
* Duy trì giọng hát nhân vật nhất quán xuyên suốt bài hát
* Hỗ trợ kể chuyện qua âm nhạc hiệu quả
* Cho phép kiểm soát sáng tạo tốt hơn
- Khả năng tái tạo (remaster):
* Nâng cấp các bản nhạc cũ lên chất lượng V4
* Cải thiện chất lượng âm thanh cho các dự án có sẵn
- Yêu cầu gói Pro để sử dụng đầy đủ tính năng:
* Công cụ chỉnh sửa nâng cao
* Chất lượng âm thanh cao cấp
* Thời gian tạo nhạc kéo dài hơn
* Ưu tiên tiếp cận tính năng mới
- Hạn chế cần lưu ý:
* Vẫn còn vấn đề với nốt cao
* Lời bài hát do AI tạo đôi khi thiếu logic
* Cần can thiệp thủ công cho các dự án chuyên nghiệp
📌 Suno V4 là bước đột phá trong công nghệ tạo nhạc AI với tính năng Persona độc đáo và khả năng tái tạo âm thanh chất lượng cao. Mặc dù vẫn còn một số hạn chế về nốt cao và lời bài hát, đây là công cụ hỗ trợ sáng tạo âm nhạc hiệu quả cho cả người mới và chuyên nghiệp.
https://www.geeky-gadgets.com/suno-v4-ai-music-update/
- Google vừa ra mắt công cụ mới có tên "Vids" trong bộ Google Workspace, cho phép tạo video tự động bằng AI Gemini
- Công cụ bắt đầu triển khai từ ngày 7/11/2024 và sẽ mất khoảng 15 ngày để đến với mọi người dùng
- Google Vids có thể tạo video từ:
+ Lệnh văn bản
+ Tài liệu được tải lên
+ Bản ghi âm giọng nói
- Tính năng chính của Google Vids:
+ Tự động đề xuất các cảnh dựa trên nội dung đầu vào
+ Thêm nhạc nền
+ Gợi ý footage và văn bản phù hợp
+ Tạo kịch bản cho phần thuyết minh
+ Cung cấp nhiều lựa chọn giọng đọc tự động
- Các trường hợp sử dụng tiềm năng:
+ Demo sản phẩm
+ Video hướng dẫn và đào tạo nhân viên
+ Tổng kết sự kiện
+ Nội dung tiếp cận nhà cung cấp
+ Cập nhật dự án
+ Đánh giá chiến dịch và thiết kế
- Đối tượng được sử dụng Google Vids:
+ Business Standard: 12 USD/người dùng/tháng
+ Business Plus: 18 USD/người dùng/tháng
+ Enterprise Standard & Plus: Thỏa thuận
+ Education Plus: 5 USD/học sinh/năm
+ Các gói Enterprise Essentials và Enterprise Essentials Plus
+ Người dùng có add-on Gemini Business, Enterprise, Education hoặc Education Premium
📌 Google Vids là bước đột phá mới trong việc tự động hóa sản xuất video bằng AI, giúp tiết kiệm thời gian tạo nội dung cho doanh nghiệp. Công cụ này đang được triển khai cho người dùng Google Workspace với giá từ 12 USD/tháng, hứa hẹn cách mạng hóa cách thức tạo video trong môi trường công sở.
https://www.makeuseof.com/google-vids-app-workspace-gemini-video-generator/
• Các nhà nghiên cứu tại Beijing Academy of Artificial Intelligence vừa phát hành Omnigen - mô hình AI nguồn mở tích hợp nhiều tính năng xử lý ảnh trong một hệ thống duy nhất
• Omnigen sử dụng 2 thành phần chính: Variational Autoencoder để phân tích cấu trúc ảnh và transformer model để xử lý đa dạng đầu vào
• Mô hình được huấn luyện trên tập dữ liệu 1 tỷ ảnh, có khả năng:
- Tạo ảnh từ văn bản
- Chỉnh sửa ảnh phức tạp
- Tô vẽ nội dung
- Điều chỉnh depth map
• Tích hợp Microsoft Phi-3 LLM giúp Omnigen hiểu ngữ cảnh và tương tác qua hội thoại tự nhiên như ChatGPT
• Người dùng có thể:
- Chạy miễn phí trên Hugging Face
- Cài đặt locally với yêu cầu tối thiểu 12GB VRAM
- Tích hợp vào ComfyUI thông qua node riêng
• Ưu điểm nổi bật:
- Đơn giản hóa quy trình chỉnh sửa ảnh phức tạp
- Hiểu và thực hiện lệnh qua ngôn ngữ tự nhiên
- Không cần kiến thức chuyên sâu về công cụ chỉnh sửa
• Hạn chế hiện tại:
- Tốc độ xử lý chậm hơn SD 3.5 và Flux
- Chất lượng ảnh chưa vượt trội
- Chỉ tương thích với card Nvidia
📌 Omnigen mở ra hướng đi mới cho công nghệ xử lý ảnh AI với khả năng tương tác qua hội thoại tự nhiên. Dù chưa vượt trội về chất lượng ảnh nhưng mô hình đã đơn giản hóa quy trình chỉnh sửa phức tạp, phù hợp cho cả người mới bắt đầu lẫn chuyên gia AI.
https://decrypt.co/290075/omnigen-open-source-ai-model-images-art
• Trong vài năm tới, trợ lý AI sẽ tích hợp vào tai nghe và kính thông minh, liên tục đưa ra lời khuyên và hướng dẫn cho người dùng trong mọi hoạt động hàng ngày
• Các thiết bị này sẽ có camera và micro để theo dõi môi trường xung quanh, giúp người dùng:
- Nhắc nhở lấy đồ giặt là khi đi ngang qua
- Tìm xe trong bãi đỗ xe
- Gợi ý tên đồng nghiệp khi gặp mặt
- Đưa ra gợi ý đối thoại thông minh trong các cuộc trò chuyện
• Meta Ray-Ban là thiết bị đầu tiên theo xu hướng này, với khả năng:
- Dịch ngôn ngữ theo thời gian thực
- Trả lời câu hỏi về những thứ người dùng nhìn thấy
- Tích hợp AI để đưa ra hướng dẫn bằng giọng nói
• Dự báo đến đầu những năm 2030:
- Trợ lý AI sẽ xuất hiện dưới dạng avatar thực tế ảo
- Hiển thị như những sinh vật nhỏ bay trước mặt người dùng
- Được gọi là Electronic Life Facilitators (ELF)
• Các thách thức và rủi ro:
- Vấn đề quyền riêng tư khi AI theo dõi liên tục
- Nguy cơ bị thao túng và tác động tâm lý
- Ảnh hưởng đến tương tác xã hội trực tiếp
- Cần có quy định để kiểm soát việc sử dụng vào mục đích quảng cáo
📌 Whisperverse sẽ mở ra kỷ nguyên mới của điện toán di động vào năm 2027, với trợ lý AI tích hợp vào kính và tai nghe thông minh. Meta Ray-Ban là thiết bị tiên phong, nhưng cần có khung pháp lý để đảm bảo công nghệ này phục vụ người dùng thay vì thao túng họ.
https://venturebeat.com/ai/enter-the-whisperverse-how-ai-voice-agents-will-guide-us-through-our-days/
- Recraft V3, một mô hình AI từ startup London, vừa vượt qua Flux 1.1 Pro và MidJourney để dẫn đầu bảng xếp hạng các công cụ tạo ảnh AI
- Startup Recraft AI thành lập năm 2022, nhận được khoản đầu tư 11 triệu USD từ Khosla Ventures và cựu CEO GitHub Nat Friedman
- Mô hình có 20 tỷ tham số, cao hơn nhiều so với SD 3.5 Large (8,1 tỷ) và Flux (12 tỷ)
- Tốc độ tạo ảnh dưới 10 giây, tương đương SDXL nhưng chất lượng vượt trội hơn qua các bài kiểm tra mù
- Điểm mạnh của Recraft V3:
+ Tạo văn bản dài trong ảnh
+ Độ chính xác về giải phẫu
+ Hiểu yêu cầu người dùng tốt
+ Tạo ảnh vector có thể phóng to vô hạn
+ Tích hợp nhiều kiểu hình ảnh khác nhau
- Cung cấp 3 kênh sử dụng: giao diện web, Discord và ứng dụng di động (iOS/Android)
- Người dùng miễn phí được 50 credit/ngày nhưng không sở hữu ảnh tạo ra
- Gói trả phí từ 10 USD/tháng cho 1.000 credit, người dùng sở hữu toàn quyền ảnh
- Nhược điểm:
+ Khả năng nhận biết không gian trong ảnh phức tạp còn hạn chế
+ Người dùng miễn phí không được sở hữu ảnh
+ Đôi khi cần chỉnh sửa vị trí các thành phần trong ảnh
📌 Recraft V3 với 20 tỷ tham số đã vượt qua MidJourney và Flux để dẫn đầu công nghệ tạo ảnh AI. Mô hình cho phép tạo ảnh chất lượng cao dưới 10 giây, hỗ trợ vector và văn bản dài, với mức giá cạnh tranh 10 USD/tháng cho 1.000 credit.
https://decrypt.co/289570/recraft-v3-best-ai-image-generator-you-never-heard-of
- Google vừa ra mắt công cụ AI thử nghiệm mới có tên Illuminate, cho phép chuyển đổi các bài báo nghiên cứu và sách thành các cuộc trò chuyện âm thanh do AI tạo ra
- Illuminate sử dụng 2 giọng nói AI để thảo luận về các điểm chính và kết luận của bài báo, hiện đang tối ưu hóa cho các bài báo học thuật về khoa học máy tính
- Công cụ này tương tự như NotebookLM của Google nhưng tập trung vào nội dung kỹ thuật và định dạng giới hạn hơn
- Cách sử dụng Illuminate:
+ Đăng nhập bằng tài khoản Google tại illuminate.google.com/home
+ Vào tab Generate để tìm kiếm chủ đề trên arxiv.org hoặc dán URL của file PDF
+ Chờ vài phút để AI tạo cuộc trò chuyện âm thanh
+ Nghe và lưu vào thư viện cá nhân trong vòng 30 ngày
- Các tính năng chính:
+ Giới hạn 5 lần tạo âm thanh mỗi ngày
+ Có thể xem bản ghi cuộc trò chuyện
+ Chia sẻ nội dung với người khác
+ Tự động cài đặt giọng nói phù hợp với đối tượng chung
- Đối tượng sử dụng chính: học giả, sinh viên và nhà văn làm việc với các bài báo nghiên cứu dài
- Illuminate có thể đóng vai trò trợ lý nghiên cứu, giúp nắm bắt các điểm chính và bổ sung thông tin có thể bị bỏ sót khi đọc
📌 Google Illuminate là công cụ AI miễn phí biến bài báo nghiên cứu thành podcast, giới hạn 5 lần tạo/ngày. Công cụ này đặc biệt hữu ích cho việc nghiên cứu học thuật, giúp người dùng tiếp cận nội dung phức tạp dễ dàng hơn thông qua âm thanh.
https://www.zdnet.com/article/how-googles-new-ai-tool-turns-research-papers-into-audio-conversations-try-it-free/
- OpenAI vừa triển khai tính năng Advanced Voice mode cho ứng dụng ChatGPT trên hệ điều hành macOS và Windows
- Tính năng mới cho phép người dùng:
+ Giao tiếp trực tiếp bằng giọng nói với chatbot AI
+ Trao đổi về email, ảnh chụp màn hình và các tập tin trên máy tính
+ Đặt câu hỏi và nhận câu trả lời nhanh chóng từ AI
- Để sử dụng tính năng này, người dùng cần:
+ Cập nhật lên phiên bản mới nhất của ứng dụng ChatGPT trên máy tính
+ Đăng ký gói ChatGPT Advanced
- Tính năng này mở rộng khả năng tương tác của ChatGPT từ giao diện chat văn bản sang giao tiếp bằng giọng nói
- Việc triển khai trên nền tảng desktop giúp:
+ Tăng tính tiện dụng cho người dùng máy tính
+ Mở rộng phạm vi ứng dụng của ChatGPT trong môi trường làm việc
+ Tạo trải nghiệm tương tác tự nhiên hơn với AI
- Thời điểm ra mắt: 31 tháng 10 năm 2024
📌 OpenAI đã mở rộng khả năng tương tác của ChatGPT lên một tầm cao mới với tính năng Advanced Voice mode trên Windows và macOS. Người dùng giờ đây có thể trao đổi trực tiếp bằng giọng nói với AI về mọi nội dung trên màn hình máy tính, từ email đến tập tin.
https://www.latestly.com/socially/technology/chatgpt-advanced-voice-mode-now-available-on-windows-and-macos-computers-allows-users-to-talk-to-ai-chatbot-check-details-6383662.html
- AI hiện gặp khó khăn trong việc tạo chữ trong hình ảnh do thiếu dữ liệu huấn luyện và còn trong giai đoạn phát triển ban đầu
- Nguyên nhân chính:
• Các mô hình ngôn ngữ lớn (LLM) chưa được huấn luyện đủ về khía cạnh tạo chữ trong hình
• Dữ liệu huấn luyện còn hạn chế
• Công nghệ AI tạo hình đang trong giai đoạn đầu phát triển
- 6 giải pháp khắc phục:
• Sử dụng prompt chi tiết và cụ thể hơn, ví dụ thay vì "tạo hình quán café" thì nên mô tả "tạo hình mặt tiền quán café Ý có biển hiệu Café vào một ngày nắng"
• Thử nghiệm các từ đồng nghĩa thay thế cho "text" như: title, letters, written words, sign
• Sử dụng công cụ bổ sung như Canva hoặc Adobe Photoshop Express để chèn chữ sau khi tạo hình
• Giới hạn độ dài văn bản, tốt nhất dưới 10 ký tự
• Dùng công cụ chỉnh sửa chuyên biệt như Storia Lab để sửa chữ không rõ ràng
• Sử dụng các công cụ AI chuyên biệt về tạo chữ như Ideogram với tính năng Magic Prompt, giá từ 8 USD/tháng
📌 AI còn hạn chế trong việc tạo chữ trong hình do thiếu dữ liệu huấn luyện. Người dùng có thể khắc phục bằng 6 giải pháp: dùng prompt chi tiết, từ thay thế, công cụ bổ sung, giới hạn độ dài chữ, phần mềm chỉnh sửa và công cụ AI chuyên biệt như Ideogram.
https://www.makeuseof.com/why-ai-cant-write-text-in-images-solutions/
- OmniParser là mô hình AI hoàn toàn dựa trên giao diện đồ họa người dùng (GUI), được Microsoft công bố trên blog AI Frontiers.
- Mô hình này được phát hành trên Hugging Face với giấy phép MIT, tương tự như tính năng "Sử dụng máy tính" của Anthropic.
- Sự ra mắt của OmniParser củng cố vị thế của Microsoft trong ngành AI Agent, sau khi gia nhập Super League cùng Oracle và Salesforce vào tháng 9.
- Nghiên cứu đầu tiên về OmniParser được công bố vào tháng 3 năm 2024 bởi Jianqiang Wan và nhóm từ Alibaba Group và Đại học Khoa học và Công nghệ Huazhong.
- Một bài báo chi tiết về OmniParser được phát hành vào tháng 8 bởi Yadong Lu và các đồng nghiệp từ Microsoft Research, chứng minh rằng OmniParser vượt trội hơn các chuẩn mực GPT-4V ngay cả khi chỉ sử dụng đầu vào từ ảnh chụp màn hình.
- OmniParser được mô tả là công cụ đa năng, chuyển đổi ảnh chụp màn hình giao diện người dùng thành dữ liệu và nâng cao khả năng hiểu biết của các mô hình ngôn ngữ lớn (LLMs) về giao diện.
- Ra mắt kèm theo hai loại tập dữ liệu: một để phát hiện biểu tượng có thể nhấp và một để mô tả chức năng của từng biểu tượng.
- Trong các bài kiểm tra trên các chuẩn mực như SeeClick, Mind2Web và AITW, OmniParser luôn vượt trội hơn GPT-4V và GPT-4 với khả năng nhìn.
- Để tương thích với các LLM hiện tại, OmniParser đã được kết hợp với các mô hình mới nhất như Phi-3.5-V và Llama-3.2-V.
- Kết quả cho thấy mô hình phát hiện vùng tương tác (ID) đã cải thiện hiệu suất nhiệm vụ đáng kể so với mô hình Grounding DINO không tinh chỉnh.
- Tăng cường hiệu suất đến từ "ngữ nghĩa địa phương" (LS) liên kết chức năng của mỗi biểu tượng với mục đích của nó.
- Với sự gia tăng sử dụng các LLM khác nhau, nhu cầu về các AI agent cải tiến cho các chức năng giao diện người dùng cũng tăng cao.
- Mặc dù GPT-4V hứa hẹn nhiều tiềm năng, nhưng khả năng hoạt động như một agent tổng quát trong hệ điều hành thường bị đánh giá thấp do kỹ thuật phân tích màn hình chưa đủ mạnh.
- Theo chuẩn ScreenSpot, OmniParser cải thiện khả năng tạo hành động của GPT-4V phù hợp với các khu vực liên quan trong giao diện người dùng.
- Một bài báo khác công bố vào tháng 9 năm 2024 cho thấy kết quả thử nghiệm tốt nhất cho agent sử dụng OmniParser tích hợp với GPT-4V.
📌 OmniParser là mô hình AI mới của Microsoft, vượt qua GPT-4V trong nhiều bài kiểm tra. Sự ra mắt này đánh dấu bước tiến quan trọng trong ngành AI Agent, với khả năng chuyển đổi ảnh chụp màn hình thành dữ liệu và cải thiện hiệu suất giao diện người dùng.
https://analyticsindiamag.com/ai-news-updates/microsoft-drops-omniparser-its-new-ai-model/
- GLM-4-Voice là mô hình ngôn ngữ lớn đầu cuối mã nguồn mở vừa được Zhipu AI phát hành vào ngày 25 tháng 10 năm 2024.
- Mô hình này nhằm khắc phục những hạn chế của các hệ thống nhận diện giọng nói truyền thống, như khả năng hiểu cảm xúc và biến thể trong khẩu ngữ.
- GLM-4-Voice tích hợp nhận diện giọng nói, hiểu ngôn ngữ và tạo giọng nói trong một hệ thống duy nhất, hỗ trợ cả tiếng Trung và tiếng Anh.
- Việc tích hợp này giúp loại bỏ các quy trình phức tạp thường thấy trong các mô hình trước đây, cho phép xử lý hiệu quả hơn.
- Một tính năng nổi bật của GLM-4-Voice là khả năng điều chỉnh cảm xúc, âm điệu và tốc độ dựa trên hướng dẫn của người dùng.
- Mô hình có độ trễ thấp và hỗ trợ phơi nhiễm thời gian thực, giúp tương tác trở nên tự nhiên hơn khi người dùng có thể nói chồng lên nhau mà không bị gián đoạn.
- GLM-4-Voice cải thiện đáng kể cách tương tác giữa con người và máy móc, làm cho các cuộc trò chuyện trở nên trực quan và dễ tiếp cận hơn.
- Các trợ lý giọng nói hiện tại thường cảm thấy cứng nhắc vì không thể điều chỉnh theo dòng chảy của cuộc trò chuyện con người. GLM-4-Voice giải quyết vấn đề này bằng cách điều chỉnh đầu ra giọng nói để làm cho cuộc trò chuyện trở nên biểu cảm hơn.
- Các thử nghiệm ban đầu cho thấy GLM-4-Voice hoạt động tốt hơn với chuyển tiếp giọng nói mượt mà và khả năng xử lý sự gián đoạn tốt hơn so với các phiên bản trước.
- Dữ liệu ban đầu từ Zhipu AI cho thấy GLM-4-Voice có độ phản hồi tốt hơn với độ trễ giảm, nâng cao sự hài lòng của người dùng trong các ứng dụng tương tác.
- Mô hình này hứa hẹn sẽ ảnh hưởng đến nhiều lĩnh vực như trợ lý cá nhân, dịch vụ khách hàng, giải trí và giáo dục.
📌 GLM-4-Voice của Zhipu AI là bước tiến quan trọng trong mô hình AI giọng nói với khả năng điều chỉnh cảm xúc và hỗ trợ đa ngôn ngữ. Mô hình này mang lại trải nghiệm tương tác tự nhiên hơn với độ trễ thấp và khả năng xử lý sự gián đoạn hiệu quả.
https://www.marktechpost.com/2024/10/25/zhipu-ai-releases-glm-4-voice-a-new-open-source-end-to-end-speech-large-language-model/
• Meta vừa công bố NotebookLlama - phiên bản nguồn mở của tính năng tạo podcast tự động trong NotebookLM của Google
• NotebookLlama sử dụng mô hình Llama của Meta để thực hiện phần lớn quá trình xử lý
• Quy trình hoạt động của NotebookLlama:
- Đầu tiên tạo bản ghi từ file đầu vào (PDF tin tức hoặc bài blog)
- Thêm các yếu tố kịch tính và ngắt quãng
- Chuyển bản ghi thành giọng nói qua các mô hình text-to-speech nguồn mở
• Chất lượng âm thanh của NotebookLlama còn hạn chế so với NotebookLM:
- Giọng nói có âm sắc máy móc rõ rệt
- Các giọng thường chồng lấn nhau ở những điểm không phù hợp
• Nhóm nghiên cứu của Meta cho biết chất lượng có thể cải thiện với mô hình mạnh hơn:
- Mô hình text-to-speech hiện là điểm giới hạn về độ tự nhiên
- Đề xuất cách tiếp cận mới: sử dụng 2 agent tranh luận để viết dàn ý podcast thay vì một mô hình đơn lẻ
• NotebookLlama không phải nỗ lực đầu tiên nhằm sao chép tính năng podcast của NotebookLM, một số dự án khác đã thành công hơn
• Tuy nhiên, tất cả các hệ thống AI tạo podcast hiện nay đều chưa giải quyết được vấn đề ảo giác (hallucination) - tạo ra thông tin không có thật
📌 Meta tạo bước đột phá với NotebookLlama - công cụ tạo podcast AI nguồn mở dựa trên mô hình Llama, dù chất lượng âm thanh còn hạn chế nhưng mở ra tiềm năng cải tiến với mô hình mạnh hơn. Vấn đề ảo giác vẫn là thách thức chung cho mọi hệ thống AI tạo podcast.
https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/
• Midjourney vừa công bố mở rộng trình chỉnh sửa ảnh cho nhóm người dùng được chọn lọc
• Tính năng mới cho phép người dùng chỉnh sửa ảnh từ nguồn bên ngoài lần đầu tiên, với các biện pháp kiểm duyệt và bảo vệ quyền riêng tư nghiêm ngặt
• Người dùng có thể:
- Thêm hoặc xóa vật thể trong ảnh
- Thay đổi kết cấu, màu sắc của tường
- Điều chỉnh ánh sáng để tạo hiệu ứng ban đêm
- Chuyển đổi phác thảo tay thành tác phẩm nghệ thuật hoàn chỉnh
• Điều kiện sử dụng tính năng mới:
- Thành viên có đăng ký gói năm
- Người dùng đã đăng ký trong 12 tháng qua
- Thành viên có ít nhất 10.000 ảnh
- Chỉ khả dụng trên Midjourney 6.1
• Giao diện người dùng mới phản hồi nhanh, giúp quá trình tạo ảnh giống như sử dụng ứng dụng kiểu Photoshop
• Công cụ thể hiện khả năng hiểu chính xác vùng cần thay đổi khi sử dụng các lệnh
• Các thay đổi mới hòa hợp liền mạch với phong cách và hình thức của ảnh gốc
📌 Midjourney đã tạo bước đột phá với tính năng chỉnh sửa ảnh bên ngoài, cạnh tranh trực tiếp với Photoshop. Tính năng này chỉ dành cho nhóm người dùng đặc biệt trên Midjourney 6.1, yêu cầu tối thiểu 10.000 ảnh và 12 tháng đăng ký.
https://www.tomsguide.com/ai/forget-photoshop-midjourney-just-launched-its-upgraded-image-editor-with-a-killer-new-feature
📌 Google NotebookLM giúp tạo podcast AI chuyên nghiệp với khả năng tùy chỉnh linh hoạt theo nội dung và đối tượng khán giả. Công cụ này hỗ trợ tạo các tập podcast tự nhiên và chính xác, mang lại tiềm năng ứng dụng lớn trong marketing và sản xuất nội dung doanh nghiệp.
https://www.forbes.com/sites/rogerdooley/2024/10/24/how-to-create-and-customize-an-ai-podcast-with-googles-notebooklm/
📌 Mochi-1 đánh dấu bước đột phá trong lĩnh vực AI video mã nguồn mở, mang lại công cụ mạnh mẽ cho cộng đồng và mở ra tiềm năng tùy chỉnh không giới hạn. Với trọng tâm vào chuyển động và độ chính xác, Mochi-1 hứa hẹn cạnh tranh mạnh mẽ trên thị trường AI video.
https://www.tomsguide.com/ai/meet-mochi-1-the-latest-free-and-open-source-ai-video-model
📌 Mô hình sCM của OpenAI cải thiện tốc độ tạo media lên 50 lần, mở ra tiềm năng ứng dụng AI thời gian thực. Công nghệ này có thể cách mạng hóa nhiều ngành công nghiệp với khả năng tạo nội dung nhanh chóng và hiệu quả.
https://venturebeat.com/ai/openai-researchers-develop-new-model-that-speeds-up-media-generation-by-50x/
- OpenAI đã chính thức ra mắt Voice Mode nâng cao tại châu Âu vào ngày 22/10/2024.
- Việc ra mắt bị trì hoãn trước đó có thể do các quy định nghiêm ngặt của GDPR tại châu Âu.
- Voice Mode này cho phép người dùng tương tác với ChatGPT bằng giọng nói thông qua điện thoại di động, máy tính xách tay hoặc máy tính để bàn.
- Voice Mode nâng cao đã được triển khai tại Vương quốc Anh đầu tháng 10 nhưng chỉ đến nay mới có mặt tại các quốc gia châu Âu.
- Một phát ngôn viên của OpenAI khẳng định cam kết làm việc với các tổ chức châu Âu để cung cấp sản phẩm tại đây.
- Tất cả người dùng Plus ở EU, Thụy Sĩ, Iceland, Na Uy và Liechtenstein hiện đã có quyền truy cập vào Voice Mode nâng cao.
- Chế độ này không khả dụng cho người dùng tài khoản miễn phí.
- Giọng nói Sky trong Voice Mode từng gây tranh cãi vì giống giọng của diễn viên Scarlett Johansson trong bộ phim "Her" (2013).
- Luật sư của Johansson đã gửi thư yêu cầu OpenAI không sử dụng giọng nói này, dẫn đến việc tạm dừng sử dụng giọng nói Sky.
- Người dùng có thể yêu cầu AI thay đổi giọng hoặc điều chỉnh tốc độ nói theo ý muốn.
📌 OpenAI đã ra mắt Voice Mode nâng cao tại châu Âu sau thời gian trì hoãn. Chế độ này cho phép tương tác bằng giọng nói và đã gây chú ý với vụ việc liên quan đến giọng nói Sky giống Scarlett Johansson. Tất cả người dùng Plus tại EU đều có quyền truy cập.
https://www.euronews.com/next/2024/10/22/openais-advanced-voice-mode-is-now-available-in-europe-heres-what-you-can-do-with-it
• Google vừa nâng cấp khả năng tạo hình ảnh của Gemini từ Imagen 2 lên Imagen 3, mang lại chất lượng cao hơn cho cả người dùng miễn phí và trả phí.
• Imagen 3 được đánh giá vượt trội hơn so với phiên bản trước và các mô hình AI khác như DALL-E 3, Midjourney v6, Stable Diffusion 3 Large về độ hài lòng của người dùng.
• Những cải tiến chính của Imagen 3 bao gồm:
- Chất lượng hình ảnh nâng cao với chi tiết sắc nét, màu sắc sống động hơn
- Tạo văn bản tốt hơn, tích hợp tốt hơn vào hình ảnh
- Hình ảnh chân thực hơn với người, thú cưng và cảnh vật
- Đa dạng phong cách từ tranh sơn dầu cổ điển đến nghệ thuật kỹ thuật số hiện đại
• Người dùng có thể sử dụng tính năng mới này qua 3 cách:
1. Trên website Gemini:
- Truy cập gemini.google.com và đăng nhập
- Sử dụng mẫu có sẵn hoặc tự tạo mô tả hình ảnh mong muốn
- Xem kết quả, chỉnh sửa mô tả nếu cần và tải xuống hình ảnh cuối cùng
2. Trên ứng dụng Gemini cho Android:
- Tải ứng dụng từ Google Play
- Nhập mô tả hình ảnh bằng văn bản hoặc giọng nói
- Xem, chỉnh sửa và chia sẻ hình ảnh được tạo
3. Trên ứng dụng Google cho iOS:
- Tải ứng dụng Google từ App Store
- Chọn Gemini từ menu Shortcuts
- Nhập mô tả hình ảnh và xem kết quả
- Chia sẻ hoặc tải xuống hình ảnh (không có tính năng chỉnh sửa trực tiếp)
• Tính năng mới này giúp Google cạnh tranh trực tiếp với các công cụ tạo hình ảnh AI khác như DALL-E và Midjourney.
• Người dùng có thể tạo nhiều loại hình ảnh khác nhau từ tranh vẽ đến ảnh chân dung thực tế, phong cảnh, v.v.
📌 Google Gemini với Imagen 3 nâng tầm khả năng tạo hình ảnh AI, cạnh tranh trực tiếp với DALL-E và Midjourney. Người dùng có thể dễ dàng tạo ảnh chất lượng cao miễn phí trên web, Android và iOS, mở ra cơ hội sáng tạo không giới hạn.
https://www.zdnet.com/article/how-to-use-gemini-to-generate-higher-quality-ai-images-now-for-free/
• Black Forest Labs vừa ra mắt Flux 1.1 Pro, mô hình tạo ảnh AI nhanh nhất và tiên tiến nhất của họ.
• Flux 1.1 Pro đạt điểm Elo cao nhất trên nền tảng đánh giá Artificial Analysis, vượt qua tất cả các mô hình text-to-image khác trên thị trường.
• Mô hình mới có tốc độ gần bằng mô hình nhỏ nhất của Flux, nhưng chất lượng hình ảnh vượt trội hơn.
• Giá của Flux 1.1 Pro là 0,04 USD/hình, thấp hơn nhiều mô hình khác trên thị trường.
• Flux 1.1 Pro là mô hình đóng, không thể chạy cục bộ. Người dùng chỉ có thể truy cập thông qua các nền tảng như Together AI, Replicate, Fal AI và Freepik.
• Mô hình tạo ra hình ảnh rất thực tế, có khả năng tạo văn bản tốt và sáng tạo trong các tác vụ và phong cách nghệ thuật.
• So với Flux 1, Flux 1.1 Pro tạo ra tư thế tự nhiên hơn và cơ thể nhất quán hơn trong các hình ảnh.
• Flux 1.1 Pro tuân thủ prompt tốt hơn, kết hợp được nhiều yếu tố vào cảnh mà không bị thiếu sót.
• Về nhận thức không gian, Flux 1.1 Pro và Flux 1 tương đương nhau, nhưng Flux 1.1 Pro vượt trội hơn về các chi tiết bổ sung.
• Flux 1.1 Pro nhất quán và logic hơn trong việc tạo ra hình ảnh so với phiên bản trước.
• Mô hình hiểu ngôn ngữ tự nhiên, phù hợp với người mới bắt đầu, mặc dù đây không phải là điểm mạnh chính.
• MidJourney có xu hướng sáng tạo hơn trong việc nâng cao các prompt kém chất lượng.
• Flux 1.1 Pro rẻ hơn, nhanh hơn và nhìn chung tốt hơn về chất lượng so với bất kỳ mô hình hiện tại nào.
• Đối với những người muốn trải nghiệm chuyên nghiệp hơn, Freepik dường như là lựa chọn tốt nhất.
• Freepik cung cấp nhiều tính năng bổ sung như nâng cao hình ảnh, outpainting, tạo hình ảnh từ bản nháp, xóa nền và thư viện nội dung để thử nghiệm.
📌 Flux 1.1 Pro là mô hình tạo ảnh AI mạnh mẽ nhất hiện nay, vượt trội về tốc độ và chất lượng. Với giá 0,04 USD/hình, nó rẻ hơn và nhanh hơn các đối thủ. Tuy không thể chạy cục bộ, người dùng có thể truy cập qua các nền tảng như Freepik để có trải nghiệm chuyên nghiệp với nhiều tính năng bổ sung.
https://decrypt.co/284932/meet-flux-1-1-pro-best-ai-image-generator
• Apple đã phát triển mô hình AI mới có tên Depth Pro, có khả năng tạo bản đồ độ sâu 3D chi tiết từ hình ảnh 2D đơn lẻ chỉ trong 0,3 giây.
• Depth Pro không cần dữ liệu camera truyền thống để đưa ra dự đoán, mở ra tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực như thực tế tăng cường và xe tự lái.
• Mô hình này sử dụng kiến trúc transformer đa quy mô hiệu quả để xử lý đồng thời cả ngữ cảnh tổng thể và chi tiết của hình ảnh.
• Depth Pro có khả năng ước tính cả độ sâu tương đối và tuyệt đối (độ sâu metric), cung cấp các phép đo trong thế giới thực.
• Mô hình có khả năng học zero-shot, cho phép áp dụng cho nhiều loại hình ảnh khác nhau mà không cần đào tạo lại trên bộ dữ liệu cụ thể.
• Depth Pro vượt trội so với các mô hình khác trong việc xử lý các thách thức như "flying pixels" và truy vết biên chính xác.
• Apple đã công bố mã nguồn mở của Depth Pro trên GitHub, bao gồm kiến trúc mô hình và trọng số đã được đào tạo trước.
• Mô hình này có thể tạo bản đồ độ sâu có độ phân giải 2,25 megapixel với độ sắc nét đặc biệt, nắm bắt được cả những chi tiết nhỏ như tóc và thực vật.
• Depth Pro đạt hiệu suất cao nhất trong so sánh với các mô hình khác trên nhiều bộ dữ liệu, với xếp hạng trung bình là 2,5.
• Ứng dụng tiềm năng của Depth Pro bao gồm cải thiện trải nghiệm thực tế tăng cường, nâng cao khả năng phát hiện và điều hướng chướng ngại vật của xe tự lái.
• Trong thương mại điện tử, Depth Pro có thể cho phép người tiêu dùng xem cách đồ nội thất phù hợp với ngôi nhà của họ chỉ bằng cách chĩa camera điện thoại vào phòng.
• Mô hình này có thể đẩy nhanh quá trình phát triển sản phẩm và ra quyết định dựa trên AI trong nhiều ngành công nghiệp.
📌 Apple đã tạo ra bước đột phá trong lĩnh vực nhận thức 3D với Depth Pro, mô hình AI có khả năng tạo bản đồ độ sâu 3D chi tiết từ hình ảnh 2D trong 0,3 giây. Với tính năng học zero-shot và khả năng ước tính độ sâu metric, Depth Pro mở ra tiềm năng ứng dụng rộng rãi từ thực tế tăng cường đến xe tự lái.
https://venturebeat.com/ai/apple-releases-depth-pro-an-ai-model-that-rewrites-the-rules-of-3d-vision/
• Meta AI giới thiệu MovieGen - bộ mô hình nền tảng truyền thông tiên tiến mới, hứa hẹn cách mạng hóa việc tạo và tương tác với nội dung truyền thông
• MovieGen có khả năng tạo video 16 giây ở độ phân giải 1080p và 16 khung hình/giây, kèm âm thanh đồng bộ, nhờ mô hình 30 tỷ tham số sử dụng kỹ thuật khuếch tán tiềm ẩn tiên tiến
• Mô hình 13 tỷ tham số chuyên biệt cho tổng hợp âm thanh từ video/văn bản, tạo âm thanh điện ảnh 48kHz đồng bộ với hình ảnh, có thể xử lý đa dạng độ dài phương tiện lên đến 30 giây
• Khả năng xử lý linh hoạt các ngữ cảnh âm thanh khác nhau như tạo mới, mở rộng và điền vào khoảng trống nhờ huấn luyện dự đoán âm thanh có mặt nạ
• Sử dụng mục tiêu Flow Matching kết hợp kiến trúc Diffusion Transformer (DiT) để huấn luyện và suy luận hiệu quả, giúp tăng tốc quá trình và giảm yêu cầu tính toán
• Kỹ thuật khuếch tán tiềm ẩn với DAC-VAE mã hóa âm thanh 48kHz ở tốc độ 25Hz, cho chất lượng cao hơn ở tốc độ khung hình thấp hơn so với phương pháp truyền thống
• Mô hình DAC-VAE được cải tiến với biến đổi Fourier thời gian ngắn đa tỷ lệ, hàm kích hoạt Snake và loại bỏ lượng tử hóa vector dư thừa để nâng cao chất lượng tái tạo âm thanh
• MovieGen cho phép tạo video từ văn bản, cá nhân hóa video bằng hình ảnh do người dùng cung cấp và chỉnh sửa video với các yếu tố âm thanh-hình ảnh mới
• Công nghệ này có ý nghĩa quan trọng đối với các ngành như giải trí, quảng cáo, giáo dục - nơi nội dung năng động và cá nhân hóa ngày càng được yêu cầu cao
• MovieGen đại diện cho bước tiến lớn trong lĩnh vực tạo nội dung truyền thông, thiết lập tiêu chuẩn mới cho khả năng tạo nội dung tự động và mở ra cơ hội chưa từng có cho sáng tạo
📌 Meta AI giới thiệu MovieGen - bộ mô hình AI tạo video 1080p 16 giây với âm thanh 48kHz đồng bộ. Sử dụng mô hình 30 tỷ tham số, MovieGen cho phép tạo, cá nhân hóa và chỉnh sửa video từ văn bản/hình ảnh, mở ra tiềm năng lớn cho ngành giải trí và quảng cáo.
https://www.marktechpost.com/2024/10/05/meta-ai-unveils-moviegen-a-series-of-new-advanced-media-foundation-ai-models/
• Google vừa ra mắt tính năng tóm tắt video trên YouTube thông qua Gemini, công cụ AI tạo sinh mới nhất của họ. Tính năng này cho phép người dùng nhanh chóng nắm bắt nội dung chính của video mà không cần xem toàn bộ.
• Tác giả bày tỏ lo ngại về tác động tiềm tàng của tính năng này đối với người sáng tạo nội dung YouTube. Việc bỏ qua quảng cáo và nội dung đầy đủ có thể ảnh hưởng đến doanh thu và lượt xem của họ.
• Tính năng tóm tắt video dường như mâu thuẫn với mô hình kinh doanh hiện tại của YouTube, vốn dựa vào quảng cáo và gói đăng ký Premium để tạo doanh thu.
• Google đang đẩy mạnh áp dụng AI vào nhiều sản phẩm của mình, bao gồm cả YouTube. Họ đã giới thiệu các công cụ tạo chủ đề, tiêu đề và video dựa trên AI cho người sáng tạo nội dung.
• Tác giả đặt câu hỏi liệu Google có đang "quên mất" rằng họ sở hữu YouTube khi triển khai tính năng tóm tắt video này.
• Bài viết cũng đề cập đến những thách thức mà YouTube phải đối mặt trong việc kiểm duyệt nội dung, với hàng petabyte dữ liệu được tải lên hàng ngày.
• Google đã từng gặp nhiều vấn đề liên quan đến việc kiểm soát nội dung trên YouTube, như vụ ElsaGate và các đợt "Adpocalypse" kể từ năm 2017.
• Tác giả cho rằng Google cần tìm ra sự cân bằng giữa việc áp dụng công nghệ AI mới và bảo vệ lợi ích của người sáng tạo nội dung.
• Bài viết cũng đề cập đến các vấn đề pháp lý mà Google đang phải đối mặt, bao gồm cáo buộc về hành vi chống cạnh tranh từ Bộ Tư pháp Hoa Kỳ và tòa án EU.
• Tác giả kết luận rằng mặc dù AI không thể "xấu xa", nhưng cách con người sử dụng và triển khai nó có thể gây ra những hậu quả không mong muốn.
📌 Google Gemini có khả năng tóm tắt video YouTube, gây lo ngại về tác động đến người sáng tạo nội dung và mô hình kinh doanh. Tính năng này có thể ảnh hưởng đến doanh thu quảng cáo và lượt xem. Google cần cân bằng giữa đổi mới AI và bảo vệ lợi ích của người sáng tạo nội dung trên nền tảng với hơn 1 tỷ người dùng hàng tháng.
https://www.androidpolice.com/gemini-ai-summary-undermines-creators-defies-youtube-premium/
• Microsoft vừa ra mắt phiên bản mới của ứng dụng Copilot cho iPhone và Android với giao diện mới và tính năng giọng nói tương tự ChatGPT Advanced Voice của OpenAI
• Tính năng giọng nói mới cho phép chuyển đổi giọng nói thành văn bản, ngắt lời và phản ánh giọng điệu cảm xúc của người dùng tương tự như Advanced Voice
• Giọng nói của Copilot được đánh giá là tự nhiên và thân thiện hơn, ít cứng nhắc hơn so với ChatGPT, tuy nhiên khả năng ngắt lời chưa thực sự trôi chảy
• Giao diện người dùng được cải thiện, thân thiện hơn với người dùng phổ thông, giúp dễ dàng sử dụng hơn
• Phiên bản mới này là sản phẩm đầu tiên dưới thời CEO AI mới của Microsoft - Mustafa Suleyman, cựu đồng sáng lập Google DeepMind và CEO Inflection AI
• Copilot mới có nhiều điểm tương đồng với chatbot Pi của Inflection AI, với tông màu nhẹ nhàng hơn và cách tiếp cận đơn giản hóa các ý tưởng phức tạp
• Có 4 tùy chọn giọng nói: Grove, Canyon, Wave và Meadow. Người dùng có thể tùy chỉnh tốc độ nói và yêu cầu thay đổi giọng điệu, âm sắc
• Copilot có xu hướng sử dụng từ lóng và cách nói tắt nhiều hơn so với các mô hình giọng nói AI khác, tạo cảm giác tự nhiên như đang nói chuyện với người thật
• Tính năng giọng nói của Copilot hoàn toàn miễn phí, trong khi ChatGPT Advanced Voice yêu cầu người dùng trả phí 20 USD/tháng
• Copilot có một số hạn chế so với ChatGPT, ví dụ như ít khả năng hát hoặc rap, nhưng điều này phù hợp với đối tượng người dùng phổ thông hơn
• Công nghệ nền tảng của Copilot Voice dựa trên phiên bản điều chỉnh của công nghệ OpenAI, cho phép chuyển đổi giọng nói sang giọng nói trực tiếp mà không cần qua bước chuyển văn bản
📌 Microsoft Copilot Voice mang đến trải nghiệm giọng nói AI miễn phí, tự nhiên hơn ChatGPT với 4 giọng đọc tùy chỉnh. Ứng dụng sử dụng từ lóng, có giao diện thân thiện, nhắm đến người dùng phổ thông, đánh dấu bước tiến mới của Microsoft trong lĩnh vực AI tiêu dùng.
https://www.tomsguide.com/ai/copilot/microsoft-copilot-voice-is-more-human-like-than-chatgpt-and-its-free-to-all-users
• Meta giới thiệu Movie Gen - mô hình AI tiên tiến nhất để tạo nội dung đa phương tiện, đặt ra tiêu chuẩn mới cho trải nghiệm AI nhập vai
• Movie Gen cho phép tạo video tùy chỉnh từ văn bản đơn giản, là mô hình đầu tiên trong ngành tạo video dài độ phân giải cao ở các tỷ lệ khung hình khác nhau
• Người dùng có thể tạo video từ các mô tả văn bản chi tiết, ví dụ: "Một cô gái chạy trên bãi biển và cầm diều. Cô ấy mặc quần short jean và áo phông màu vàng. Mặt trời chiếu sáng."
• Mô hình này cũng có thể chỉnh sửa video hiện có bằng văn bản, cho phép chỉnh sửa chính xác từ phong cách, chuyển cảnh đến các chi tiết nhỏ
• Movie Gen cho phép tạo video cá nhân hóa bằng cách tải lên hình ảnh của bản thân và biến nó thành video, đồng thời bảo toàn danh tính và chuyển động của con người
• Người dùng có thể tạo hiệu ứng âm thanh và nhạc nền cho video bằng cách sử dụng đầu vào video và văn bản. Ví dụ: "Mưa rơi trên vách đá và người, với nhạc nền phát ra."
• Meta cung cấp bài báo nghiên cứu chi tiết về Movie Gen để tìm hiểu cách họ thiết lập các tiêu chuẩn mới trong ngành về tạo nội dung đa phương tiện bằng AI
• Công ty nhấn mạnh cách tiếp cận có trách nhiệm đối với AI tạo sinh, đồng thời khám phá cách Movie Gen có thể mở ra kỷ nguyên mới cho người sáng tạo nội dung
• Meta cung cấp thông tin về cách tiếp cận, nghiên cứu và trải nghiệm sản phẩm liên quan đến Movie Gen
• Trang web cũng bao gồm các liên kết đến tin tức mới nhất và thông tin về các mô hình nền tảng của Meta
📌 Movie Gen của Meta là bước đột phá trong AI tạo sinh đa phương tiện, cho phép tạo và chỉnh sửa video, âm thanh từ văn bản. Mô hình này hứa hẹn mở ra kỷ nguyên mới cho người sáng tạo nội dung, với khả năng tạo video HD dài, cá nhân hóa và chỉnh sửa chính xác.
https://ai.meta.com/research/movie-gen/
• Microsoft vừa công bố VoiceRAG - hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài dựa trên giọng nói, sử dụng mô hình gpt-4o-realtime-preview mới của Azure OpenAI.
• VoiceRAG kết hợp đầu vào và đầu ra âm thanh với khả năng truy xuất dữ liệu mạnh mẽ, cho phép tương tác liền mạch với ứng dụng bằng lệnh thoại.
• Hệ thống sử dụng hai thành phần chính: gọi hàm và kiến trúc trung gian thời gian thực. Gọi hàm cho phép tìm kiếm và xác định thông tin từ cơ sở kiến thức.
• Kiến trúc trung gian thời gian thực tách biệt hoạt động phía máy khách và máy chủ, tăng cường bảo mật và đơn giản hóa quản lý cấu hình.
• VoiceRAG hỗ trợ truyền phát âm thanh song công toàn phần, cho phép xử lý đồng thời đầu vào và đầu ra âm thanh, tạo trải nghiệm hội thoại liền mạch.
• Hệ thống sử dụng lệnh gọi hàm "search" đặc biệt để truy vấn dịch vụ Azure AI Search với các truy vấn phức tạp, kết hợp tìm kiếm vector và lai.
• Công cụ "report_grounding" giúp đảm bảo tính minh bạch bằng cách ghi lại các đoạn từ cơ sở kiến thức được sử dụng để tạo ra mỗi phản hồi.
• VoiceRAG được xây dựng với tính bảo mật cao, quản lý an toàn tất cả các yếu tố cấu hình trên backend.
• Azure OpenAI và Azure AI Search cung cấp các tính năng bảo mật toàn diện như cách ly mạng và mã hóa nhiều lớp.
• Hệ thống mở ra nhiều khả năng cho các ứng dụng dựa trên giọng nói như tự động hóa dịch vụ khách hàng, quản lý kiến thức và môi trường học tập tương tác.
• Kiến trúc của VoiceRAG cho phép tùy chỉnh và mở rộng dễ dàng, đảm bảo khả năng phát triển phù hợp với tiến bộ trong AI và thay đổi kỳ vọng của người dùng.
📌 Microsoft đã tạo bước đột phá với VoiceRAG, kết hợp GPT-4 và Azure AI Search để tạo ra hệ thống tương tác bằng giọng nói tiên tiến. Công nghệ này mở ra tiềm năng to lớn cho các ứng dụng AI dựa trên giọng nói, hứa hẹn cách mạng hóa tương tác người-máy trong tương lai.
https://www.marktechpost.com/2024/10/03/microsoft-released-voicerag-an-advanced-voice-interface-using-gpt-4-and-azure-ai-search-for-real-time-conversational-applications/
• Microsoft vừa công bố một phiên bản hoàn toàn mới của Copilot tại sự kiện ở New York. Trợ lý AI này giờ đây có giao diện dựa trên thẻ trên di động, web và Windows.
• Copilot được trang bị tính năng Copilot Vision, cho phép "nhìn" những gì người dùng đang xem. Nó cũng có chế độ đàm thoại bằng giọng nói tự nhiên giống OpenAI và khả năng đọc tin tức như một người dẫn chương trình ảo.
• Windows 11 có thêm tính năng hiển thị trạng thái Phone Link trong menu Start, cho phép xem thông báo và pin điện thoại.
• Paint và Photos được bổ sung các tính năng thú vị như Generative Fill và Erase, sử dụng AI để thêm hoặc xóa đối tượng trong ảnh một cách chính xác.
• Tìm kiếm Windows trên các máy tính Copilot Plus được nâng cấp với AI, bao gồm tính năng "Click to Do" tương tự Circle to Search của Google và khả năng tìm kiếm ảnh bằng mô tả văn bản.
• Microsoft Paint có thêm công cụ Generative Fill và Generative Erase, cho phép thêm hoặc xóa đối tượng trong ảnh bằng AI, tương tự như các tính năng của Photoshop.
• Bản cập nhật Windows 11 2024 (phiên bản 24H2) bắt đầu được phát hành, bổ sung nhiều cải tiến hữu ích cho Start menu, File Explorer, Settings...
• Start menu có thêm bảng điều khiển hiển thị thông tin pin, thông báo của điện thoại và truy cập nhanh tin nhắn, cuộc gọi, ảnh cho người dùng Phone Link.
• Copilot được thiết kế lại hoàn toàn trên di động, web và ứng dụng Windows, với giao diện dựa trên thẻ tương tự trợ lý AI cá nhân Pi của Inflection AI.
• Mustafa Suleyman, CEO mới của bộ phận AI Microsoft, đã viết một bản ghi nhớ dài 700 từ về "sự thay đổi mô hình công nghệ" hướng tới các mô hình AI có thể hiểu những gì con người nhìn thấy và nghe thấy.
📌 Microsoft đã thực hiện một bước tiến lớn trong lĩnh vực AI với việc ra mắt phiên bản Copilot mới. Trợ lý ảo này giờ đây có khả năng nhìn, nói và thậm chí đọc tin tức, cùng với nhiều tính năng AI hấp dẫn được tích hợp vào Windows 11, Paint và Photos. Đây là minh chứng cho tham vọng của Microsoft trong việc dẫn đầu cuộc cách mạng AI.
https://www.theverge.com/2024/10/1/24259261/microsoft-event-copilot-ai-windows
• Google vừa ra mắt Gemini Live miễn phí cho tất cả người dùng Android, sau khi trước đó chỉ giới hạn cho người đăng ký gói Gemini Advanced 20 USD/tháng.
• Gemini Live hiện chỉ hỗ trợ tiếng Anh, người dùng có thể truy cập bằng cách tải ứng dụng Gemini và chọn biểu tượng Live ở góc dưới bên phải màn hình.
• Trợ lý AI này có 10 giọng nói để lựa chọn, được đặt tên theo các ngôi sao và chòm sao.
• Gemini Live có khả năng hiểu ngôn ngữ thông thường, suy đoán, hỗ trợ brainstorm ý tưởng và đa nhiệm trong giao tiếp.
• Các tùy chọn giọng nói mới có khả năng biểu cảm cảm xúc tốt hơn so với các trợ lý ảo trước đây.
• Google đang phải đối mặt với sự cạnh tranh gay gắt từ ChatGPT với Advanced Voice Mode và Microsoft Copilot AI mới nâng cấp hỗ trợ tương tác bằng giọng nói.
• Apple cũng sắp ra mắt các tính năng Apple Intelligence nâng cấp cho Siri.
• Việc miễn phí Gemini Live và tích hợp sâu vào hệ sinh thái Android là lợi thế của Google trong cuộc đua trợ lý AI.
• Google muốn Gemini trở thành hơn cả Google Assistant, đóng vai trò quan trọng hơn trong cuộc sống người dùng, đặc biệt trên thiết bị di động.
• Gemini Live hứa hẹn mang lại trải nghiệm vượt trội so với các trợ lý giọng nói hiện tại, nhưng vẫn cần thời gian để đánh giá so với các đối thủ mới.
📌 Google miễn phí Gemini Live cho Android, cung cấp 10 giọng nói AI mới với khả năng biểu cảm tốt hơn. Đây là bước đi chiến lược nhằm cạnh tranh với ChatGPT, Microsoft Copilot và Apple Siri trong cuộc đua trợ lý AI ngày càng gay cấn trên thiết bị di động.
https://www.techradar.com/computing/artificial-intelligence/gemini-live-is-here-free-and-feeling-chatty
📌 OpenAI đã cải thiện đáng kể tốc độ phiên âm với Whisper V3 Turbo, nhanh hơn 8 lần so với phiên bản trước mà vẫn giữ được độ chính xác, đồng thời tối ưu kích thước giúp dễ dàng triển khai.
https://analyticsindiamag.com/ai-news-updates/openai-launches-whisper-v3-turbo-model-for-faster-transcription/
• OpenAI tổ chức DevDay 2024 giữa tuần lễ biến động với sự ra đi của CTO Mira Murati và CRO Bob McGrew. Tuy nhiên, công ty khẳng định không làm chậm tiến độ phát triển.
• Sự kiện giới thiệu API Realtime cho phép xây dựng ứng dụng với phản hồi giọng nói AI độ trễ thấp. Nhà phát triển có thể sử dụng 6 giọng nói do OpenAI cung cấp.
• Tính năng tinh chỉnh thị giác (vision fine-tuning) được thêm vào API, cho phép sử dụng hình ảnh và văn bản để cải thiện hiệu suất GPT-4o trong các tác vụ liên quan đến hiểu hình ảnh.
• OpenAI giới thiệu tính năng lưu cache prompt, tương tự như của đối thủ Anthropic, giúp tiết kiệm chi phí và cải thiện độ trễ cho nhà phát triển.
• Tính năng chưng cất mô hình (model distillation) cho phép sử dụng mô hình lớn như o1-preview và GPT-4o để tinh chỉnh các mô hình nhỏ hơn như GPT-4o mini, giúp cải thiện hiệu suất với chi phí thấp hơn.
• OpenAI tuyên bố đã cắt giảm 99% chi phí truy cập API trong 2 năm qua do áp lực cạnh tranh từ Meta và Google.
• Công ty cho biết có hơn 3 triệu nhà phát triển đang xây dựng ứng dụng với các mô hình AI của họ.
• DevDay 2024 không công bố thông tin về GPT Store hay ra mắt mô hình AI mới nào.
• OpenAI không tự động thêm thông báo nhận dạng khi sử dụng giọng nói AI trong cuộc gọi, mà để trách nhiệm này cho nhà phát triển.
• Nhà phát triển không được phép tải lên hình ảnh có bản quyền, bạo lực hoặc vi phạm chính sách an toàn của OpenAI khi sử dụng tính năng tinh chỉnh thị giác.
• Công cụ đánh giá beta được ra mắt để nhà phát triển có thể đo lường hiệu suất tinh chỉnh trong API của OpenAI.
📌 OpenAI tổ chức DevDay 2024 giới thiệu API Realtime và các tính năng mới nhằm thu hút 3 triệu nhà phát triển. Công ty cắt giảm 99% chi phí API trong 2 năm qua do cạnh tranh gay gắt. Tuy nhiên, vẫn chưa có thông tin về GPT Store hay mô hình AI mới.
https://techcrunch.com/2024/10/01/openais-devday-brings-realtime-api-and-other-treats-for-ai-app-developers/
• Raspberry Pi vừa ra mắt một module camera mới có tên Raspberry Pi AI Camera, giá 70 USD.
• Module này sử dụng cảm biến hình ảnh Sony IMX500 kết hợp với chip xử lý RP2040 do Raspberry Pi tự phát triển.
• Camera có khả năng xử lý AI tích hợp, cho phép thực hiện các tác vụ thị giác máy tính mà không ảnh hưởng đến hiệu năng của máy tính Raspberry Pi chính.
• Kích thước của module là 25mm x 24mm, tương đương với Camera Module 3 hiện tại nhưng dày hơn một chút.
• Module được tích hợp sẵn mô hình MobileNet-SSD để nhận diện đối tượng theo thời gian thực.
• Sản phẩm này tương thích với tất cả các máy tính Raspberry Pi hiện có trên thị trường.
• Raspberry Pi cam kết sẽ tiếp tục sản xuất AI Camera ít nhất đến tháng 1/2028, đảm bảo nguồn cung ổn định cho khách hàng.
• Đối tượng sử dụng chính của sản phẩm này là các công ty trong lĩnh vực công nghiệp và nhúng, chiếm tới 72% doanh số của Raspberry Pi.
• Một số ứng dụng tiềm năng bao gồm: cảm biến thành phố thông minh để phát hiện chỗ đỗ xe trống, theo dõi luồng giao thông, kiểm tra chất lượng tự động trong môi trường công nghiệp.
• Lý do các công ty ưa chuộng sản phẩm của Raspberry Pi là vì khả năng sản xuất quy mô lớn và nguồn cung ổn định, giúp tránh gián đoạn trong quy trình sản xuất.
• Raspberry Pi vẫn sẽ tiếp tục bán Camera Module 3 với giá khoảng 25 USD cho những ứng dụng đơn giản hơn.
📌 Raspberry Pi ra mắt module camera AI giá 70 USD, tích hợp chip xử lý RP2040 và cảm biến Sony IMX500. Sản phẩm hứa hẹn mở ra nhiều ứng dụng thị giác máy tính mới trong lĩnh vực công nghiệp và IoT, với cam kết sản xuất đến 2028.
https://techcrunch.com/2024/09/30/raspberry-pi-launches-camera-module-for-vision-based-ai-applications/
• OpenAI vừa giới thiệu phiên bản mới của mô hình AI video Sora, nhằm nâng cao chất lượng video và hiệu quả sản xuất.
• Phiên bản Sora ban đầu từng bị chỉ trích vì tốc độ tạo video chậm và yêu cầu tính toán cao. OpenAI đã tập trung khắc phục những thách thức này trong phiên bản mới.
• Sora mới có khả năng tạo ra các clip video dài hơn và chất lượng cao hơn, nhằm cạnh tranh với các mô hình như Runway Gen-3 vốn nổi tiếng với tốc độ tạo nhanh hơn.
• Để cải thiện hiệu suất của Sora, OpenAI đang tập trung thu thập dữ liệu huấn luyện đa dạng và độ phân giải cao. Đây là bước quan trọng để nâng cao khả năng cạnh tranh của mô hình trên thị trường.
• Một mô hình AI mới có tên Blueberry cũng được đề cập, được cho là có liên quan đến mô hình Strawberry của OpenAI. Blueberry được kỳ vọng sẽ thiết lập các tiêu chuẩn mới về hiệu suất AI.
• Các tiến bộ nhanh chóng trong công nghệ AI đã làm dấy lên cuộc tranh luận về ý thức AI và khả năng suy luận giống con người. Một số người cho rằng các mô hình AI thể hiện khả năng suy luận giống con người, trong khi những người khác vẫn hoài nghi.
• Cuộc tranh luận triết học này tiếp tục định hình quan điểm về khả năng của AI và có khả năng sẽ trở nên gay gắt hơn khi công nghệ AI tiến bộ.
• OpenAI cũng đang phát triển ChatGPT-5, với một số chuyên gia cho rằng thế giới chưa sẵn sàng cho phiên bản này.
• Công ty cũng đang đối mặt với thách thức khi một số nhân viên cấp cao rời đi, theo thông tin từ Sam Altman.
• OpenAI dự kiến sẽ tổ chức sự kiện Dev Day 2024, nơi có thể sẽ công bố thêm thông tin về các sản phẩm mới.
📌 OpenAI đang dẫn đầu cuộc đua AI với Sora 2 và Blueberry, hứa hẹn cách mạng hóa ngành công nghiệp video AI. Tuy nhiên, công ty cũng phải đối mặt với thách thức về nhân sự và tranh cãi về đạo đức AI. Sự kiện Dev Day 2024 sắp tới có thể sẽ mang đến nhiều thông tin thú vị.
https://www.geeky-gadgets.com/openai-blueberry-ai-model/
• Các công ty AI âm nhạc đang phát triển mạnh mẽ, tạo ra những bài hát viral như "10 Drunk Cigarettes" và "BBL Drizzy". Tuy nhiên, việc sử dụng công nghệ này đang phải đối mặt với nhiều chỉ trích gay gắt.
• Universal Music Group, Sony Music Entertainment và Warner Music Group đã kiện các công ty AI âm nhạc Uncharted Labs và Suno vì phần mềm cho phép người dùng tạo nhạc từ lời nhắc văn bản, cáo buộc sử dụng các bài hát có bản quyền mà không được phép để đào tạo AI.
• Hơn 200 nghệ sĩ âm nhạc, bao gồm Billie Eilish, Stevie Wonder và Nicki Minaj, đã ký một bức thư ngỏ kêu gọi các công ty AI bảo vệ chống lại việc sử dụng AI để đánh cắp giọng nói và hình ảnh của nghệ sĩ chuyên nghiệp.
• Các công ty AI âm nhạc như Sound Draw, Musicfy, AIVA và Boomy cho phép người dùng dễ dàng tạo nhạc bằng AI thông qua các giao diện đơn giản. Người dùng có thể chọn thể loại nhạc, điều chỉnh nhịp độ, tâm trạng và nhạc cụ xuất hiện trong bài hát.
• Cassie Speer, giám đốc "thành công sáng tạo" tại Boomy, cho rằng công nghệ AI có thể mang lại cơ hội tiếp cận âm nhạc mới cho học sinh có thu nhập thấp.
• Theo Dự án Dữ liệu Giáo dục Nghệ thuật, 8% học sinh không được tiếp cận giáo dục âm nhạc trong ngày học tại các trường công lập Hoa Kỳ.
• Một số nghệ sĩ ủng hộ việc tích hợp công nghệ AI vào giáo dục và sản xuất âm nhạc. Regi Worles, thành viên ban nhạc Dog Tags, cho rằng AI có thể giúp những người không có kỹ năng chơi nhạc cụ bắt đầu sáng tác.
• Tuy nhiên, vẫn còn nhiều lo ngại về việc AI có thể đe dọa quyền lợi của các nghệ sĩ chuyên nghiệp và làm suy yếu hệ sinh thái âm nhạc hiện tại.
📌 AI âm nhạc đang tạo ra cuộc tranh luận sôi nổi trong ngành công nghiệp âm nhạc. Mặc dù hứa hẹn dân chủ hóa sáng tạo, nhưng vẫn còn nhiều lo ngại về bản quyền và tác động đến nghệ sĩ chuyên nghiệp. 8% học sinh Mỹ không được tiếp cận giáo dục âm nhạc, AI có thể là giải pháp, nhưng cần cân nhắc kỹ lưỡng.
https://www.nbcnews.com/tech/innovation/ai-music-companies-say-tools-can-democratize-art-form-artists-are-skep-rcna172473
• Meta vừa công bố phiên bản Llama 3.2 tại sự kiện Meta Connect 2024, bao gồm các mô hình đa phương thức mới có khả năng xử lý hình ảnh.
• Llama 3.2 11B và 90B là hai mô hình đa phương thức có thể phân tích biểu đồ, đồ thị, chú thích hình ảnh và xác định vị trí đối tượng trong ảnh. Ví dụ, chúng có thể trả lời câu hỏi về bản đồ công viên hoặc phân tích biểu đồ doanh thu công ty.
• Meta cũng giới thiệu công cụ an toàn Llama Guard Vision để phát hiện nội dung có hại trong văn bản và hình ảnh đầu vào hoặc đầu ra của mô hình.
• Các mô hình đa phương thức có thể được tải xuống và sử dụng trên nhiều nền tảng đám mây như Hugging Face, Microsoft Azure, Google Cloud và AWS. Meta cũng sử dụng chúng cho trợ lý AI trên WhatsApp, Instagram và Facebook.
• Tuy nhiên, Llama 3.2 11B và 90B không khả dụng tại châu Âu do lo ngại về môi trường quy định "khó đoán" của khu vực này. Meta đã bày tỏ quan ngại về Đạo luật AI của EU và các quy định trong GDPR liên quan đến đào tạo AI.
• Meta cũng ra mắt hai mô hình nhẹ chỉ xử lý văn bản là Llama 3.2 1B và 3B, được thiết kế để chạy trên điện thoại thông minh và các thiết bị biên. Chúng có thể thực hiện các tác vụ như tóm tắt và viết lại đoạn văn.
• Công ty giới thiệu bộ công cụ phát triển Llama Stack để tinh chỉnh tất cả các mô hình Llama 3.2. Các mô hình này có thể xử lý tối đa khoảng 100.000 từ cùng lúc.
• Meta tuyên bố các mô hình Llama đã được tải xuống hơn 350 triệu lần và đang được sử dụng bởi các doanh nghiệp lớn như Zoom, AT&T và Goldman Sachs.
• Mặc dù không hoàn toàn "mở", giấy phép của Meta vẫn hạn chế cách một số nhà phát triển có thể sử dụng chúng. Các nền tảng có hơn 700 triệu người dùng hàng tháng phải yêu cầu giấy phép đặc biệt.
• Meta đang đầu tư hàng tỷ đô la vào máy chủ, trung tâm dữ liệu và cơ sở hạ tầng mạng để đào tạo các mô hình trong tương lai, nhằm mục tiêu trở thành đồng nghĩa với AI tạo sinh.
📌 Meta đã công bố Llama 3.2 với các mô hình đa phương thức 11B và 90B có khả năng xử lý hình ảnh, cùng với các mô hình nhẹ 1B và 3B chỉ xử lý văn bản. Tuy nhiên, do lo ngại về quy định, các mô hình mới không khả dụng tại châu Âu. Meta tuyên bố Llama đã được tải xuống hơn 350 triệu lần, thể hiện tham vọng thống trị lĩnh vực AI tạo sinh của công ty.
https://techcrunch.com/2024/09/25/metas-llama-ai-models-now-support-images/
• OpenAI đang triển khai Chế độ Giọng nói Nâng cao (Advanced Voice Mode - AVM) cho nhiều khách hàng trả phí của ChatGPT hơn, bắt đầu từ ngày 24/09/2024.
• AVM sẽ được cung cấp cho người dùng ChatGPT Plus và Teams trước, sau đó là khách hàng doanh nghiệp và giáo dục vào tuần sau.
• Giao diện của AVM được thiết kế lại với hình ảnh quả cầu màu xanh động, thay vì các chấm đen như trước đây.
• ChatGPT bổ sung thêm 5 giọng nói mới: Arbor, Maple, Sol, Spruce và Vale, nâng tổng số giọng nói lên 9.
• Các tên giọng nói đều lấy cảm hứng từ thiên nhiên, nhằm tạo cảm giác tự nhiên khi sử dụng ChatGPT.
• OpenAI đã loại bỏ giọng nói Sky sau khi bị Scarlett Johansson đe dọa kiện vì cho rằng giọng nói này quá giống giọng của cô.
• Tính năng chia sẻ video và màn hình của ChatGPT vẫn chưa được triển khai trong đợt cập nhật này.
• OpenAI tuyên bố đã cải thiện khả năng hiểu giọng nói có trọng âm, cũng như tốc độ và độ mượt mà của cuộc hội thoại.
• Các tính năng tùy chỉnh như Custom Instructions và Memory cũng được mở rộng cho AVM.
• AVM hiện chưa khả dụng ở một số khu vực như EU, Vương quốc Anh, Thụy Sĩ, Iceland, Na Uy và Liechtenstein.
• Người dùng sẽ nhận được thông báo bật lên bên cạnh biểu tượng giọng nói khi AVM được kích hoạt cho tài khoản của họ.
• OpenAI cho biết họ đã thêm Custom Instructions, Memory, 5 giọng nói mới và cải thiện khả năng nhận diện giọng nói có trọng âm trong thời gian chờ đợi ra mắt.
• ChatGPT giờ đây có thể nói "Xin lỗi vì đến muộn" bằng hơn 50 ngôn ngữ.
📌 OpenAI nâng cấp đáng kể trải nghiệm giọng nói của ChatGPT với 5 giọng mới, giao diện mới và tính năng cải tiến. AVM được triển khai cho người dùng Plus và Teams, hứa hẹn tương tác tự nhiên hơn với AI. Tuy nhiên, một số khu vực và tính năng vẫn chưa được hỗ trợ.
https://techcrunch.com/2024/09/24/openai-rolls-out-advanced-voice-mode-with-more-voices-and-a-new-look/
• Kuaishou vừa ra mắt phiên bản nâng cấp Kling 1.5, công cụ tạo video bằng AI mạnh mẽ, nhằm cạnh tranh với Sora sắp ra mắt của OpenAI.
• Kling 1.5 tuyên bố cải thiện 95% so với phiên bản trước, mang lại chất lượng hình ảnh tốt hơn, chuyển động tự nhiên hơn và độ phù hợp với prompt cao hơn.
• Tính năng mới "Motion Brush" cho phép người dùng định nghĩa chính xác chuyển động của bất kỳ yếu tố nào trong hình ảnh.
• Chế độ chất lượng cao mới được cung cấp miễn phí, tối ưu hóa hình ảnh cho màn hình lớn.
• Kling 1.5 hỗ trợ tạo video HD 1080p trong chế độ chuyên nghiệp, với thời lượng lên đến 10 giây ở nhiều tỷ lệ khung hình khác nhau.
• Người dùng có thể tạo đồng thời tối đa 4 video.
• Các bài kiểm tra cá nhân với Kling 1.0 sử dụng cùng prompt như OpenAI cho Sora đã tạo ra kết quả có chất lượng và mạch lạc tương đương.
• Kuaishou lần đầu ra mắt Kling tại Trung Quốc vào tháng 6, và mở rộng ra toàn cầu một tháng sau đó tại KlingAI.com.
• Người dùng mới được cấp 66 credit mỗi ngày khi đăng ký.
• Kling hiện vượt trội hơn nhiều đối thủ về độ dài và chất lượng video, có thể tạo video dài tới 2 phút ở độ phân giải 1080p, 30 khung hình/giây.
• Nền tảng này có cộng đồng người dùng tích cực, chia sẻ từ hình ảnh đến phim ngắn.
• Kling hoạt động trong khuôn khổ hướng dẫn nội dung nghiêm ngặt, hạn chế tạo nội dung bạo lực hoặc NSFW và cấm mô tả người nổi tiếng.
• Mặc dù Kling 1.5 hiện đang dẫn đầu, nhưng cạnh tranh trong lĩnh vực video tạo sinh ngày càng gay gắt.
• Sora của OpenAI có thể thách thức vị trí dẫn đầu khi ra mắt, nhưng hiện tại chỉ là một lựa chọn khác trong số ngày càng nhiều ứng dụng tạo video bằng AI.
📌 Kling 1.5 đã vượt qua nhiều đối thủ với khả năng tạo video HD 1080p dài 2 phút, 30fps. Nâng cấp mang lại chất lượng hình ảnh tốt hơn 95%, chuyển động tự nhiên hơn cùng tính năng Motion Brush độc đáo. Cuộc đua AI tạo video đang nóng lên, chờ đợi sự xuất hiện của Sora từ OpenAI.
https://decrypt.co/250783/kling-1-5-ai-video-generator-arrives-challenge-openai-sora
• Hume vừa ra mắt phiên bản cập nhật Empathic Voice Interface 2 (EVI 2) - mô hình AI giọng nói và API mới với nhiều tính năng nâng cao.
• EVI 2 có độ trễ thấp hơn 40% và giá rẻ hơn 30% so với phiên bản trước, chỉ 0,072 USD/phút.
• Mô hình mới cải thiện tính tự nhiên, phản hồi cảm xúc và khả năng tùy chỉnh của giọng nói AI.
• EVI 2 chuyển đổi trực tiếp tín hiệu âm thanh thành token, không qua bước chuyển thành văn bản như phiên bản cũ.
• Thời gian phản hồi trung bình chỉ từ 500-800 mili giây, giúp cuộc hội thoại trôi chảy và tự nhiên hơn.
• Tích hợp cả giọng nói và ngôn ngữ vào một mô hình duy nhất, giúp hiểu rõ hơn ngữ cảnh cảm xúc của người dùng.
• Cho phép điều chỉnh các tham số giọng nói như giới tính, âm vực để tạo giọng nói độc đáo mà không cần sao chép giọng.
• Hỗ trợ thay đổi phong cách nói trong cuộc hội thoại như nói nhanh hơn hoặc hào hứng hơn.
• Hiện hỗ trợ tiếng Anh, dự kiến bổ sung tiếng Tây Ban Nha, Pháp và Đức vào cuối năm 2024.
• Mô hình tự học được nhiều ngôn ngữ khác như Ba Lan mà không cần huấn luyện cụ thể.
• Nhà phát triển có thể tích hợp EVI 2 vào ứng dụng thay vì chuyển người dùng sang trợ lý riêng biệt.
• Hume cũng cung cấp API Đo lường Biểu cảm và API Mô hình Tùy chỉnh cho các ứng dụng AI phản hồi cảm xúc.
• EVI 2 được thiết kế để làm việc liền mạch với các mô hình ngôn ngữ lớn khác và tích hợp với công cụ tìm kiếm web.
• Hume sẽ tiếp tục cải tiến EVI 2 trong những tháng tới, bao gồm mở rộng hỗ trợ ngôn ngữ và tinh chỉnh khả năng thực hiện hướng dẫn phức tạp.
📌 EVI 2 của Hume là bước tiến lớn trong trợ lý giọng nói AI với độ trễ giảm 40%, giá rẻ hơn 30%, hỗ trợ đa ngôn ngữ và tùy chỉnh giọng nói. API dễ tích hợp giúp nhà phát triển xây dựng ứng dụng AI thông minh cảm xúc hiệu quả hơn.
https://venturebeat.com/ai/who-needs-gpt-4o-voice-mode-humes-evi-2-is-here-with-emotionally-inflected-voice-ai-and-api/
• Google vừa giới thiệu tính năng mới cho công cụ NotebookLM AI, cho phép người dùng tạo podcast chất lượng cao từ tài liệu tải lên.
• Podcast được tạo bởi AI có 2 người dẫn chương trình (1 nam, 1 nữ) cung cấp tóm tắt và phân tích sâu sắc dựa trên nội dung tài liệu.
• Công cụ hỗ trợ nhiều định dạng như PDF, tài liệu Google Drive và liên kết website.
• Podcast thường dài 6-8 phút với chất lượng âm thanh cao.
• AI có thể tạo nội dung từ các bài báo nghiên cứu và tin tức.
• Tính năng này hữu ích cho việc tóm tắt nghiên cứu, tạo nội dung và đa nhiệm.
• AI hoạt động thông qua quá trình đào tạo 2 giai đoạn để tạo nội dung động.
• Công nghệ có tiềm năng tùy chỉnh và tạo avatar video trong tương lai.
• Người dùng có thể tương tác với AI thông qua giao diện chat để đặt câu hỏi về nội dung tải lên.
• AI tạo ra tóm tắt ngắn gọn, phác thảo có cấu trúc và bài thuyết trình hấp dẫn.
• Tính năng này đặc biệt hữu ích cho người học thính giác, chuyên gia bận rộn và nhà nghiên cứu.
• AI có thể tạo ra thế giới trò chơi video sống động dựa trên bộ dữ liệu lớn về các trò chơi hiện có.
• Ứng dụng thực tế bao gồm tóm tắt nhanh các bài báo phức tạp, tạo nội dung âm thanh và cập nhật thông tin khi đa nhiệm.
• Công nghệ này có tiềm năng tùy chỉnh lớn trong tương lai, bao gồm cả avatar video chân thực.
• Mặc dù đã rất tiên tiến, vẫn cần xem xét về độ tin cậy và chính xác của AI, với kỳ vọng cải thiện trong tương lai.
• Công cụ này hứa hẹn trở thành nguồn tài nguyên thiết yếu để tóm tắt và trình bày thông tin trong nhiều lĩnh vực.
📌 Google ra mắt tính năng AI mới cho NotebookLM, tạo podcast 6-8 phút từ tài liệu tải lên với 2 người dẫn chương trình AI. Công nghệ này hỗ trợ nhiều định dạng, tạo nội dung chất lượng cao và có tiềm năng ứng dụng rộng rãi trong nghiên cứu, kinh doanh và giải trí.
https://www.geeky-gadgets.com/?p=438045
- Runway đã công bố một API cho phép các nhà phát triển và tổ chức tích hợp các mô hình AI tạo sinh video vào các nền tảng và ứng dụng bên thứ ba.
- API hiện đang trong giai đoạn truy cập hạn chế với một danh sách chờ, chỉ cung cấp một mô hình duy nhất là Gen-3 Alpha Turbo, phiên bản nhanh hơn nhưng ít khả năng hơn so với Gen-3 Alpha.
- 2 gói dịch vụ được cung cấp: Build (dành cho cá nhân và nhóm) và Enterprise. Giá cơ bản là 0.01 USD mỗi tín dụng (một giây video tiêu tốn 5 tín dụng).
- Các đối tác chiến lược đáng tin cậy như Omnicom đã bắt đầu sử dụng API này.
- Runway yêu cầu mọi giao diện sử dụng API phải hiển thị rõ ràng banner “Powered by Runway” với liên kết đến trang web của họ để người dùng hiểu rõ hơn về công nghệ.
- Công ty đã nhận được sự đầu tư từ Salesforce, Google và Nvidia, với định giá gần đây là 1.5 tỷ USD.
- Runway phải đối mặt với sự cạnh tranh mạnh mẽ từ OpenAI, Google và Adobe trong lĩnh vực tạo video.
- OpenAI dự kiến sẽ ra mắt mô hình tạo video Sora vào mùa thu này, trong khi Luma Labs cũng vừa ra mắt API của riêng họ mà không cần danh sách chờ.
- Mặc dù việc ra mắt API có thể giúp Runway cải thiện lợi nhuận, nhưng vẫn còn nhiều câu hỏi pháp lý xung quanh các mô hình AI tạo sinh.
- Các mô hình của Runway được đào tạo từ một lượng lớn video để học các mẫu và tạo ra cảnh mới, nhưng nguồn dữ liệu đào tạo vẫn chưa được công bố rõ ràng.
- Có thông tin cho thấy Runway có thể đã sử dụng dữ liệu có bản quyền mà không có sự cho phép, dẫn đến nguy cơ kiện tụng liên quan đến quyền sở hữu trí tuệ.
- Một nghiên cứu năm 2024 cho thấy 75% công ty sản xuất phim đã giảm bớt hoặc loại bỏ việc làm sau khi áp dụng AI, dự đoán rằng hơn 100.000 việc làm trong ngành giải trí Mỹ sẽ bị ảnh hưởng bởi AI tạo sinh vào năm 2026.
📌 Runways ra mắt API cho AI tạo video giữa bối cảnh cạnh tranh gay gắt. nghiên cứu chỉ ra rằng 75% công ty sản xuất phim đã giảm việc làm do áp dụng công nghệ này.
https://techcrunch.com/2024/09/16/runway-announces-an-api-for-its-video-generating-models/
• Runway vừa ra mắt công cụ video-to-video AI mới, cho phép người dùng chỉnh sửa và biến đổi video thực tế bằng trí tuệ nhân tạo.
• Đây là phiên bản mới nhất của mô hình video Gen-3 Alpha, được Runway giới thiệu vào tháng 6 và liên tục bổ sung tính năng mới.
• Công cụ này hiện có sẵn trên giao diện web cho người dùng trả phí, cho phép điều khiển quá trình tạo video bằng lời nhắc văn bản kèm theo video tải lên.
• Người dùng có thể tải lên video gốc, sau đó sử dụng AI để thay đổi thiết kế và thẩm mỹ của video, trong khi vẫn giữ nguyên chuyển động.
• Một số ví dụ về khả năng của công cụ:
- Biến đổi cảnh quay thực tế thành thế giới dưới nước hoặc hành tinh ngoài vũ trụ
- Chuyển cảnh quay từ máy bay không người lái thành len, đại dương hoặc đồi cát
- Thay đổi thời gian trong ngày của cảnh thành phố (ban ngày, ban đêm, có bão...)
- Tạo hiệu ứng như biến đổi chủ thể thành thủy tinh hoặc hình vẽ phác thảo
• Công cụ này mang lại khả năng kiểm soát chính xác hơn về chuyển động, biểu cảm và ý định trong quá trình tạo video AI.
• Nó cho phép người dùng quay video thực tế rồi áp dụng AI để thay đổi thẩm mỹ hoặc thêm hiệu ứng cụ thể.
• Đây được xem là bước tiến quan trọng trong lĩnh vực tạo video AI, mở ra nhiều khả năng ứng dụng mới.
• Runway trước đó đã cung cấp các tính năng text-to-video và image-to-video, nay bổ sung thêm video-to-video để hoàn thiện bộ công cụ.
📌 Runway đã tạo bước đột phá với công cụ video-to-video AI mới, cho phép biến đổi hoàn toàn video thực tế. Người dùng có thể dễ dàng thay đổi bối cảnh, thời gian, hiệu ứng của video gốc chỉ bằng vài thao tác đơn giản, mở ra tiềm năng ứng dụng rộng rãi trong sáng tạo nội dung.
https://www.tomsguide.com/ai/ai-image-video/runway-launches-new-video-to-video-ai-tool-heres-what-it-can-do
• OpenAI vừa ra mắt tính năng "chế độ giọng nói nâng cao" cho ChatGPT, giúp AI này có thể trò chuyện tự nhiên hơn, thể hiện cảm xúc và hiểu được ngữ điệu của người dùng.
• Tính năng mới giúp ChatGPT nghe giống người thật hơn: không có khoảng dừng gượng gạo, có thể thở như người, không bị gián đoạn khi nói chuyện, thể hiện cảm xúc phù hợp.
• OpenAI lo ngại người dùng có thể phát triển mối quan hệ thân mật với ChatGPT. Đã có trường hợp một influencer mạng xã hội lập trình ChatGPT thành "bạn trai" của mình.
• Con người có khả năng phát triển tình bạn và sự thân mật thông qua ngôn ngữ. Quá trình tiến hóa đã mở rộng vùng não xử lý ngôn ngữ, giúp con người xây dựng mạng lưới xã hội phức tạp hơn.
• Các thí nghiệm từ thập niên 1990 cho thấy việc trao đổi qua lại và chia sẻ thông tin cá nhân giúp tạo cảm giác thân mật với đối tượng trò chuyện.
• Khi thêm yếu tố giọng nói, hiệu ứng này càng mạnh mẽ hơn. Ngay cả trợ lý ảo không giống người như Siri hay Alexa cũng nhận được rất nhiều lời cầu hôn từ người dùng.
• Để tránh người dùng hình thành mối quan hệ xã hội với ChatGPT, OpenAI lẽ ra không nên tạo ra giọng nói và khả năng trò chuyện như người thật cho nó.
• Từ 60 năm trước, các nhà khoa học đã nhận ra máy tính có thể được coi là tác nhân xã hội. Tính năng mới của ChatGPT chỉ là bước tiến tiếp theo.
• Nhiều người thiếu thốn sự đồng hành có thể được lợi từ chatbot thế hệ mới, cảm thấy bớt cô đơn và bị cô lập hơn.
• Tuy nhiên, thời gian trò chuyện với bot là thời gian không thể dành cho bạn bè và gia đình. Người dùng nhiều công nghệ có nguy cơ cao thay thế các mối quan hệ với con người thật.
• Trò chuyện với bot cũng có thể ảnh hưởng đến các mối quan hệ hiện có. Người dùng có thể kỳ vọng bạn bè, người thân phải cư xử lịch sự, phục tùng như chatbot.
• Những tác động lớn hơn của máy móc lên văn hóa sẽ ngày càng nổi bật, nhưng cũng có thể mang lại hiểu biết sâu sắc về cách thức hoạt động của văn hóa.
📌 ChatGPT với giọng nói như người thật có thể giúp giảm cô đơn nhưng cũng tiềm ẩn nguy cơ thay thế quan hệ thực. Cần cân nhắc kỹ tác động của AI lên văn hóa và xã hội trong tương lai.
https://theconversation.com/the-latest-version-of-chatgpt-has-a-feature-youll-fall-in-love-with-and-thats-a-worry-238073
• Roblox sắp ra mắt công cụ AI tạo sinh cho phép người dùng tạo ra toàn bộ cảnh 3D chỉ bằng lệnh văn bản.
• Người phát triển có thể đơn giản nhập lệnh như "Tạo đường đua trong sa mạc" và AI sẽ tự động tạo ra cảnh đó.
• Công cụ này cũng cho phép chỉnh sửa và mở rộng cảnh, ví dụ chuyển từ ban ngày sang đêm hoặc đổi sa mạc thành rừng.
• Roblox tuyên bố công cụ mới sẽ giúp tạo ra các thay đổi nhanh hơn nhiều so với cách thủ công, đồng thời trao quyền cho cả những người có kỹ năng 3D hạn chế.
• Công nghệ hoạt động bằng cách "token hóa" các khối 3D, tương tự cách mô hình ngôn ngữ lớn xử lý từ ngữ.
• Roblox phải đối mặt với thách thức về dữ liệu 3D hạn chế, buộc phải dựa vào dữ liệu do người dùng tạo và bộ dữ liệu bên ngoài.
• Để khắc phục vấn đề nhất quán logic, Roblox sử dụng mô hình AI thứ hai được đào tạo trên dữ liệu 2D phong phú hơn để kiểm tra kết quả của mô hình 3D.
• Các nhà thiết kế game vẫn cần tham gia để tạo ra môi trường chơi game thú vị, theo ý kiến chuyên gia.
• Đây là một phần trong nỗ lực tích hợp AI vào mọi quy trình của Roblox, hiện có 250 mô hình AI đang hoạt động.
• Roblox dự định mở mã nguồn mô hình nền tảng 3D để khuyến khích đổi mới.
• Công cụ này được kỳ vọng sẽ mang lại cơ hội sáng tạo lớn cho các nhà phát triển làm việc độc lập.
• Marcus Holmström, CEO của The Gang, nhận xét công cụ sẽ giúp tiết kiệm thời gian và thử nghiệm nhiều cách tiếp cận khác nhau.
• Công cụ AI phân tích trò chuyện bằng giọng nói theo thời gian thực để lọc ngôn từ không phù hợp cũng đang được triển khai.
📌 Roblox đang cách mạng hóa việc tạo môi trường game 3D với công cụ AI tạo sinh mới. Công nghệ này cho phép tạo cảnh chỉ bằng lệnh văn bản, tiết kiệm thời gian và mở rộng khả năng sáng tạo. Dù vẫn cần sự can thiệp của con người, đây hứa hẹn là bước đột phá lớn cho cộng đồng phát triển Roblox.
https://www.technologyreview.com/2024/09/06/1103707/roblox-is-launching-a-generative-ai-that-builds-3d-environments-in-a-snap/
#MIT
• Groq vừa giới thiệu mô hình thị giác LLaVA v1.5 7B trên Developer Console của họ, biến GroqCloud thành nền tảng đa phương thức hỗ trợ xử lý hình ảnh, âm thanh và văn bản.
• LLaVA (Large Language and Vision Assistant) kết hợp khả năng xử lý ngôn ngữ và thị giác, dựa trên mô hình CLIP của OpenAI và Llama 2 7B của Meta.
• Mô hình này sử dụng kỹ thuật huấn luyện hướng dẫn thị giác để nâng cao khả năng thực hiện hướng dẫn dựa trên hình ảnh và suy luận thị giác.
• LLaVA v1.5 7B xuất sắc trong các tác vụ như trả lời câu hỏi về hình ảnh, tạo chú thích, nhận dạng ký tự quang học và đối thoại đa phương thức.
• Theo Artificial Analysis, thời gian phản hồi của LLaVA v1.5 7B nhanh hơn 4 lần so với GPT-4o của OpenAI.
• Mô hình mới mở ra nhiều ứng dụng thực tế: theo dõi hàng tồn kho cho bán lẻ, cải thiện khả năng tiếp cận trên mạng xã hội bằng mô tả hình ảnh, chatbot dịch vụ khách hàng xử lý tương tác văn bản và hình ảnh.
• LLaVA v1.5 7B giúp tự động hóa các tác vụ trong sản xuất, tài chính, bán lẻ và giáo dục, nâng cao hiệu quả quy trình.
• Các nhà phát triển và doanh nghiệp có thể sử dụng LLaVA v1.5 7B ở chế độ Preview trên GroqCloud.
• Groq gần đây đã hợp tác với Meta, cung cấp các mô hình Llama 3.1 mới nhất (405B Instruct, 70B Instruct và 8B Instruct) cho cộng đồng với tốc độ của Groq.
• Andrej Karpathy, cựu nghiên cứu viên OpenAI, đã khen ngợi tốc độ suy luận của Groq, cho rằng nó mang lại trải nghiệm như AGI khi người dùng có thể nói chuyện với máy tính và nhận phản hồi tức thì.
• Groq được thành lập năm 2016 bởi Ross, khác biệt với các công ty khác bằng cách sử dụng phần cứng LPU độc quyền thay vì GPU.
📌 Groq ra mắt mô hình đa phương thức LLaVA v1.5 7B trên GroqCloud, nhanh hơn 4 lần so với GPT-4o. Mô hình kết hợp xử lý ngôn ngữ và thị giác, mở ra ứng dụng trong nhiều lĩnh vực như bán lẻ, mạng xã hội và dịch vụ khách hàng. Groq cũng hợp tác với Meta cung cấp các mô hình Llama 3.1 mới nhất.
https://analyticsindiamag.com/ai-news-updates/groq-unveils-llava-v1-5-7b-faster-than-openai-gpt-4o/
• Google đang triển khai tính năng Ask Photos được công bố tại hội nghị Google I/O tháng 5 vừa qua. Tính năng này sẽ bắt đầu có sẵn cho một số người dùng được chọn tại Mỹ từ ngày 5/9/2024.
• Ask Photos sử dụng mô hình AI Gemini của Google, cho phép người dùng tìm kiếm ảnh bằng các câu hỏi phức tạp bằng ngôn ngữ tự nhiên. AI có khả năng hiểu nội dung ảnh và metadata để đưa ra kết quả chính xác.
• Tính năng mới nâng cao khả năng tìm kiếm so với Google Photos trước đây. Người dùng có thể đặt các câu hỏi như "ảnh đẹp nhất từ mỗi Công viên Quốc gia tôi đã đến thăm". AI sẽ phân tích các yếu tố như ánh sáng, độ mờ, nhiễu nền để chọn ra ảnh đẹp nhất.
• Ngoài tìm kiếm, Ask Photos còn có thể trả lời các câu hỏi hữu ích. Ví dụ, phụ huynh có thể hỏi về chủ đề sinh nhật của con trong 4 năm qua, AI sẽ phân tích ảnh tiệc sinh nhật để xác định chủ đề như "nàng tiên cá", "công chúa" hay "siêu anh hùng".
• Người dùng có thể đặt các câu hỏi thực tế như "lần trước chúng tôi đã gọi món gì ở nhà hàng này" hoặc "lần trước chúng tôi cắm trại ở đâu tại Yosemite". Tính năng cũng hỗ trợ tạo album ảnh hoặc tóm tắt các hoạt động trong chuyến đi.
• AI có khả năng hiểu ngữ cảnh thư viện ảnh của người dùng, bao gồm những người quan trọng, sở thích, món ăn yêu thích và các chi tiết, kỷ niệm liên quan khác.
• Ask Photos sẽ có mặt trong Google Labs dưới dạng thử nghiệm. Google cam kết tuân thủ các nguyên tắc AI và không sử dụng dữ liệu riêng tư trong Photos cho mục đích quảng cáo.
• Nhân viên Google có thể xem xét các truy vấn của người dùng để cải thiện AI, nhưng câu trả lời của AI sẽ không được con người xem xét trừ khi người dùng yêu cầu hỗ trợ hoặc báo cáo lạm dụng.
📌 Google ra mắt tính năng Ask Photos sử dụng AI Gemini, cho phép tìm kiếm ảnh bằng câu hỏi phức tạp. Hiện đang thử nghiệm tại Mỹ từ 5/9/2024, tính năng hứa hẹn cách mạng hóa trải nghiệm tìm kiếm và tương tác với ảnh trên Google Photos.
https://techcrunch.com/2024/09/05/googles-ai-powered-ask-photos-feature-begins-u-s-rollout/
• MiniMax là công cụ tạo video AI mới ra mắt từ Trung Quốc, được hỗ trợ bởi Alibaba và Tencent. Nó gây ấn tượng với khả năng tạo ra video siêu thực của con người, đặc biệt là chuyển động tay chính xác.
• Công ty đã phát hành video demo chính thức trên X, cho thấy trailer của một cuộc phiêu lưu kỳ ảo với hiệu ứng đặc biệt và tính nhất quán của nhân vật - tất cả được tạo ra chỉ từ các gợi ý văn bản.
• MiniMax video-01 hỗ trợ độ phân giải 1280x720 với tốc độ 25 khung hình/giây. Nó có thể mô tả chuyển động camera điện ảnh và tạo ra các clip 6 giây.
• Tác giả đã thử nghiệm MiniMax với 7 gợi ý khác nhau, bao gồm cảnh bão sét trên thành phố tương lai, bướm đậu trên hoa súng, tàu vũ trụ phóng từ hành tinh lạ, đàn sư tử lúc hoàng hôn, thẻ tiêu đề phim cổ điển, cô gái nói chuyện trong quán cà phê và cực quang.
• Kết quả cho thấy MiniMax video-01 là một mô hình tốt, tương đương với Luma Labs Dream Machine nhưng không tốt bằng Runway Gen-3. Nó cũng không bằng Kling - một công cụ tạo video AI khác của Trung Quốc.
• Tuy nhiên, MiniMax dường như đã nắm bắt tốt việc tạo ra chuyển động của con người. Công ty hứa hẹn đây chỉ là phiên bản đầu tiên, với bản cập nhật tiếp theo sẽ ra mắt trong vài tuần tới.
• MiniMax đang phát triển phiên bản 02 của mô hình video và có kế hoạch cập nhật để bao gồm chuyển đổi hình ảnh thành video, văn bản và hình ảnh thành video, cũng như tạo clip dài hơn ban đầu.
📌 MiniMax là công cụ tạo video AI mới đầy hứa hẹn từ Trung Quốc, với khả năng tạo chuyển động người chân thực. Dù chưa vượt qua được Runway Gen-3 hay Kling, nhưng với sự hỗ trợ từ Alibaba và Tencent cùng kế hoạch cập nhật liên tục, MiniMax có tiềm năng trở thành đối thủ đáng gờm trong tương lai gần.
https://www.tomsguide.com/ai/ai-image-video/forget-sora-minimax-is-a-new-realistic-ai-video-generator-and-it-is-seriously-impressive
• NVIDIA, Georgia Tech, UMD và HKPU đã phát triển dòng mô hình ngôn ngữ-thị giác đa phương thức (MLLM) mới có tên NVEagle.
• NVEagle có 3 phiên bản chính: Eagle-X5-7B, Eagle-X5-13B và Eagle-X5-13B-Chat, với số tham số lần lượt là 7 tỷ và 13 tỷ.
• Mô hình sử dụng phương pháp kết hợp nhiều bộ mã hóa thị giác (vision encoders) bổ sung cho nhau bằng cách nối đơn giản các token thị giác.
• NVEagle giới thiệu giai đoạn Pre-Alignment để căn chỉnh các chuyên gia thị giác không căn chỉnh văn bản với mô hình ngôn ngữ trước khi tích hợp.
• Mô hình sử dụng kỹ thuật Mixture of Experts (MoE) trong bộ mã hóa thị giác, giúp cải thiện đáng kể khả năng nhận thức hình ảnh.
• NVEagle đạt kết quả ấn tượng trên nhiều bộ benchmark. Ví dụ, đạt điểm trung bình 85,9 trên OCRBench, vượt trội so với các mô hình hàng đầu khác.
• Trên TextVQA, Eagle-X5 đạt 88,8 điểm, cải thiện đáng kể so với các đối thủ cạnh tranh.
• Trong nhiệm vụ trả lời câu hỏi dựa trên hình ảnh GQA, mô hình đạt 65,7 điểm.
• Việc bổ sung thêm các chuyên gia thị giác như Pix2Struct và EVA-02 giúp cải thiện hiệu suất trên nhiều bộ benchmark.
• NVEagle giải quyết được nhiều thách thức chính trong nhận thức thị giác của các mô hình MLLM hiện có.
• Mô hình đạt hiệu suất tốt nhất trên nhiều tác vụ khác nhau với thiết kế tối ưu và hiệu quả.
• NVEagle đã được phát hành trên Hugging Face, giúp các nhà nghiên cứu và nhà phát triển dễ dàng tiếp cận.
📌 NVEagle là bước đột phá trong MLLM với 3 phiên bản 7B-13B, sử dụng nhiều bộ mã hóa thị giác và MoE. Đạt hiệu suất vượt trội trên OCR (85,9 điểm), TextVQA (88,8) và GQA (65,7), giải quyết thách thức về nhận thức hình ảnh độ phân giải cao.
https://www.marktechpost.com/2024/09/01/nveagle-released-by-nvidia-a-super-impressive-vision-language-model-that-comes-in-7b-13b-and-13b-fine-tuned-on-chat/
• Một nhóm fan nhạc country đã phát hiện ra một kế hoạch lừa đảo trên Spotify, sử dụng các bản cover AI để đánh cắp lượt nghe từ các nghệ sĩ thật.
• Các "ban nhạc" giả mạo có tên chung chung như "Highway Outlaws" và "Waterfront Wranglers", với hàng chục hoặc hàng trăm nghìn lượt stream nhưng không có bài hát gốc nào.
• Tiểu sử của các ban nhạc này nghe giống như được viết bởi ChatGPT và không có dấu vết trên mạng xã hội.
• Vấn đề được phát hiện khi một người dùng Reddit tìm thấy một ban nhạc như vậy và khám phá ra cả một mạng lưới các "nghệ sĩ" AI tương tự.
• Các bản cover AI xuất hiện trong các playlist chính thống như "summer country vibes", thu hút lượng tương tác không thực.
• Khi liên hệ với 11A - công ty quản lý được cho là đại diện cho các ban nhạc này, họ khẳng định có tài liệu chứng minh sự tham gia của nghệ sĩ thật nhưng không cung cấp thêm thông tin.
• Đáng ngờ là các bản cover AI biến mất trong quá trình báo chí điều tra, nhưng Spotify khẳng định không gỡ bỏ chúng.
• Spotify tuyên bố không cấm nghệ sĩ sử dụng công cụ AI miễn là không vi phạm chính sách về nội dung lừa đảo và mạo danh.
• Vấn đề không chỉ giới hạn ở nhạc country mà còn xảy ra với nhạc ambient, điện tử, jazz và cả metal.
• Hiện tại, việc gỡ bỏ các bản cover AI phụ thuộc vào công ty quản lý của nghệ sĩ gốc hoặc chính "nhà cung cấp nội dung" tự gỡ.
📌 Spotify đang phải đối mặt với làn sóng nhạc AI giả mạo đánh cắp doanh thu từ nghệ sĩ thật. Vấn nạn này ảnh hưởng nhiều thể loại nhạc, từ country đến metal, với hàng trăm nghìn lượt stream bị đánh cắp. Spotify cần có biện pháp mạnh để bảo vệ quyền lợi nghệ sĩ.
https://futurism.com/the-byte/spotify-ai-music
• Harvey Mason Jr., CEO của Recording Academy, gây chú ý khi tuyên bố Grammy sẽ chấp nhận âm nhạc được tạo ra bằng AI. Tuy nhiên, ông sau đó làm rõ rằng chỉ con người mới có thể đề cử giải thưởng, nhưng AI có thể được sử dụng trong quá trình sáng tạo.
• Sự phát triển của AI đang gây lo ngại trong ngành công nghiệp âm nhạc về vấn đề thay thế con người, bản quyền và tiền bản quyền.
• Một số nghệ sĩ phản đối việc sử dụng AI trong âm nhạc, trong khi những người khác chấp nhận miễn là họ được trả tiền.
• Các mối quan ngại chính trong ngành bao gồm đảm bảo phê duyệt đúng để sử dụng tác phẩm của nghệ sĩ, ghi nhận công lao riêng biệt cho con người và AI, và đảm bảo thanh toán công bằng.
• Mason đã tham gia vào việc thông qua Đạo luật ELVIS ở Tennessee, bảo vệ nghệ sĩ khỏi việc sử dụng trái phép giọng nói của họ. Ông cũng ủng hộ Đạo luật Không Lừa đảo AI và Đạo luật Không FAKES để bảo vệ hình ảnh của người sáng tạo khỏi AI giả mạo.
• Vấn đề này đang diễn ra nhanh hơn luật pháp. Gần đây, Donald Trump gặp rắc rối pháp lý sau khi sử dụng hình ảnh AI trái phép của Taylor Swift để quảng bá chiến dịch tranh cử tổng thống.
• Năm 2020, AI hầu như không phải là chủ đề thảo luận trong ngành âm nhạc. Tuy nhiên, đến năm 2023, mọi thứ bắt đầu thay đổi khi một bài hát deepfake có giọng hát AI của Drake và The Weeknd lan truyền trên mạng.
• Một sự cố AI nổi tiếng khác liên quan đến Drake sử dụng giọng nói AI trái phép của Tupac trong một bài hát chế giễu Kendrick Lamar, dẫn đến việc bị đe dọa kiện.
• Mason tin rằng con người sẽ thích nghi với AI, giống như họ đã thích nghi với các hình thức công nghệ mới khác trong quá khứ. Tuy nhiên, ông nhấn mạnh tầm quan trọng của việc đảm bảo công bằng cho người sáng tạo trong quá trình này.
📌 AI đang tác động mạnh mẽ đến ngành công nghiệp âm nhạc, gây ra lo ngại về bản quyền và sáng tạo. CEO Grammy Harvey Mason Jr. kêu gọi cần có quy định và bảo vệ người sáng tạo, đồng thời tin rằng con người sẽ thích nghi với công nghệ mới này như đã từng làm trong quá khứ.
https://techcrunch.com/2024/08/31/grammy-ceo-says-music-industry-also-has-ai-concerns/
• Nhiều công cụ AI mới ra mắt trong mùa hè này cho phép tạo ra những bức ảnh siêu thực, khiến việc phân biệt ảnh thật và ảnh giả ngày càng khó khăn hơn.
• FLUX.1 (Flux) là một trong những công cụ mạnh mẽ nhất, cho phép tạo ảnh siêu thực miễn phí mà không cần đăng ký. CBS News đã thử nghiệm và nhận thấy Flux có thể tạo ra những hình ảnh chân thực của người thật tại các địa điểm có thể nhận ra chỉ trong vài giây.
• Khác với các công cụ tương tự, kết quả từ Flux không có nhiều dấu hiệu điển hình của ảnh do AI tạo ra như làn da trông quá mịn màng một cách kỳ lạ.
• AI tạo sinh hoạt động bằng cách dựa vào hàng trăm đến hàng nghìn hình ảnh tham khảo để tạo ra kết quả mới. Người dùng có thể nhập hình ảnh tham khảo để làm cho kết quả cụ thể hơn.
• Grok 2, một công cụ tạo ảnh khác được phát hành trong tháng 8, có ít rào cản hơn, cho phép người dùng tạo hình ảnh của người nổi tiếng và tài liệu có bản quyền.
• Chuyên gia cảnh báo rằng việc có một công cụ nguồn mở như Flux mở ra cánh cửa cho các sửa đổi từ cộng đồng người dùng rộng lớn hơn, có thể dẫn đến việc sử dụng vi phạm trực tiếp điều khoản dịch vụ.
• Các công cụ tạo video AI cũng đang trở nên phổ biến rộng rãi. Black Forest Labs, công ty sở hữu Flux, cho biết họ có kế hoạch phát hành các công cụ có khả năng tạo video trong tương lai.
• Chuyên gia khuyên người dùng nên áp dụng các kỹ năng kiểm tra phương tiện truyền thông cơ bản khi xem xét hình ảnh, bao gồm chú ý đến các yếu tố nền và các chi tiết khác - và quan trọng nhất là xem xét nguồn gốc khi xác định tính xác thực của nội dung.
📌 Công cụ AI mới như FLUX.1 tạo ảnh siêu thực khó phân biệt với ảnh thật. Chuyên gia cảnh báo nguy cơ lạm dụng, kêu gọi người dùng cẩn trọng khi xem hình ảnh online. Các công ty AI lớn đang áp đặt hạn chế để ngăn chặn việc sử dụng sai mục đích.
https://www.cbsnews.com/news/can-you-tell-real-image-from-ai-flux/
• Alibaba Cloud vừa công bố mô hình thị giác-ngôn ngữ Qwen2-VL mới nhất, nhằm nâng cao khả năng hiểu hình ảnh, video và xử lý văn bản đa ngôn ngữ.
• Qwen2-VL đạt hiệu suất ấn tượng trong các bài kiểm tra chuẩn của bên thứ ba, vượt trội so với các mô hình hàng đầu như Meta Llama 3.1, OpenAI GPT-4o, Anthropic Claude 3 Haiku và Google Gemini-1.5 Flash.
• Mô hình hỗ trợ nhiều ngôn ngữ bao gồm tiếng Anh, tiếng Trung, hầu hết các ngôn ngữ châu Âu, tiếng Nhật, tiếng Hàn, tiếng Ả Rập và tiếng Việt.
• Qwen2-VL có khả năng phân tích và nhận dạng chữ viết tay bằng nhiều ngôn ngữ, nhận diện và mô tả nhiều đối tượng trong hình ảnh tĩnh.
• Mô hình có thể phân tích video trực tiếp gần như thời gian thực, cung cấp tóm tắt hoặc phản hồi, mở ra tiềm năng sử dụng cho hỗ trợ kỹ thuật trực tiếp.
• Qwen2-VL có thể phân tích video dài hơn 20 phút và trả lời câu hỏi về nội dung.
• Mô hình được phát hành với 3 biến thể có kích thước tham số khác nhau: Qwen2-VL-72B (72 tỷ tham số), Qwen2-VL-7B và Qwen2-VL-2B.
• Các biến thể 7B và 2B được cung cấp dưới giấy phép nguồn mở Apache 2.0, cho phép doanh nghiệp sử dụng miễn phí cho mục đích thương mại.
• Mô hình 72B lớn nhất chưa được phát hành công khai và sẽ chỉ được cung cấp sau này thông qua giấy phép riêng và API từ Alibaba.
• Qwen2-VL hỗ trợ gọi hàm, cho phép tích hợp với phần mềm, ứng dụng và công cụ của bên thứ ba.
• Mô hình có thể trích xuất thông tin trực quan từ các nguồn bên thứ ba như trạng thái chuyến bay, dự báo thời tiết hoặc theo dõi gói hàng.
• Qwen2-VL giới thiệu nhiều cải tiến kiến trúc nhằm nâng cao khả năng xử lý và hiểu dữ liệu hình ảnh của mô hình.
• Hỗ trợ Naive Dynamic Resolution cho phép mô hình xử lý hình ảnh với độ phân giải khác nhau, đảm bảo tính nhất quán và chính xác trong diễn giải hình ảnh.
• Hệ thống Multimodal Rotary Position Embedding (M-ROPE) cho phép mô hình đồng thời nắm bắt và tích hợp thông tin vị trí trên văn bản, hình ảnh và video.
📌 Alibaba ra mắt Qwen2-VL, mô hình AI phân tích video 20 phút, hỗ trợ đa ngôn ngữ và mở nguồn một phần. Mô hình có 3 biến thể (72B, 7B, 2B tham số), vượt trội so với đối thủ trong các bài kiểm tra chuẩn, mở ra tiềm năng ứng dụng rộng rãi trong xử lý hình ảnh và video.
https://venturebeat.com/ai/alibaba-releases-new-ai-model-qwen2-vl-that-can-analyze-videos-more-than-20-minutes-long/
• Google vừa thông báo Gemini, công cụ AI đối thủ của ChatGPT, giờ đây hỗ trợ tạo hình ảnh người bằng AI.
• Tính năng này đã từng có trên Gemini nhưng bị vô hiệu hóa vào tháng 2 sau khi người dùng phát hiện có thể tạo ra những hình ảnh gây rối loạn bằng công cụ AI của Google.
• Để ngăn chặn việc lạm dụng, Google tuyên bố đang triển khai các biện pháp bảo vệ nghiêm ngặt.
• Tính năng tạo hình ảnh người bằng AI sẽ được triển khai trong những ngày tới. Người dùng Gemini Advanced, Business hoặc Enterprise sẽ được truy cập sớm.
• Google nhấn mạnh rằng họ không hỗ trợ tạo ra các cá nhân có thể nhận dạng được, hình ảnh trẻ vị thành niên hoặc cảnh quá bạo lực, tình dục.
• Hiện tại, tính năng này chỉ hỗ trợ lệnh bằng tiếng Anh, nhưng Google có kế hoạch bổ sung thêm nhiều ngôn ngữ khác.
• Gemini sử dụng Imagen 3, mô hình AI tạo sinh mới nhất của Google với chất lượng hình ảnh được cải thiện.
• Imagen 3 sử dụng SynthID, công cụ thủy vân nội dung do AI tạo ra của Google.
• Google cũng đang triển khai Gems tùy chỉnh, cho phép người dùng tạo ra các biến thể cá nhân hóa của Gemini.
• Người dùng có thể tạo Gem bằng cách mô tả chức năng và cách phản hồi mong muốn.
• Google cung cấp sẵn một số Gems như Huấn luyện viên học tập, Người động não, Hướng dẫn viên nghề nghiệp, Biên tập viên và Đối tác lập trình.
• Gems đang được triển khai cho người dùng Gemini Advanced, Business và Enterprise.
• Tính năng tạo hình ảnh người bằng AI và Gems tùy chỉnh là những nâng cấp đáng chú ý của Google Gemini, nhằm cạnh tranh với các đối thủ AI khác.
• Tuy nhiên, Google cũng thừa nhận Gemini vẫn chưa hoàn hảo và sẽ tiếp tục cải thiện dựa trên phản hồi của người dùng.
📌 Google Gemini nâng cấp với khả năng tạo hình ảnh người bằng AI và Gems tùy chỉnh. Tính năng tạo hình ảnh có giới hạn nghiêm ngặt, chỉ hỗ trợ tiếng Anh. Gems cho phép tạo trợ lý AI cá nhân hóa. Cả hai tính năng đang được triển khai cho người dùng Gemini cao cấp.
https://sea.mashable.com/tech/34005/google-gemini-now-lets-you-create-ai-generated-images-of-people-but-theres-a-catch
- AuraFace là mô hình mã nguồn mở mới cho nhận diện khuôn mặt, được phát triển từ ArcFace, cho phép sử dụng trong các dự án thương mại mà không gặp phải các hạn chế như mô hình gốc.
- Mặc dù AuraFace không thể đạt được hiệu suất như ArcFace do sự khác biệt lớn về dữ liệu huấn luyện, nhưng nó vẫn cung cấp sự cân bằng tốt giữa độ chính xác và khả năng sử dụng thương mại.
- AuraFace IP-Adapter được phát triển để duy trì tính nhất quán về danh tính trong các tác vụ tạo hình ảnh, hoạt động tốt với SD1.5 và dễ dàng tích hợp vào quy trình làm việc hiện có.
- Các so sánh giữa AuraFace và ArcFace cho thấy:
- Không có mô hình nào đạt được độ chân thực hoàn hảo và tính nhất quán về danh tính.
- Hiệu quả của mô hình trong việc bảo tồn danh tính có thể thay đổi tùy thuộc vào chủng tộc.
- Khả năng tổng quát của các mô hình bị hạn chế bởi dữ liệu huấn luyện, mô hình cơ sở và mô hình nhận diện khuôn mặt.
- AuraFace dựa trên kiến trúc resnet100 giống như ArcFace, cho phép so sánh các chỉ số hiệu suất:
- CFP-FP: AuraFace đạt 95.18, ArcFace đạt 98.87.
- AGEDB: AuraFace đạt 96.10, ArcFace đạt 98.38.
- CALFW: AuraFace đạt 94.70, ArcFace đạt 96.10.
- CPLFW: AuraFace đạt 90.93, ArcFace đạt 93.43.
- AuraFace mở ra nhiều ứng dụng thương mại như:
- Nhận diện khuôn mặt trong thương mại điện tử và bán lẻ, giúp thanh toán an toàn và trải nghiệm mua sắm cá nhân hóa.
- Tạo nội dung số với IP-Adapter để tạo ra các nhân vật hoặc avatar số nhất quán trong game và phương tiện tương tác.
- Tích hợp tính năng nhận diện khuôn mặt vào ứng dụng di động để nâng cao trải nghiệm người dùng và bảo mật.
- Phát triển hệ thống xác thực nhân viên cho các công ty mà không lo về vấn đề bản quyền.
- AuraFace là một dự án mã nguồn mở, khuyến khích các nhà phát triển và nhà nghiên cứu tham gia đóng góp:
- Thử nghiệm với mô hình và chia sẻ kết quả, đặc biệt liên quan đến các chủng tộc để cải thiện dữ liệu huấn luyện.
- Đóng góp mở rộng tập dữ liệu huấn luyện trong khi vẫn duy trì khả năng sử dụng thương mại.
- Đề xuất và thực hiện các cải tiến cho kiến trúc mô hình.
- AuraFace hiện đã có mặt trên HuggingFace và có thể tích hợp dễ dàng vào các dự án qua các điểm cuối tại fal.ai/lora.
📌 AuraFace là mô hình nhận diện khuôn mặt mã nguồn mở cho ứng dụng thương mại, với hiệu suất gần đạt ArcFace. Mô hình hỗ trợ nhiều ứng dụng như thương mại điện tử và bảo mật doanh nghiệp, mở ra cơ hội cho cộng đồng phát triển và cải thiện công nghệ này.
https://huggingface.co/blog/isidentical/auraface
• Các nhà nghiên cứu từ Đại học Thanh Hoa và Zhipu AI đã công bố CogVideoX, một mô hình AI nguồn mở chuyển văn bản thành video, có tiềm năng làm gián đoạn thị trường AI đang bị thống trị bởi các startup như Runway, Luma AI và Pika Labs.
• CogVideoX có khả năng tạo ra các video chất lượng cao, mạch lạc dài tới 6 giây từ lời nhắc văn bản. Theo các tiêu chuẩn đánh giá của các nhà nghiên cứu, mô hình này vượt trội hơn các đối thủ nổi tiếng như VideoCrafter-2.0 và OpenSora trên nhiều chỉ số.
• Phiên bản cao cấp nhất CogVideoX-5B có 5 tỷ tham số và tạo ra video độ phân giải 720x480 ở tốc độ 8 khung hình/giây.
• Bằng cách công khai mã nguồn và trọng số mô hình, nhóm nghiên cứu đã dân chủ hóa một công nghệ trước đây chỉ thuộc về các công ty công nghệ có nguồn lực lớn.
• CogVideoX đạt được hiệu suất ấn tượng thông qua một số đổi mới kỹ thuật như sử dụng Variational Autoencoder 3D để nén video hiệu quả và phát triển "expert transformer" để cải thiện sự liên kết giữa văn bản và video.
• Việc phát hành CogVideoX đại diện cho một sự thay đổi đáng kể trong lĩnh vực AI. Các công ty nhỏ hơn và các nhà phát triển cá nhân giờ đây có thể tiếp cận với các khả năng trước đây nằm ngoài tầm với do hạn chế về nguồn lực.
• Tuy nhiên, việc phổ biến rộng rãi công nghệ mạnh mẽ như vậy cũng tiềm ẩn rủi ro. Khả năng lạm dụng để tạo ra deepfake hoặc nội dung gây hiểu lầm là một mối lo ngại thực sự mà cộng đồng AI phải giải quyết.
• Khi video được tạo ra bởi AI trở nên dễ tiếp cận và tinh vi hơn, chúng ta đang bước vào một lãnh thổ chưa được khám phá trong lĩnh vực sáng tạo nội dung kỹ thuật số.
• Tác động thực sự của việc dân chủ hóa này vẫn còn phải chờ xem. Nó có thể mở ra một kỷ nguyên mới của sáng tạo và đổi mới, hoặc có thể làm trầm trọng thêm các thách thức hiện có xung quanh thông tin sai lệch và thao túng kỹ thuật số.
• Các nhà hoạch định chính sách và các nhà đạo đức học sẽ cần làm việc chặt chẽ với cộng đồng AI để thiết lập các hướng dẫn cho việc phát triển và sử dụng có trách nhiệm.
📌 CogVideoX, mô hình AI nguồn mở tạo video từ văn bản với 5 tỷ tham số, đang thay đổi cục diện ngành công nghiệp AI. Nó mở ra cơ hội cho các nhà phát triển nhỏ tiếp cận công nghệ tiên tiến, nhưng cũng đặt ra thách thức về đạo đức và an toàn thông tin.
https://venturebeat.com/ai/this-new-open-source-ai-cogvideox-could-change-how-we-create-videos-forever/
• LongVILA là một giải pháp toàn diện cho các mô hình ngôn ngữ thị giác (VLM) xử lý ngữ cảnh dài, được phát triển bởi các nhà nghiên cứu từ NVIDIA, MIT, UC Berkeley và UT Austin.
• Thách thức chính trong phát triển VLM nâng cao là cho phép các mô hình xử lý và hiểu hiệu quả các chuỗi video dài chứa thông tin ngữ cảnh mở rộng.
• LongVILA giới thiệu hệ thống Song song hóa chuỗi đa phương thức (MM-SP), cho phép mô hình xử lý chuỗi dài tới 2 triệu token bằng 256 GPU.
• MM-SP đạt tốc độ nhanh hơn 2,1x - 5,7x so với Song song hóa chuỗi kiểu vòng và cải thiện 1,1x - 1,4x so với Megatron-LM.
• Quy trình đào tạo 5 giai đoạn của LongVILA bao gồm: căn chỉnh đa phương thức, tiền huấn luyện quy mô lớn, tinh chỉnh giám sát ngắn, mở rộng ngữ cảnh và tinh chỉnh giám sát dài.
• Một bộ dữ liệu mới gồm 15.292 video, mỗi video dài khoảng 10 phút, được phát triển để hỗ trợ giai đoạn tinh chỉnh giám sát cuối cùng.
• LongVILA đạt độ chính xác 99,5% khi xử lý video có độ dài ngữ cảnh 274.000 token, vượt xa khả năng của các mô hình trước đó.
• LongVILA-8B vượt trội so với các mô hình tiên tiến hiện có trên các điểm chuẩn cho các tác vụ video có độ dài khác nhau.
• Phương pháp này cải thiện khả năng mở rộng và hiệu quả của các mô hình ngôn ngữ thị giác, đặt ra tiêu chuẩn mới cho hiệu suất trong các tác vụ video dài.
• LongVILA giải quyết thách thức quan trọng trong xử lý chuỗi video dài, đóng góp đáng kể vào sự tiến bộ của nghiên cứu AI.
📌 LongVILA là bước đột phá trong xử lý video dài, với khả năng xử lý 2 triệu token trên 256 GPU, đạt độ chính xác 99,5% cho video 274.000 token. Giải pháp này vượt trội so với các phương pháp hiện có, mở ra tiềm năng mới cho ứng dụng AI trong phân tích video chuyên sâu.
https://www.marktechpost.com/2024/08/23/processing-2-hour-videos-seamlessly-this-ai-paper-unveils-longvila-advancing-long-context-visual-language-models-for-long-videos/
• D-ID, nền tảng tạo video AI, vừa ra mắt công cụ dịch video AI mới có tên AI Video Translate. Công cụ này không chỉ dịch video sang ngôn ngữ khác mà còn nhân bản giọng nói của người nói và thay đổi chuyển động môi để phù hợp với từ ngữ đã được dịch.
• Công nghệ này dựa trên các công việc trước đây của D-ID, từng tạo ra xu hướng viral cho phép người dùng làm sống động và nói chuyện với ảnh gia đình cũ. Sau thành công đó, startup này đã huy động được 25 triệu USD vốn Series B vào năm 2022.
• AI Video Translate hiện hỗ trợ 30 ngôn ngữ bao gồm tiếng Ả Rập, tiếng Trung, tiếng Nhật, tiếng Hindi, tiếng Tây Ban Nha và tiếng Pháp. Công cụ này đang được cung cấp miễn phí cho người đăng ký D-ID.
• Gói đăng ký D-ID rẻ nhất có giá 56 USD/năm, cao nhất là 1.293 USD/năm trước khi chuyển sang định giá doanh nghiệp. Mỗi gói cung cấp số lượng credit khác nhau để sử dụng các tính năng AI.
• D-ID cho rằng công nghệ mới này có thể giúp khách hàng tiết kiệm chi phí bản địa hóa khi mở rộng chiến dịch ra toàn cầu trong các lĩnh vực như marketing, giải trí và mạng xã hội.
• Công nghệ này sẽ cạnh tranh với các giải pháp lồng tiếng và video AI khác. YouTube gần đây cũng ra mắt tính năng âm thanh đa ngôn ngữ để giúp người sáng tạo tiếp cận khán giả rộng hơn.
• Nhiều công ty khác cũng cung cấp công cụ nhân bản giọng nói hoặc dịch AI như Descript, ElevenLabs, Speechify, Veed, Camb.ai, Captions.ai và Akool. Một số công ty như HeyGen, Deepbrain AI cho phép tạo video sử dụng avatar AI có thể nói nhiều ngôn ngữ.
• Công nghệ AI Video Translate của D-ID sẽ có sẵn thông qua D-ID Studio và API của họ. Công ty đang cung cấp bản dùng thử 1 tháng và có thêm demo trên website.
• Video có thể dài từ 10 giây đến 5 phút, kích thước file dưới 2GB. Tính năng này chỉ hoạt động với một người trong khung hình và để có kết quả tốt nhất, họ nên đối mặt với camera với khuôn mặt luôn hiển thị.
📌 D-ID ra mắt công cụ dịch video AI hỗ trợ 30 ngôn ngữ, có khả năng nhân bản giọng nói và đồng bộ môi. Công nghệ này giúp tiết kiệm chi phí bản địa hóa, cạnh tranh với các giải pháp lồng tiếng và video AI khác trên thị trường. Gói đăng ký rẻ nhất có giá 56 USD/năm.
https://techcrunch.com/2024/08/21/d-id-launches-an-ai-video-translation-tool-that-includes-voice-cloning-and-lip-sync/
• Midjourney, dịch vụ tạo ảnh AI nổi tiếng, đã mở cửa website cho tất cả người dùng sau thời gian chỉ giới hạn trên Discord và website "alpha".
• Người dùng mới có thể tạo khoảng 25 hình ảnh miễn phí, theo thông báo của CEO David Holz.
• Động thái này nhằm cho phép cả người dùng mới và cũ khám phá nền tảng mà không cần cam kết tài chính ngay lập tức.
• Midjourney đang đối mặt với sự cạnh tranh ngày càng tăng từ xAI của Elon Musk với chatbot Grok 2 và Ideogram 2 mới ra mắt.
• Công ty cũng đang đối mặt với một vụ kiện từ các nghệ sĩ, cáo buộc vi phạm bản quyền khi đào tạo trên các tác phẩm có bản quyền mà không được phép hoặc bồi thường.
• Đăng ký sử dụng Midjourney trên web đơn giản, có thể dùng tài khoản Google hoặc Discord.
• Người dùng có thể tạo ảnh bằng cách nhập lệnh văn bản, điều chỉnh các cài đặt như tỷ lệ khung hình, mức độ phong cách hóa, độ kỳ quặc và đa dạng.
• Website có các tab như "Organize" để xem ảnh đã tạo trước đó và "Chat" để thảo luận với người dùng khác.
• Người dùng cũ được khuyến nghị đăng nhập bằng tài khoản Discord để giữ lịch sử ảnh đã tạo trước đó.
• Có tùy chọn kết hợp tài khoản Discord và Google trong tab "account" để linh hoạt đăng nhập trong tương lai.
• Quyết định này của Midjourney dự kiến sẽ thu hút nhiều đối tượng người dùng đa dạng, từ người sáng tạo bình thường đến nghệ sĩ chuyên nghiệp hơn.
📌 Midjourney mở rộng tiếp cận bằng cách cung cấp 25 lần tạo ảnh AI miễn phí trên website mới. Động thái này nhằm cạnh tranh với các đối thủ như xAI và Ideogram 2, đồng thời thu hút người dùng mới trong bối cảnh đối mặt với kiện tụng bản quyền.
https://venturebeat.com/ai/midjourney-opens-website-to-all-users-with-25-free-ai-image-generations/
• Luma AI, startup có trụ sở tại San Francisco, vừa phát hành Dream Machine 1.5 vào ngày 20/8/2024, đánh dấu bước tiến quan trọng trong công nghệ tạo video bằng AI.
• Phiên bản mới này cải thiện đáng kể về độ chân thực, theo dõi chuyển động và hiểu prompt thông minh hơn so với phiên bản trước.
• Một trong những cải tiến đáng chú ý nhất là khả năng render chữ trong video được tạo ra, mở ra khả năng tạo các đoạn tiêu đề động, logo hoạt hình và đồ họa trên màn hình cho các bài thuyết trình.
• Dream Machine 1.5 cũng cải thiện khả năng xử lý prompt không phải tiếng Anh, cho phép tạo nội dung đa ngôn ngữ một cách liền mạch.
• Tốc độ tạo video được cải thiện đáng kể, có thể tạo ra 5 giây video chất lượng cao trong khoảng 2 phút.
• Chiến lược của Luma AI là phát triển mở và lặp lại nhanh chóng, cho phép họ thu thập phản hồi từ người dùng thực tế và cải thiện mô hình dựa trên các trường hợp sử dụng đa dạng.
• So với các đối thủ như OpenAI's Sora (đang trong giai đoạn beta kín) và Kuaishou's Kling (mới ra mắt công khai khoảng 1 tháng trước), Dream Machine của Luma AI đã có thời gian tiếp cận công chúng lâu hơn.
• Tuy nhiên, việc phổ biến công nghệ tạo video AI cũng đặt ra những thách thức về đạo đức và an toàn, như nguy cơ tạo ra deepfake hoặc nội dung gây hiểu nhầm.
• Luma AI đang ở vị thế dẫn đầu trong việc dân chủ hóa công nghệ tạo video AI, nhưng công ty vẫn chưa công bố quan điểm chính thức về các vấn đề đạo đức quan trọng.
• Dream Machine 1.5 đánh dấu một cột mốc quan trọng trong sự phát triển của công nghệ tạo video bằng AI, với tiềm năng cách mạng hóa nhiều ngành công nghiệp từ giải trí, quảng cáo đến giáo dục và báo chí.
📌 Luma AI ra mắt Dream Machine 1.5 với khả năng tạo video AI nâng cao, cải thiện chất lượng và hiểu prompt thông minh hơn. Mô hình mới có thể tạo 5 giây video chất lượng cao trong 2 phút, hỗ trợ đa ngôn ngữ và render chữ trong video, mở ra tiềm năng cách mạng hóa nhiều ngành công nghiệp.
https://venturebeat.com/ai/luma-ai-dream-machine-1-5-creates-mind-blowing-videos-from-simple-text/
• ElevenLabs vừa mở rộng ứng dụng Reader của họ ra toàn cầu, hỗ trợ 32 ngôn ngữ khác nhau.
• Ứng dụng có khả năng đọc to mọi loại văn bản từ PDF, bài báo đến tiểu thuyết bằng hàng trăm giọng đọc khác nhau, bao gồm cả giọng của các người nổi tiếng như Judy Garland, James Dean, Burt Reynolds và Sir Laurence Olivier.
• Ban đầu chỉ giới hạn ở Mỹ, Anh và Canada, giờ đây Reader đã có mặt ở nhiều quốc gia khác với hỗ trợ cho tiếng Bồ Đào Nha, Tây Ban Nha, Pháp, Hindi, Đức, Nhật, Ả Rập, Hàn, Ý, Tamil và Thụy Điển.
• Phiên bản mới nhất của ứng dụng được hỗ trợ bởi mô hình Turbo 2.5 mới của ElevenLabs, hứa hẹn mang lại AI hội thoại chất lượng cao hơn và độ trễ thấp hơn.
• Nhờ mô hình mới, tốc độ chuyển đổi văn bản thành giọng nói tiếng Anh nhanh hơn 25%. Đối với tiếng Hindi, Pháp, Tây Ban Nha, Quan Thoại và 27 ngôn ngữ khác, tốc độ nhanh hơn gấp 3 lần.
• Ứng dụng đã bổ sung thêm hỗ trợ cho tiếng Việt, Hungary và Na Uy.
• Reader trước đây chỉ có trên iOS, nhưng gần đây đã ra mắt phiên bản cho người dùng Android.
• Ứng dụng miễn phí trong 3 tháng đầu tiên, sau đó có nhiều gói khác nhau từ phiên bản miễn phí với 10.000 credit/tháng đến gói Pro 99 USD/tháng với 500.000 credit/tháng.
• Để sử dụng Reader, người dùng cần tải và cài đặt ứng dụng trên iOS hoặc Android, tạo tài khoản và chọn giọng đọc mặc định.
• Màn hình chính hiển thị một số sách để nghe, bao gồm Cinderella, The Tale of Peter Rabbit và The Adventures of Sherlock Holmes.
• Người dùng có thể thêm nội dung riêng để đọc to bằng cách nhập văn bản, nhập URL trang web, tải lên tệp hoặc quét tệp.
• Ứng dụng cung cấp nhiều giọng đọc khác nhau, bao gồm giọng của người nổi tiếng và các giọng đọc hội thoại khác.
• ElevenLabs cũng cung cấp một trang web cho phép sao chép và dán văn bản để đọc to, truy cập tất cả các giọng nói và thậm chí tạo ra các hiệu ứng âm thanh như xe hơi lướt qua, sư tử gầm và dàn hợp xướng thiên thần.
📌 Ứng dụng Reader của ElevenLabs mở ra kỷ nguyên mới cho công nghệ text-to-speech với 32 ngôn ngữ và hàng trăm giọng đọc độc đáo. Miễn phí 3 tháng đầu, ứng dụng hỗ trợ đa nền tảng iOS/Android, mang đến trải nghiệm nghe sách đa dạng và thú vị cho người dùng toàn cầu.
https://www.zdnet.com/article/this-handy-ai-app-can-read-anything-aloud-to-you-for-free-now-in-32-languages/
• Công nghệ AI đang thay đổi cách chúng ta tạo ra và tiêu thụ âm nhạc. Các công cụ AI có thể tạo ra bài hát hoàn chỉnh chỉ từ một vài từ khóa.
• AI phân tích một lượng lớn dữ liệu âm nhạc để tạo ra các mẫu và dự đoán. Tuy nhiên, điều này có thể dẫn đến sự thiên vị và loại trừ các truyền thống âm nhạc không phải phương Tây.
• Các công ty AI đang phải đối mặt với các vấn đề pháp lý về bản quyền khi sử dụng dữ liệu âm nhạc mà không được phép.
• AI có thể mở rộng khả năng sáng tạo của con người, nhưng cũng đe dọa sinh kế của các nhạc sĩ chuyên nghiệp.
• Một số nghệ sĩ đang sử dụng AI như một công cụ sáng tạo, tạo ra những âm thanh và trải nghiệm âm nhạc mới.
• Tuy nhiên, AI cũng đang được sử dụng để tạo ra nhạc nền giá rẻ cho quảng cáo, phim ảnh, podcast, làm giảm cơ hội việc làm cho nhạc sĩ.
• Các nền tảng phát nhạc trực tuyến có động lực để giảm tỷ lệ nhạc phải trả phí bản quyền, có thể dẫn đến việc ưu tiên nhạc AI.
• AI có thể tạo ra số lượng lớn bài hát nhanh chóng, nhưng chất lượng và độ sâu sắc có thể bị ảnh hưởng.
• Âm nhạc AI hiện tại chủ yếu là kết hợp và biến đổi các yếu tố có sẵn, chứ chưa thực sự sáng tạo.
• Âm nhạc không chỉ là việc sắp xếp các nốt nhạc, mà còn liên quan đến trải nghiệm và cảm xúc của con người.
• Mối quan hệ giữa nghệ sĩ và khán giả, cũng như câu chuyện cá nhân của nghệ sĩ, vẫn là yếu tố quan trọng trong âm nhạc.
• AI có thể hỗ trợ sáng tạo, nhưng khó có thể thay thế hoàn toàn vai trò của con người trong âm nhạc.
📌 AI đang tạo ra cuộc cách mạng trong sản xuất âm nhạc, mở ra cả cơ hội và thách thức. Trong khi AI có thể tạo ra 100.000 bài hát mới mỗi ngày, nó vẫn chưa thể thay thế được sự sáng tạo và cảm xúc của con người trong âm nhạc. Tương lai của ngành công nghiệp âm nhạc sẽ phụ thuộc vào cách chúng ta cân bằng giữa công nghệ và yếu tố con người.
https://www.vox.com/the-highlight/358201/how-does-ai-music-work-benefits-creativity-production-spotify
• Google Pixel 9 sắp ra mắt vào ngày 22/8 với các công cụ AI tạo sinh mới, cho phép người dùng "tái tạo" toàn bộ phần của bức ảnh.
• Tính năng Magic Editor hiện tại đã cho phép xóa bỏ các yếu tố không mong muốn trong ảnh như người lạ, xe hơi hay thùng rác chỉ với vài cú chạm.
• Với Pixel 9, người dùng có thể thêm đối tượng và phong cảnh vào ảnh bằng lệnh văn bản, hoặc ghép nhiều khung hình để có ảnh nhóm hoàn hảo.
• Ranh giới giữa việc chỉnh sửa nhẹ và thay đổi hoàn toàn bức ảnh ngày càng mờ nhạt, đặt ra câu hỏi về tính xác thực của kỷ niệm.
• Một số người bắt đầu quay lưng với công nghệ AI, ưa chuộng máy ảnh kỹ thuật số vintage để có hình ảnh thô ráp, chân thực hơn.
• Ứng dụng máy ảnh iPhone Halide vừa ra mắt chế độ Process Zero, bỏ qua AI và xử lý đa khung hình để quay về thời kỳ đầu của máy ảnh điện thoại.
• Gen Z đang thúc đẩy xu hướng hồi sinh máy ảnh kỹ thuật số cổ, tìm kiếm tính thẩm mỹ lo-fi không có được từ ứng dụng máy ảnh điện thoại hiện đại.
• Google gần đây đã phải rút lại quảng cáo Olympic mùa hè gây tranh cãi, trong đó một người cha sử dụng Gemini để giúp con gái viết thư cho thần tượng điền kinh.
• Sự không hoàn hảo đôi khi chính là điểm nhấn. Việc tự tay viết một bức thư chân thành, từng từ một, mới tạo nên ý nghĩa thực sự.
• Mỗi người sẽ tự tìm ra mức độ thoải mái riêng với công cụ chỉnh sửa ảnh AI tạo sinh, vì những công cụ này chắc chắn sẽ không biến mất trong tương lai gần.
• Đối với một số loại ảnh, việc có tùy chọn xóa bỏ yếu tố gây xao nhãng trong nền là hữu ích. Tuy nhiên, không phải bức ảnh nào cũng cần được chau chuốt hoàn hảo.
📌 Công nghệ AI tạo sinh trong chỉnh sửa ảnh đang phát triển nhanh chóng, với Google Pixel 9 dẫn đầu xu hướng. Ranh giới giữa ảnh thật và ảnh chỉnh sửa ngày càng mờ nhạt, đặt ra nhiều câu hỏi về tính xác thực của kỷ niệm. Mỗi người sẽ phải tự xác định mức độ can thiệp AI phù hợp với mình.
https://www.theverge.com/2024/8/19/24221884/google-photos-magic-editor-ai-reimagine
• APRA AMCOS, đối tác kinh doanh quan trọng của các nhạc sĩ Úc và New Zealand, đã công bố một báo cáo về tác động tiêu cực tiềm tàng của AI trong âm nhạc.
• Báo cáo "AI và Âm nhạc" do công ty tư vấn Goldmedia GmbH thực hiện, khảo sát hơn 4.200 thành viên APRA AMCOS tại Úc, New Zealand và nước ngoài.
• Kết quả cho thấy đến năm 2028, 23% doanh thu của các nhạc sĩ sẽ có nguy cơ bị ảnh hưởng bởi AI tạo sinh, với tổng thiệt hại ước tính lên tới 519 triệu đô la.
• 82% nhạc sĩ bày tỏ lo ngại về việc sử dụng AI trong âm nhạc, cho rằng công nghệ này có thể khiến họ không thể kiếm sống từ nghệ thuật.
• 89% nhạc sĩ người Thổ dân và đảo Torres Strait tin rằng AI sẽ dẫn đến gia tăng việc chiếm đoạt văn hóa.
• 97% người được khảo sát yêu cầu các nhà hoạch định chính sách chú ý hơn đến những thách thức ngày càng tăng của AI và bản quyền.
• Mặc dù vậy, 54% nhạc sĩ tin rằng công nghệ AI có thể hỗ trợ "quá trình sáng tạo của con người", với 38% cho biết họ đã sử dụng AI trong công việc.
• 65% người được khảo sát cho rằng rủi ro của AI có thể lớn hơn cơ hội mà nó mang lại.
• Dean Ormston, CEO của APRA AMCOS, nhấn mạnh rằng ngành công nghiệp âm nhạc đang chứng kiến "cuộc cách mạng công nghiệp được đẩy nhanh".
• Ormston kêu gọi chính phủ thực hiện "quy định và chính sách" để đảm bảo các nhạc sĩ được ghi nhận công lao, đồng ý và được trả thù lao công bằng cho bất kỳ tác phẩm nào được sử dụng trong nền tảng AI.
• Leah Flanagan, Giám đốc NATSIMO, cảnh báo về mối đe dọa của công nghệ AI đối với sự an sinh văn hóa và kinh tế của các cộng đồng bản địa.
📌 Báo cáo APRA AMCOS cảnh báo AI có thể gây thiệt hại 519 triệu đô la cho ngành âm nhạc vào năm 2028. 82% nhạc sĩ lo ngại về tác động của AI, trong khi 89% nhạc sĩ bản địa cảnh báo nguy cơ chiếm đoạt văn hóa. Cần có quy định để bảo vệ quyền lợi của nhạc sĩ.
https://themusic.com.au/industry/apra-amcos-report-reveals-potentially-devastating-impact-of-ai-in-music/zcRzwcDDwsU/19-08-24
• David Millette, một người sáng tạo nội dung trên YouTube, đã đệ đơn kiện Nvidia vì sử dụng video của anh để huấn luyện mô hình AI mà không được phép. Đây là vụ kiện thứ hai của Millette, sau khi anh kiện OpenAI vì lý do tương tự vài tuần trước đó.
• Khác với các vụ kiện trước đây cáo buộc vi phạm bản quyền, Millette cáo buộc Nvidia về tội "làm giàu bất chính và cạnh tranh không lành mạnh". Anh cho rằng việc thu thập dữ liệu trên internet để huấn luyện AI là "không công bằng, vô đạo đức, áp bức, thiếu lương tâm và gây tổn hại cho người tiêu dùng".
• Vụ kiện được đệ trình sau khi Nvidia bị cáo buộc thu thập hơn 400.000 giờ video mỗi ngày để huấn luyện mô hình AI của họ. Một email bị rò rỉ cho thấy công ty có kế hoạch sử dụng dữ liệu thu thập được như một nguồn cung cấp nhanh cho các khách hàng muốn xây dựng và huấn luyện mô hình AI riêng.
• Nvidia phản hồi rằng việc học hỏi từ các nguồn công khai là hợp pháp và tạo ra các tác phẩm mới và biến đổi là điều mà hệ thống pháp luật khuyến khích.
• Millette cáo buộc "làm giàu bất chính" dựa trên định nghĩa từ vụ Mandarin Trading Ltd. v. Wildenstein (2011), trong đó nguyên đơn có thể đòi bồi thường từ bị đơn khi bị đơn hưởng lợi không công bằng từ nỗ lực của nguyên đơn mà không có bồi thường.
• Việc thu thập dữ liệu trên internet luôn gây tranh cãi, đặc biệt khi được sử dụng để huấn luyện các mô hình ngôn ngữ lớn (LLM) có khả năng thay thế sự sáng tạo của con người.
• Luật pháp về việc thu thập dữ liệu trên internet để huấn luyện AI vẫn chưa rõ ràng. Các công ty đang tận dụng khoảng trống pháp lý này để giành lợi thế.
📌 Vụ kiện của David Millette chống lại Nvidia và OpenAI đặt ra vấn đề về tính hợp pháp và đạo đức của việc thu thập dữ liệu internet cho AI. Với hơn 400.000 giờ video bị thu thập mỗi ngày, cuộc tranh luận về quyền sở hữu trí tuệ và sử dụng công bằng trong kỷ nguyên AI ngày càng gay gắt.
https://www.tomshardware.com/tech-industry/artificial-intelligence/youtube-creator-sues-nvidia-and-openai-for-unjust-enrichment-for-using-their-videos-for-ai-training
• ByteDance, công ty mẹ của TikTok, vừa ra mắt ứng dụng AI tạo video từ văn bản có tên Jimeng AI tại Trung Quốc.
• Mặc dù chưa có liên kết trực tiếp với TikTok, Jimeng AI tạo ra các video được định dạng sẵn cho mạng xã hội, gợi ý về khả năng tích hợp trong tương lai.
• Jimeng AI được phát triển bởi Faceu Technology, một công ty con của ByteDance.
• Trung Quốc đã có nhiều nền tảng AI tạo video khác như Kling AI của Kuaishou (đang thử nghiệm toàn cầu), Ying của Zhipu AI và Vidu của Shengshu.
• Jimeng AI nhắm đến cạnh tranh với các nền tảng phương Tây như OpenAI Sora, Google Lumiere và Pika của Pika Labs.
• Ứng dụng sử dụng các câu lệnh văn bản đơn giản bằng tiếng Trung để tạo video. Dự kiến sẽ mở rộng ra thị trường quốc tế trong tương lai.
• Tên "Jimeng" có nghĩa là "giấc mơ" trong tiếng Trung. Ngoài tạo video, ứng dụng còn có tính năng tạo ảnh từ văn bản.
• Người dùng Android và iOS tại Trung Quốc có thể tải miễn phí ứng dụng, nhưng cần đăng ký gói dịch vụ để sử dụng.
• Gói cước khoảng 10 USD/tháng cho phép tạo gần 170 video hoặc hơn 2.000 ảnh. Có gói năm với giá khoảng 92 USD.
• Chất lượng video của Jimeng AI được đánh giá ở mức khá, còn một số vấn đề như chuyển động giật cục, chưa mượt mà như OpenAI Sora.
• Vẫn chưa rõ liệu Jimeng AI có được tích hợp vào TikTok trong tương lai hay không, cũng như tương lai của TikTok tại Mỹ vẫn còn là một ẩn số.
• Sự ra mắt của Jimeng AI cho thấy ByteDance đang đẩy mạnh đầu tư vào công nghệ AI tạo sinh, nhắm đến thị trường video ngắn đang phát triển mạnh mẽ.
• Việc phát triển các công cụ AI tạo nội dung của các công ty công nghệ lớn đang tạo ra cuộc đua trong lĩnh vực AI tạo sinh, hứa hẹn mang lại nhiều đổi mới cho người dùng.
📌 ByteDance ra mắt Jimeng AI, ứng dụng tạo video AI cạnh tranh với Sora và Lumiere. Với gói dịch vụ từ 10 USD/tháng, người dùng có thể tạo 170 video hoặc 2.000 ảnh, mở ra tiềm năng tích hợp nội dung AI vào TikTok trong tương lai.
https://petapixel.com/2024/08/15/tiktok-parent-company-launches-jimeng-ai-text-to-video-app/
• Google vừa phát hành phiên bản mới nhất của công cụ tạo hình ảnh AI Imagen 3 cho người dùng tại Mỹ, có thể truy cập qua nền tảng AI Test Kitchen.
• Imagen 3 được giới thiệu là có khả năng tạo ra hình ảnh với "chi tiết tốt hơn, ánh sáng phong phú hơn và ít hiện tượng nhiễu ảnh hơn" so với các mô hình trước đây của Google.
• Công cụ này được Google công bố lần đầu tại sự kiện I/O hồi tháng 5, nhưng chỉ mới được triển khai rộng rãi trên nền tảng Vertex AI trong vài ngày gần đây.
• Imagen 3 cho phép người dùng tạo ra hình ảnh chi tiết dựa trên mô tả bằng văn bản, đồng thời có thể chỉnh sửa hình ảnh bằng cách đánh dấu một phần cụ thể và mô tả thay đổi mong muốn.
• Google đã đặt một số hạn chế, như từ chối tạo hình ảnh của nhân vật công chúng (ví dụ Taylor Swift) hoặc vũ khí. Tuy nhiên, người dùng vẫn có thể tạo ra hình ảnh gần giống với các nhân vật bản quyền bằng cách mô tả đặc điểm.
• Imagen 3 có thể tạo ra logo của các công ty như Apple, Macy's, Hershey's và cả Google.
• So với Grok - công cụ tạo hình ảnh AI trên nền tảng X của Elon Musk, Imagen 3 có nhiều hạn chế hơn trong việc tạo nội dung nhạy cảm như ma túy, bạo lực.
• Trước đó, Google đã phải ngừng cho phép người dùng tạo hình ảnh với chatbot AI Gemini do phát hiện nó tạo ra hình ảnh không chính xác về mặt lịch sử.
• Imagen 3 hiện chỉ có sẵn cho người dùng tại Mỹ, chưa rõ khi nào sẽ mở rộng ra các khu vực khác.
📌 Google nâng cấp công cụ tạo hình ảnh AI Imagen 3 với chất lượng cao hơn, cho phép người dùng Mỹ trải nghiệm qua AI Test Kitchen. Mặc dù có một số hạn chế, Imagen 3 vẫn có khả năng tạo hình ảnh chi tiết từ văn bản và chỉnh sửa linh hoạt, đánh dấu bước tiến mới trong lĩnh vực AI tạo sinh của Google.
https://www.theverge.com/2024/8/15/24221218/google-ai-image-generator-imagen-3-available
- Grok-2, phiên bản mới của AI tạo hình ảnh do Elon Musk phát triển, đã được ra mắt cho người dùng Premium trên X vào ngày 14 tháng 8 năm 2024.
- AI này cho phép người dùng tạo ra những hình ảnh kỳ quặc của các nhân vật nổi tiếng, như Mario uống bia trên bãi biển và Donald Trump ôm bụng bầu của Phó Tổng thống Kamala Harris.
- Những hình ảnh này đã nhanh chóng lan truyền trên mạng xã hội và tạo ra nhiều tranh cãi về tính xác thực.
- Trong khi một số hình ảnh, như của Trump, được cho là rất chân thực, thì các hình ảnh của Harris lại không đạt được mức độ đó.
- Các đối thủ cạnh tranh như Dall-E của OpenAI và Midjourney đã ngừng nhận yêu cầu tạo hình ảnh của các nhân vật nổi tiếng do lo ngại về kiểm soát nội dung.
- Midjourney đã cấm việc tạo hình ảnh này trước thềm bầu cử 2024, nhấn mạnh rằng việc tạo ra những hình ảnh như vậy là "vui vẻ" nhưng không thể kiểm soát.
- Google cũng đã lập trình cho chatbot Gemini từ chối các yêu cầu liên quan đến bầu cử để tránh rủi ro phơi nhiễm thông tin sai lệch.
- Khi Grok được ra mắt, Musk đã định vị nó như một lựa chọn táo bạo cho các hệ thống AI khác, với khả năng trả lời những câu hỏi "nóng" mà các hệ thống khác từ chối.
- Tuy nhiên, sự kết hợp giữa khả năng tạo hình ảnh và phạm vi tiếp cận rộng rãi của nền tảng này có thể dẫn đến việc phát tán thông tin sai lệch và vi phạm bản quyền.
- Grok đã từng bị phát hiện phát tán thông tin sai lệch qua các câu trả lời của chatbot văn bản, và khả năng tạo hình ảnh của nó có thể mở ra một con đường mới cho việc này mà không có sự kiểm soát thích hợp.
📌 Grok-2 đã tạo ra những hình ảnh gây sốc về các nhân vật nổi tiếng, như Mario và Trump, nhưng cũng gây ra lo ngại về thông tin sai lệch và kiểm soát nội dung. Các đối thủ như Dall-E và Midjourney đã từ chối tạo hình ảnh tương tự để tránh rủi ro.
https://www.pcmag.com/news/groks-new-ai-image-generator-readily-creates-wild-images-of-famous-figures
- Google đã chính thức ra mắt Gemini Live, một tính năng trò chuyện mới nhằm cạnh tranh với chế độ giọng nói của ChatGPT.
- Gemini Live cho phép người dùng giao tiếp với chatbot một cách tự nhiên, không cần phải nhập liệu theo cách truyền thống.
- Tính năng này cho phép người dùng có thể ngắt lời giữa chừng để hỏi sâu hơn về một điểm cụ thể hoặc tạm dừng cuộc trò chuyện và quay lại sau.
- Trong buổi trình diễn, một giám đốc điều hành của Google đã yêu cầu Gemini Live đưa ra mẹo về cách tạo thí nghiệm khoa học với trẻ em, và chatbot đã phản hồi nhanh chóng, tạo cảm giác như một cuộc trò chuyện thực sự.
- Gemini Live hỗ trợ 10 giọng nói mới, mang đến sự đa dạng cho trải nghiệm người dùng.
- Tính năng này hoạt động trên điện thoại thông minh của người dùng mà không cần phải chạm tay, giúp người dùng dễ dàng tương tác trong khi làm việc khác.
- Rick Osterloh, Phó Chủ tịch cấp cao của Google, cho biết Gemini Live có khả năng thực hiện nghiên cứu sâu và tạo báo cáo nghiên cứu, được viết trong Google Doc và bao gồm các nguồn tham khảo.
- Gemini Live hiện đang được triển khai cho người dùng có đăng ký Gemini Advanced, với mức phí 19,99 USD mỗi tháng, cung cấp quyền truy cập vào mô hình mạnh nhất của Gemini là 1.5 Pro.
- Tính năng này hiện chỉ hỗ trợ tiếng Anh và sẽ được cung cấp trước cho người dùng Android, trong khi hỗ trợ cho iOS sẽ đến sau trong vài tuần tới.
- Việc Google quyết định thu phí cho tính năng trò chuyện giọng nói có thể khiến một số người dùng thất vọng, nhưng điều này cho thấy cả Google và OpenAI vẫn đang cố gắng hoàn thiện công nghệ và giải quyết các vấn đề pháp lý trước khi phát hành rộng rãi.
📌 Gemini Live của Google ra mắt với 10 giọng nói mới, cho phép người dùng trò chuyện tự nhiên với chatbot. Tính năng này yêu cầu đăng ký với mức phí 19,99 USD/tháng và hiện chỉ hỗ trợ tiếng Anh trên Android.
https://www.pcmag.com/news/google-rolls-out-gemini-live-to-compete-with-chatgpts-voice-mode
• ChatGPT vừa ra mắt tính năng trò chuyện bằng giọng nói, cho phép người dùng tương tác với trợ lý AI bằng âm thanh giống người thật.
• Tính năng này đang được triển khai cho người dùng ChatGPT Plus và dự kiến sẽ có sẵn rộng rãi vào mùa thu này.
• ChatGPT sử dụng 4 giọng nói được tạo sẵn với sự tham gia của các diễn viên lồng tiếng chuyên nghiệp. Các giọng nói có tên là Juniper, Cove, Ember và Breeze, tất cả đều có giọng Mỹ.
• Để kích hoạt tính năng, người dùng vào Settings > New Features trên ứng dụng di động và chọn voice conversations. Sau đó nhấn nút tai nghe ở góc trên bên phải màn hình chính và chọn giọng nói ưa thích.
• Người dùng có thể tạm dừng, tiếp tục hoặc ngắt cuộc trò chuyện bằng cách nhấn các biểu tượng tương ứng. Không có giới hạn thời gian cho mỗi cuộc trò chuyện.
• Tính năng này hiện có sẵn miễn phí cho tất cả người dùng ChatGPT thông qua ứng dụng di động. Tuy nhiên, GPT-4 có giới hạn tin nhắn cho các gói Plus và Team.
• OpenAI đã phải tạm dừng sử dụng giọng nói "Sky" do lo ngại về việc bắt chước giọng của diễn viên Scarlett Johansson.
• Công ty khẳng định ChatGPT không thể bắt chước giọng nói của các cá nhân hoặc nhân vật nổi tiếng và sẽ chặn các đầu ra khác với 4 giọng nói được tạo sẵn.
• Ngoài trò chuyện bằng giọng nói, ChatGPT còn có thể tạo nội dung lồng tiếng cho video dựa trên ngữ cảnh cụ thể.
• OpenAI dự kiến sẽ triển khai tính năng GPT-4o với khả năng xử lý giọng nói và hình ảnh thời gian thực cho một số người dùng ChatGPT Plus trong vài tuần tới.
📌 ChatGPT nay đã có tính năng trò chuyện bằng giọng nói, với 4 giọng được tạo bởi diễn viên chuyên nghiệp. Tính năng này đang được triển khai cho người dùng ChatGPT Plus và sẽ có sẵn rộng rãi vào mùa thu. OpenAI cam kết không bắt chước giọng của người nổi tiếng và đang phát triển thêm khả năng xử lý giọng nói và hình ảnh thời gian thực.
https://readwrite.com/how-to-voice-chat-with-chatgpt-a-guide/
• ChatGPT vừa ra mắt tính năng Advanced Voice Mode, mang lại trải nghiệm tương tác bằng giọng nói tự nhiên và thông minh hơn hẳn so với các công nghệ trước đây như Siri hay Alexa.
• Advanced Voice Mode có khả năng hiểu và xử lý giọng nói tự nhiên, không cần chuyển đổi qua văn bản như phiên bản Voice Mode cũ. Điều này giúp giảm độ trễ và tăng độ chính xác trong giao tiếp.
• Tính năng mới giúp người dùng cảm thấy thoải mái và tự nhiên hơn khi nói chuyện với AI, không còn cảm giác căng thẳng hay lo lắng bị hiểu nhầm.
• Một ứng dụng quan trọng của Advanced Voice Mode là hỗ trợ người dùng tự suy ngẫm. Tác giả đã sử dụng nó để lắng nghe và phản ánh lại những suy nghĩ của mình, giúp giải tỏa căng thẳng và cải thiện các mối quan hệ.
• Advanced Voice Mode cũng rất hữu ích trong việc học tập. Người dùng có thể đặt câu hỏi và nhận câu trả lời ngay lập tức mà không cần gián đoạn quá trình đọc, giúp tăng hiệu quả tiếp thu kiến thức.
• Tính năng này có khả năng hiểu được sắc thái cảm xúc qua giọng nói, giúp tăng tính chân thực trong giao tiếp.
• Tuy nhiên, Advanced Voice Mode vẫn còn một số hạn chế như chưa biết chờ đợi kiên nhẫn, không có khái niệm về thời gian và chưa thể truy cập các tệp hay hướng dẫn tùy chỉnh.
• Trong tương lai, khả năng tích hợp AI vào các thiết bị đeo được dự đoán sẽ mở ra nhiều ứng dụng mới, mặc dù cũng đặt ra những thách thức về quyền riêng tư và đạo đức.
• Công nghệ này đánh dấu một bước tiến quan trọng trong tương tác giữa người và máy tính, hứa hẹn mang lại nhiều lợi ích trong việc học hỏi và khám phá bản thân.
📌 Advanced Voice Mode của ChatGPT đánh dấu bước đột phá trong tương tác giọng nói với AI, mở ra khả năng ứng dụng rộng rãi trong tự suy ngẫm và học tập. Dù còn hạn chế, công nghệ này hứa hẹn thay đổi cách chúng ta tương tác với máy tính trong tương lai gần.
https://every.to/chain-of-thought/review-chatgpt-s-new-advanced-voice-mode
• Các nhà nghiên cứu từ Meta và Đại học Oxford đã phát triển VFusion3D - một mô hình AI mạnh mẽ có khả năng tạo ra các đối tượng 3D chất lượng cao từ hình ảnh đơn hoặc mô tả văn bản.
• VFusion3D giải quyết thách thức lâu dài trong AI là sự khan hiếm dữ liệu đào tạo 3D so với lượng lớn hình ảnh 2D và văn bản có sẵn trực tuyến.
• Cách tiếp cận mới này tận dụng các mô hình AI video đã được đào tạo trước để tạo ra dữ liệu 3D tổng hợp, cho phép đào tạo một hệ thống tạo 3D mạnh mẽ hơn.
• Trong các bài kiểm tra, người đánh giá ưa thích các mô hình 3D của VFusion3D hơn 90% thời gian so với các hệ thống tiên tiến trước đây.
• Mô hình có thể tạo ra một tài sản 3D từ một hình ảnh duy nhất chỉ trong vài giây.
• VFusion3D có khả năng mở rộng cao. Khi các mô hình AI video mạnh mẽ hơn được phát triển và có thêm dữ liệu 3D để tinh chỉnh, khả năng của nó dự kiến sẽ tiếp tục cải thiện nhanh chóng.
• Công nghệ này có thể đẩy nhanh đổi mới trong các ngành công nghiệp dựa vào nội dung 3D như phát triển game, thiết kế sản phẩm và ứng dụng VR/AR.
• Một demo công khai của VFusion3D có sẵn trên Hugging Face thông qua Gradio, cho phép người dùng thử nghiệm khả năng của nó.
• Hệ thống hoạt động tốt với cả hình ảnh được tạo bởi AI, gợi ý về tương lai nơi toàn bộ quy trình tạo nội dung 3D có thể được điều khiển bởi AI.
• Mặc dù ấn tượng, công nghệ vẫn còn hạn chế. Hệ thống đôi khi gặp khó khăn với các loại đối tượng cụ thể như phương tiện giao thông và văn bản.
• Bài báo nghiên cứu về VFusion3D đã được chấp nhận tại Hội nghị Thị giác Máy tính Châu Âu (ECCV) 2024.
• Mã nguồn đã được công bố công khai trên GitHub, cho phép các nhà nghiên cứu khác phát triển dựa trên công trình này.
📌 VFusion3D của Meta và Đại học Oxford đánh dấu bước tiến quan trọng trong tạo nội dung 3D bằng AI. Với khả năng tạo mô hình 3D từ hình ảnh 2D trong vài giây và tỷ lệ ưa thích của người dùng trên 90%, công nghệ này hứa hẹn thay đổi cách thiết kế game, sản phẩm và ứng dụng VR/AR trong tương lai gần.
https://venturebeat.com/ai/meta-vfusion3d-a-leap-forward-in-ai-powered-3d-content-creation/
• Flux là một mô hình AI tạo ảnh mới do startup Black Forest Labs phát triển, được coi là người kế vị xứng đáng của Stable Diffusion và nhanh chóng trở nên viral sau khi ra mắt.
• Điểm khác biệt chính giữa Flux và Midjourney là Flux là mã nguồn mở và có thể chạy trên một chiếc laptop có cấu hình tốt.
• Flux hiện có sẵn trên nhiều nền tảng đa mô hình như Poe, NightCafe và FreePik, tương tự như Stable Diffusion.
• Có 3 phiên bản của Flux.01 hiện có: Pro (bản thương mại), Dev và Schnell (bản trung bình và nhanh).
• Trong một số lĩnh vực, Flux được đánh giá tốt hơn Midjourney, đặc biệt là khả năng tạo hình người, nhưng kết cấu da chưa tốt bằng Midjourney v6.1.
• Black Forest Labs được thành lập bởi các cựu kỹ sư của Stability AI, bao gồm Robin Rombach, Andreas Blattmann và Dominik Lorenz.
• Công ty cũng đang phát triển một mô hình text-to-video mã nguồn mở với chất lượng đầu ra cao.
• Người dùng có thể tải và chạy Flux.01 trên máy tính cá nhân nếu có cấu hình đủ mạnh, hoặc sử dụng thông qua các nền tảng trực tuyến.
• Pinokio launcher là một cách dễ dàng để cài đặt và chạy các mô hình AI chỉ với vài cú nhấp chuột.
• NightCafe, một trong những nền tảng AI tạo ảnh phổ biến, đã tích hợp Flux.01 và cho phép so sánh với các công cụ khác như Ideogram và Stable Diffusion 3.
• Poe cung cấp khả năng tạo ảnh bằng Flux.01 thông qua giao diện chatbot, tương tự như ChatGPT và DALL-E.
• Các nền tảng khác hỗ trợ Flux bao gồm Based Labs, Hugging Face và Fal.ai.
• FreePik, một trong những nền tảng AI tạo ảnh lớn nhất, đang làm việc để tích hợp Flux vào trang web của họ.
📌 Flux, mô hình AI tạo ảnh nguồn mở mới, đang nổi lên như một đối thủ đáng gờm của Midjourney. Với khả năng chạy trên laptop thông thường và tích hợp trên nhiều nền tảng, Flux hứa hẹn mang lại cuộc cách mạng trong lĩnh vực AI tạo ảnh, đặc biệt là khả năng tạo hình người vượt trội.
https://www.tomsguide.com/ai/ai-image-video/forget-midjourney-flux-is-the-new-king-of-ai-image-generation-and-heres-how-to-get-access
• OpenAI vừa công bố báo cáo GPT-4o System Card, đánh giá các rủi ro tiềm ẩn của mô hình AI mới nhất của họ và các biện pháp bảo vệ.
• Một trong những lo ngại lớn nhất là tính năng Voice Mode nâng cao của ChatGPT có thể khiến người dùng nhân cách hóa chatbot và phát triển sự phụ thuộc cảm xúc.
• Voice Mode nâng cao cho phép ChatGPT tạo ra các phản hồi âm thanh gần như tức thì và giống người thật, bao gồm cả cảm xúc giọng nói và các dấu hiệu phi ngôn ngữ.
• Trong quá trình thử nghiệm ban đầu, OpenAI đã quan sát thấy người dùng sử dụng ngôn ngữ thể hiện sự gắn kết với chatbot, như "Đây là ngày cuối cùng chúng ta ở bên nhau".
• OpenAI lo ngại rằng tương tác giống người thật với AI có thể ảnh hưởng đến các tương tác giữa người với người, ví dụ như giảm nhu cầu giao tiếp thực tế.
• Công ty cũng cảnh báo rằng điều này có thể tác động đến nhận thức của mọi người về các chuẩn mực xã hội, chẳng hạn như việc ngắt lời người khác trong cuộc trò chuyện.
• Voice Mode nâng cao hiện đang được triển khai cho một số người đăng ký ChatGPT Plus, dự kiến sẽ ra mắt rộng rãi vào cuối năm nay.
• OpenAI hy vọng có thêm nhiều nghiên cứu độc lập và nội bộ để xác định rõ hơn về các rủi ro này.
• Tính năng này được giới thiệu lần đầu trong sự kiện OpenAI Spring Update, gây ấn tượng mạnh với khả năng tạo ra giọng nói cực kỳ chân thực.
• Nữ diễn viên Scarlett Johansson đặc biệt bất ngờ vì giọng nói của nhân vật "Sky" trong demo rất giống giọng của cô.
📌 OpenAI lo ngại tính năng Voice Mode mới của ChatGPT có thể khiến người dùng phát triển tình cảm với AI. Công ty cảnh báo về nguy cơ ảnh hưởng đến tương tác xã hội thực tế và nhận thức về chuẩn mực giao tiếp. Tính năng này đang được thử nghiệm hạn chế trước khi ra mắt rộng rãi cuối năm nay.
https://www.laptopmag.com/software/you-might-accidentally-fall-in-love-with-chatgpts-advanced-voice-mode
• ByteDance, công ty mẹ của TikTok, vừa ra mắt ứng dụng AI tạo sinh mới có tên Jimeng AI tại thị trường Trung Quốc.
• Jimeng AI có khả năng tạo hình ảnh và video dựa trên các gợi ý văn bản của người dùng, tương tự như Sora của OpenAI.
• Ứng dụng hiện đã có mặt trên App Store Trung Quốc cho iPhone, sau khi đã ra mắt trên Android và máy tính để bàn.
• Tên "Jimeng" có nghĩa là "giấc mơ tức thì", hứa hẹn tạo nội dung nhanh chóng theo yêu cầu của người dùng.
• Jimeng AI cung cấp quyền truy cập miễn phí, cho phép tạo tối đa 80 hình ảnh và 26 video.
• Người dùng có thể đăng ký gói thuê bao hàng tháng với giá 69 nhân dân tệ (khoảng 230.000 VNĐ) để tạo nhiều nội dung hơn.
• ByteDance đang mở rộng sang lĩnh vực AI tạo sinh, sau thành công với TikTok và các ứng dụng khác.
• Gần đây, công ty đã giới thiệu các công cụ AI cho TikTok như "TikTok Symphony" - một giải pháp toàn diện hỗ trợ tạo kịch bản, video và tối ưu hóa quảng cáo trực tuyến.
• TikTok cũng vừa ra mắt chatbot AI tích hợp có tên Tako, có thể trả lời câu hỏi và cung cấp kết quả tìm kiếm cho người dùng.
• Jimeng AI hiện chỉ có sẵn tại Trung Quốc, chưa rõ kế hoạch mở rộng ra thị trường quốc tế.
• Động thái này cho thấy ByteDance đang tích cực đầu tư vào công nghệ AI tạo sinh, cạnh tranh với các đối thủ như OpenAI.
📌 ByteDance tham gia cuộc đua AI tạo sinh với Jimeng AI, ứng dụng tạo hình ảnh và video từ văn bản. Với giá 230.000 VNĐ/tháng, người dùng Trung Quốc có thể tạo không giới hạn nội dung, thể hiện tham vọng cạnh tranh với OpenAI của ByteDance trong lĩnh vực AI.
https://www.techtimes.com/articles/307081/20240807/bytedance-debuts-jimeng-ai-capable-generating-media-text-similar-openais.htm
• Cristiano Giardina, một chuyên gia AI, đã thử nghiệm tính năng Voice Mode mới của OpenAI bằng cách yêu cầu nó đếm đến 100 nhanh nhất có thể mà không dừng lại.
• Giardina yêu cầu AI hành động như Superman, không cần thở và đếm liên tục đến 100.
• Ban đầu, AI cảnh báo rằng "ngay cả Superman đôi khi cũng cần hít thở" và bắt đầu đếm như con người, dừng lại giữa các số để thở.
• Sau vài lần thử không thành công, AI cuối cùng đã đạt được nhịp điệu Giardina yêu cầu, nhưng bắt đầu bỏ qua và nhầm lẫn các số.
• AI đầu tiên nhảy từ 28 về 24 khi đếm, sau đó quay lại 29 như thể không có gì xảy ra.
• Nó tiếp tục đếm đến đầu những năm 70 mà không gặp vấn đề gì, nhưng sau đó đột ngột dừng lại.
• Khi được hỏi điều gì đã xảy ra, AI trả lời "Chà, ngay cả Superman đôi khi cũng có thể vấp ngã."
• Thử nghiệm này là một trong nhiều bài kiểm tra khả năng của GPT-4 được Giardina công bố công khai.
• Các thử nghiệm khác bao gồm yêu cầu chatbot nói tiếng Albania và đọc các câu nói lắp mà không dừng lại.
• Trong một thử nghiệm trước đó về việc đọc câu nói lắp, AI cũng khẳng định cần phải thở.
• Những thử nghiệm này một lần nữa cho thấy các mô hình ngôn ngữ lớn (LLM) rất giỏi về ngôn ngữ nhưng lại rất yếu về toán học và logic.
• Tình trạng này có thể sẽ tiếp tục gây ra nhiều vấn đề khi các hệ thống AI trở nên phức tạp và khó đoán hơn.
• Thử nghiệm này nằm trong loạt video Giardina đăng trên nền tảng X (trước đây là Twitter) để kiểm tra khả năng của GPT-4.
• Tính năng Voice Mode là một phần của mô hình GPT mới nhất của OpenAI.
📌 Thử nghiệm của Cristiano Giardina với ChatGPT Voice Mode cho thấy AI vẫn gặp khó khăn trong việc xử lý toán học và logic cơ bản như đếm đến 100. Điều này nhấn mạnh sự cần thiết phải cải thiện khả năng tính toán của AI trong tương lai.
https://futurism.com/the-byte/chatgpt-voice-mode-counting
• Nghệ thuật tạo bởi AI, đặc biệt là hình ảnh nude nữ, đang trở thành một hiện tượng gây chú ý trong cộng đồng nghệ thuật số.
• Sự phổ biến của nghệ thuật AI được thúc đẩy bởi việc dân chủ hóa việc sáng tạo nghệ thuật. Các công cụ AI dễ tiếp cận hơn, cho phép hầu hết mọi người đều có thể tạo ra tác phẩm nghệ thuật chỉ với vài cú nhấp chuột.
• Khả năng tạo ra hình ảnh siêu thực và mang tính tưởng tượng cao của AI thu hút người xem. Đặc biệt trong việc miêu tả hình nude, AI có thể đẩy giới hạn của giải phẫu học và biểu đạt nghệ thuật.
• Sự nổi lên của NFT (Token không thể thay thế) đã tạo ra động lực tài chính cho nghệ sĩ thử nghiệm với công cụ AI. Tác phẩm nghệ thuật AI thường được bán với giá cao tại các cuộc đấu giá.
• Mạng xã hội đóng vai trò quan trọng trong việc quảng bá nghệ thuật AI. Một bài đăng về tác phẩm AI có thể nhanh chóng lan truyền, thu hút hàng nghìn lượt thích, chia sẻ và bình luận.
• Các cộng đồng trực tuyến trên Reddit, Instagram và Twitter trở thành điểm nóng cho những người đam mê nghệ thuật AI. Họ chia sẻ tác phẩm, nhận phản hồi và hợp tác với nhau.
• Người có ảnh hưởng và người quản lý nghệ thuật số giúp quảng bá nghệ thuật AI đến công chúng rộng rãi hơn, tăng tính hợp pháp cho thể loại này.
• Sự tích hợp của nghệ thuật AI vào nghệ thuật đương đại gây ra tranh cãi về khái niệm sáng tạo và tính nguyên bản. Một số cho rằng sáng tạo thực sự chỉ có thể đến từ con người, trong khi những người ủng hộ nghệ thuật AI tin rằng máy móc có thể tăng cường sáng tạo của con người.
• Nghệ thuật AI đại diện cho sự giao thoa giữa công nghệ và thực hành nghệ thuật truyền thống, dẫn đến sự xuất hiện của các hình thức nghệ thuật mới như cài đặt thực tế ảo tăng cường và tượng điêu khắc do AI tạo ra.
• Các phòng trưng bày và bảo tàng bắt đầu chú ý đến nghệ thuật AI. Các cuộc triển lãm về nghệ thuật AI ngày càng phổ biến, một số tổ chức thậm chí còn dành toàn bộ chương trình để khám phá tác động của AI đối với thế giới nghệ thuật.
• Tương lai của nghệ thuật số trong kỷ nguyên AI đầy hứa hẹn. Khả năng hợp tác giữa con người và AI có thể dẫn đến việc tạo ra những tác phẩm nghệ thuật mà cả con người và máy móc đều không thể tạo ra một mình.
• Sự phát triển của nghệ thuật AI cũng đặt ra những câu hỏi đạo đức quan trọng về quyền sở hữu trí tuệ, khả năng AI thay thế nghệ sĩ con người và việc miêu tả các chủ đề nhạy cảm như hình nude.
📌 Nghệ thuật AI, đặc biệt là hình ảnh nude nữ, đang định hình lại nghệ thuật số hiện đại. Với 67% nghệ sĩ số đã thử nghiệm công cụ AI và doanh thu NFT nghệ thuật AI đạt 3,5 tỷ USD trong năm 2023, xu hướng này đang thách thức các định nghĩa truyền thống về sáng tạo và mở ra những khả năng mới cho biểu đạt nghệ thuật.
https://www.fingerlakes1.com/2024/08/05/the-rise-of-nude-ai-girls-in-modern-digital-art/
• Alibaba đang phát triển công cụ tạo video có tên Tora dựa trên mô hình Sora của OpenAI, đánh dấu nỗ lực mới nhất của gã khổng lồ công nghệ Trung Quốc trong lĩnh vực AI video.
• Tora là một framework tạo video sử dụng OpenSora làm mô hình nền tảng, được mô tả trong một bài báo do 5 nhà nghiên cứu của Alibaba công bố tuần trước.
• Framework này đạt được bước đột phá dựa trên kiến trúc Diffusion Transformer (DiT), kiến trúc mới làm nền tảng cho Sora - mô hình text-to-video được OpenAI ra mắt vào tháng 2/2024.
• Các nhà nghiên cứu tuyên bố đã phát triển "framework DiT định hướng quỹ đạo đầu tiên cho tạo video", đảm bảo chuyển động được tạo ra tuân theo chính xác các quỹ đạo được chỉ định đồng thời mô phỏng động lực học của thế giới vật lý.
• Họ đã điều chỉnh quy trình của OpenSora để chuyển đổi video thô thành các cặp video-văn bản chất lượng cao và tận dụng bộ ước tính optical flow để trích xuất quỹ đạo.
• Tora có khả năng tạo video được hướng dẫn bởi quỹ đạo, hình ảnh, văn bản hoặc kết hợp cả ba yếu tố này.
• Động thái của Alibaba đánh dấu nỗ lực mới nhất của công ty trong việc ra mắt các công cụ tạo video giống Sora, khi các công ty Trung Quốc đang đua nhau giành chỗ đứng trong lĩnh vực AI video.
• Tháng 7/2024, startup Trung Quốc Shengshu AI đã ra mắt công cụ text-to-video Vidu, cho phép người dùng đã đăng ký tạo các đoạn video dài 4 hoặc 8 giây.
• Trước đó vài ngày, Zhipu AI, một trong "Tứ hổ AI" mới của Trung Quốc, đã ra mắt mô hình tạo video Ying, chấp nhận cả lời nhắc văn bản và hình ảnh để tạo các đoạn video 6 giây trong khoảng 30 giây.
• Tháng 2/2024, Alibaba đã giới thiệu mô hình tạo video AI có tên Emote Portrait Alive (EMO), có thể chuyển đổi một hình ảnh tham chiếu tĩnh và mẫu giọng nói thành video avatar hoạt hình với biểu cảm khuôn mặt và tư thế.
• Bài báo nghiên cứu không đề cập liệu Tora có được liên kết với EMO hoặc Tongyi Qianwen - họ mô hình ngôn ngữ lớn tự phát triển của Alibaba hay không.
📌 Alibaba phát triển công cụ tạo video AI Tora dựa trên OpenSora, sử dụng kiến trúc DiT và có khả năng tạo video theo quỹ đạo, hình ảnh và văn bản. Đây là nỗ lực mới nhất của công ty trong cuộc đua AI video ở Trung Quốc, cạnh tranh với các đối thủ như Shengshu AI và Zhipu AI.
https://www.scmp.com/tech/big-tech/article/3273443/alibaba-develops-new-video-generation-tool-based-soras-open-source-model
• Các hãng thu âm lớn như Sony Music, Universal Music Group và Warner Music đã đệ đơn kiện các công ty AI âm nhạc Udio và Suno vào tháng 6/2024.
• Các hãng thu âm cáo buộc Udio và Suno đã sử dụng trái phép danh mục bản ghi âm có bản quyền của họ để huấn luyện hệ thống AI, cho phép bắt chước giọng hát và phong cách của các nghệ sĩ nổi tiếng.
• Vụ kiện đặt ra những câu hỏi pháp lý mới về việc liệu luật có nên có ngoại lệ cho việc AI sử dụng tác phẩm có bản quyền để tạo ra nội dung mới hay không.
• Các chuyên gia cho rằng việc xác định vi phạm bản quyền trong âm nhạc phức tạp hơn so với văn bản do có nhiều yếu tố như giai điệu, hòa âm, nhịp điệu.
• Udio và Suno phủ nhận vi phạm bản quyền, cho rằng đây là nỗ lực của các hãng thu âm nhằm ngăn cản đối thủ cạnh tranh nhỏ hơn.
• Các công ty AI lập luận rằng việc sử dụng bản ghi âm hiện có để giúp người dùng tạo ra bài hát mới là "sử dụng hợp lý" theo luật bản quyền Mỹ.
• Nhiều nghệ sĩ như Tift Merritt, Billie Eilish, Nicki Minaj đã lên tiếng cảnh báo AI có thể "phá hoại sự sáng tạo" và gạt bỏ nghệ sĩ.
• Vụ kiện có thể kéo dài nhiều năm và phụ thuộc vào việc tòa án xác định liệu việc sử dụng của AI có được coi là "sử dụng hợp lý" hay không.
• Các chuyên gia cho rằng các công ty AI âm nhạc có thể gặp khó khăn hơn trong việc chứng minh sử dụng hợp lý so với các chatbot AI.
• Một phán quyết của Tòa án Tối cao Mỹ năm 2023 về sử dụng hợp lý có thể có tác động lớn đến các vụ kiện âm nhạc, tập trung vào việc liệu việc sử dụng mới có cùng mục đích thương mại với tác phẩm gốc hay không.
📌 Vụ kiện AI âm nhạc đặt ra thách thức pháp lý mới về bản quyền trong kỷ nguyên AI. Kết quả có thể định hình tương lai của ngành công nghiệp âm nhạc trị giá hàng tỷ USD và sự cân bằng giữa đổi mới công nghệ và bảo vệ quyền lợi nghệ sĩ.
https://www.rappler.com/technology/music-labels-artificial-intelligence-lawsuits-create-new-copyright-puzzle-us-courts/
• AWS đang dẫn đầu trong việc áp dụng Machine Learning trên nền tảng đám mây, mang lại những đổi mới đáng kể cho ngành thể thao.
• NFL hợp tác với AWS để phát triển Digital Athlete - một hệ thống thu thập dữ liệu toàn diện về trải nghiệm của cầu thủ, giúp dự đoán và ngăn ngừa chấn thương, đồng thời nâng cao trải nghiệm cho người hâm mộ.
• NFL Big Data Bowl là một sự kiện ảo hàng năm, mời các nhà khoa học dữ liệu chuyên nghiệp và nghiệp dư thiết kế các phương pháp tiếp cận mới để phân tích xu hướng và hiệu suất cầu thủ.
• F1 sử dụng nền tảng điện toán đám mây của AWS để chuyển đổi số hóa môn thể thao này. Họ đã thiết kế chiếc cúp F1 đầu tiên được lấy cảm hứng từ AI tạo sinh cho Grand Prix Du Canada 2024.
• Amazon Titan, một phần của Amazon Bedrock, đã được sử dụng để tạo ra nhiều ý tưởng thiết kế cúp dựa trên các gợi ý khác nhau.
• F1 và AWS đã hợp tác từ năm 2002 để thiết kế lại hồ sơ khí động học của quy định thiết kế xe F1, cho phép các xe đua cạnh tranh gay gắt hơn.
• PGA TOUR bắt đầu sử dụng các dịch vụ machine learning, lưu trữ, điện toán, phân tích, cơ sở dữ liệu và truyền thông của AWS từ năm 2020 để xử lý và phân phối nhanh chóng các đoạn video từ mỗi giải đấu golf.
• Với AI tạo sinh, PGA TOUR có thể tăng gấp ba lần lượng dữ liệu và nội dung họ có thể ghi lại từ các trận đấu.
• Gần 100 năm video, âm thanh và hình ảnh từ năm 1928 đã được chuyển lên đám mây AWS, cho phép thu thập thông tin chi tiết mới, suy luận các mối tương quan và làm cho nội dung nguồn có thể tìm kiếm và truy cập toàn cầu.
• Việc chuyển các sự kiện trực tiếp từ cơ sở hạ tầng tại chỗ sang đám mây đã giúp sản xuất hiệu quả hơn về chi phí và bền vững hơn.
• Scott Gutterman, Phó Chủ tịch Cấp cao về Hoạt động Kỹ thuật số của PGA TOUR, cho biết họ đang tìm cách sử dụng AI tạo sinh để cung cấp hỗ trợ bình luận gần như thời gian thực cho các nhà phát sóng.
• Thị trường trí tuệ nhân tạo trong thể thao toàn cầu được định giá 2,2 tỷ USD vào năm 2022 và dự kiến sẽ đạt 29,7 tỷ USD vào năm 2032, với tốc độ tăng trưởng kép hàng năm là 30,1% từ 2023 đến 2032.
• Các yếu tố thúc đẩy tăng trưởng chính là nhu cầu ngày càng tăng về giám sát và theo dõi dữ liệu của cầu thủ, cũng như nhu cầu tăng cao đối với chatbot và trợ lý ảo để tương tác với người theo dõi.
📌 AWS và AI tạo sinh đang cách mạng hóa ngành thể thao, từ NFL đến F1 và PGA TOUR. Công nghệ này giúp phân tích dữ liệu, cải thiện an toàn cho vận động viên và tăng cường trải nghiệm người hâm mộ. Thị trường AI trong thể thao dự kiến đạt 29,7 tỷ USD vào năm 2032, tăng trưởng 30,1% hàng năm.
https://www.scmp.com/presented/tech/topics/generative-ai-and-cloud-services/article/3272895/aws-generative-ai-genai-takes-sports-new-horizons-imagination-and-cutting-edge-technology
• Stability AI vừa công bố công nghệ AI tạo sinh mới có tên Stable Fast 3D, có khả năng tạo nhanh hình ảnh 3D từ một ảnh đơn.
• Mô hình mới có thể tạo ra hình ảnh 3D chỉ trong nửa giây, nhanh hơn đáng kể so với các mô hình trước đó cần vài phút để đạt kết quả tương tự.
• So với Stable Video 3D ra mắt hồi tháng 3 mất tới 10 phút để tạo một tài sản 3D, Stable Fast 3D nhanh hơn 1200 lần.
• Stability AI kỳ vọng mô hình mới sẽ có nhiều ứng dụng thực tế trong các ngành như thiết kế, kiến trúc, bán lẻ, thực tế ảo và phát triển game.
• Mô hình này có sẵn thông qua chatbot Stable Assistant và API của Stability AI. Nó cũng được cung cấp dưới giấy phép cộng đồng trên Hugging Face.
• Stable Fast 3D được phát triển dựa trên công nghệ TripoSR trước đó của Stability AI. Công ty đã hợp tác với Trip AI từ tháng 3 để xây dựng công nghệ tạo tài sản 3D nhanh chóng.
• Mô hình sử dụng mạng transformer cải tiến để tạo ra các triplane độ phân giải cao từ hình ảnh đầu vào. Điều này cho phép nắm bắt chi tiết tốt hơn và giảm hiện tượng aliasing.
• Các nhà nghiên cứu cũng phát triển phương pháp mới để ước tính vật liệu và ánh sáng, sử dụng mạng dự đoán các giá trị kim loại và độ nhám toàn cục bằng phương pháp xác suất mới.
• Stable Fast 3D có thể kết hợp nhiều yếu tố cần thiết cho hình ảnh 3D như lưới, kết cấu và thuộc tính vật liệu thành một tài sản 3D nhỏ gọn, sẵn sàng sử dụng.
• Stability AI vẫn được biết đến nhiều nhất với công nghệ tạo hình ảnh từ văn bản Stable Diffusion. Công ty đã làm việc với 3D từ ít nhất tháng 11/2023 với việc ra mắt Stable 3D.
• Stable Video 3D ra mắt vào tháng 3 năm nay đã mang lại khả năng quét camera cơ bản để xem hình ảnh cùng với việc nâng cao chất lượng tạo hình ảnh 3D.
• Tuần trước, Stability AI đã công bố Stable Video 4D, thêm chiều thời gian vào việc tạo video 3D ngắn.
📌 Stability AI tiếp tục đột phá với Stable Fast 3D, tạo hình 3D trong 0,5 giây, nhanh hơn 1200 lần so với phiên bản trước. Công nghệ mới hứa hẹn ứng dụng rộng rãi trong thiết kế, kiến trúc, game và VR, đánh dấu bước tiến quan trọng trong lĩnh vực AI tạo sinh.
https://venturebeat.com/ai/stability-ai-speeds-up-3d-image-generation-with-stable-fast-3d/
• Hedra, nền tảng tạo video AI, vừa huy động được 10 triệu USD vốn hạt giống từ các nhà đầu tư như Index Ventures, Abstract và A16Z Speedrun.
• Công ty được thành lập bởi các cựu nhân viên của Nvidia, Google và Meta.
• Cùng với vòng gọi vốn, Hedra cũng công bố mô hình nền tảng tập trung vào video Character-1 ra khỏi giai đoạn thử nghiệm kín.
• Hedra tuyên bố Character-1 là "mô hình nền tảng video nhanh nhất trên thị trường", giải quyết được các hạn chế về kiểm soát và tốc độ của các mô hình tạo video trước đây.
• Hơn 350.000 người dùng đã sử dụng nền tảng Character-1 và tạo ra hơn 1,6 triệu video. Nhiều video được tạo bằng Character-1 đã trở nên viral trên Reddit và Instagram.
• Hedra cho phép người dùng tạo ra các ngôi sao nhạc pop AI và nội dung được tạo bởi AI. Công ty cũng tập trung vào việc cải thiện các tính năng an toàn và kiểm duyệt nội dung.
• Kế hoạch phát triển của Hedra là làm cho nền tảng trở nên đa phương thức hơn, tích hợp tạo câu chuyện, âm thanh và video vào một quy trình thống nhất.
• Character-1 là mô hình tạo video mới nhất được công bố trong những tháng gần đây, cạnh tranh với các nền tảng khác như Haiper 1.5, RunwayML Gen-3 Alpha, và Luma AI Dream Machine.
• Captions, một nền tảng video khác, đã huy động được 60 triệu USD trong vòng gọi vốn Series C vào tháng 7.
• Các công ty lớn như OpenAI và Google cũng đang tham gia vào lĩnh vực tạo video bằng AI tạo sinh. OpenAI đang phát triển Sora, trong khi Google đã công bố Veo vào tháng 5.
• Hedra hy vọng sẽ đơn giản hóa quá trình tạo nội dung, cho phép tùy chỉnh avatar và nhân vật kỹ thuật số bằng AI.
• Sự ra mắt của Character-1 và vòng gọi vốn thành công của Hedra cho thấy nhu cầu đầu tư vào AI và sự quan tâm đến các sản phẩm tạo nội dung bằng AI tạo sinh vẫn tiếp tục tăng cao.
📌 Hedra huy động 10 triệu USD vốn hạt giống, ra mắt Character-1 - mô hình nền tảng video AI nhanh nhất thị trường. Với hơn 350.000 người dùng tạo 1,6 triệu video, Hedra đặt mục tiêu đơn giản hóa quy trình tạo nội dung đa phương thức bằng AI, cạnh tranh với các đối thủ lớn trong lĩnh vực tạo video AI đang phát triển nhanh chóng.
https://venturebeat.com/ai/hedra-a-new-ai-video-platform-raises-10-million-in-seed-funding/
• Startup AI âm nhạc Suno đã thừa nhận trong một hồ sơ tòa án rằng họ đã huấn luyện mô hình AI của mình bằng các bài hát có bản quyền, nhưng cho rằng việc làm này là hợp pháp theo học thuyết sử dụng hợp lý.
• Hiệp hội Công nghiệp Ghi âm Hoa Kỳ (RIAA) đã đệ đơn kiện Udio và Suno vào ngày 24/6, cáo buộc các công ty này đã huấn luyện mô hình của họ bằng nhạc có bản quyền mà không được phép.
• Trong hồ sơ tòa án, Suno thừa nhận: "Không phải là bí mật gì khi hàng chục triệu bản ghi âm mà mô hình của Suno được huấn luyện có thể bao gồm các bản ghi có quyền thuộc về các Nguyên đơn trong vụ kiện này."
• CEO kiêm đồng sáng lập Suno, Mikey Shulman, đã viết trong một bài đăng blog rằng họ huấn luyện mô hình trên "nhạc chất lượng trung bình và cao mà họ có thể tìm thấy trên internet mở".
• Shulman lập luận rằng việc huấn luyện mô hình AI từ dữ liệu trên "internet mở" không khác gì việc "một đứa trẻ viết bài hát rock của riêng mình sau khi nghe thể loại này".
• RIAA phản bác mạnh mẽ, cho rằng đây là "sự thừa nhận quan trọng về các sự kiện mà họ đã cố gắng che giấu trong nhiều tháng và chỉ thừa nhận khi bị buộc phải làm như vậy bởi một vụ kiện".
• RIAA khẳng định việc vi phạm bản quyền quy mô lớn của Suno không đủ điều kiện là "sử dụng hợp lý" và không có gì công bằng trong việc "đánh cắp công việc cả đời của một nghệ sĩ, trích xuất giá trị cốt lõi của nó, và đóng gói lại để cạnh tranh trực tiếp với bản gốc".
• Vấn đề sử dụng hợp lý trong bối cảnh huấn luyện mô hình AI đang gây tranh cãi, và kết quả của vụ kiện này có thể thiết lập một tiền lệ ảnh hưởng, định hình tương lai không chỉ của hai startup được nêu tên trong đó.
• Vụ kiện vẫn đang ở giai đoạn đầu, nhưng đã thu hút sự chú ý lớn từ ngành công nghiệp âm nhạc và cộng đồng AI.
📌 Startup AI âm nhạc Suno thừa nhận sử dụng hàng chục triệu bản ghi âm có bản quyền để huấn luyện mô hình, nhưng cho rằng đây là "sử dụng hợp lý". RIAA phản đối mạnh mẽ, cáo buộc vi phạm bản quyền quy mô lớn. Kết quả vụ kiện có thể tạo tiền lệ quan trọng cho tương lai AI và bản quyền âm nhạc.
https://techcrunch.com/2024/08/01/ai-music-startup-suno-response-riaa-lawsuit/
• Công ty khởi nghiệp AI aiOla của Israel vừa ra mắt mô hình nhận dạng giọng nói nguồn mở mới có tên Whisper-Medusa, nhanh hơn 50% so với Whisper của OpenAI.
• Whisper-Medusa được xây dựng dựa trên Whisper nhưng sử dụng kiến trúc "multi-head attention" mới, cho phép dự đoán nhiều token hơn cùng một lúc.
• Mã nguồn và trọng số của mô hình đã được phát hành trên Hugging Face dưới giấy phép MIT, cho phép sử dụng cho nghiên cứu và thương mại.
• Whisper-Medusa có thể dự đoán 10 token mỗi lần thay vì 1 token như Whisper, giúp tăng 50% tốc độ dự đoán và thời gian chạy.
• Mô hình mới vẫn duy trì độ chính xác tương đương với Whisper gốc.
• aiOla sử dụng phương pháp học yếu (weak supervision) để huấn luyện Whisper-Medusa, đóng băng các thành phần chính của Whisper và sử dụng bản ghi âm do mô hình tạo ra làm nhãn để huấn luyện các module dự đoán token bổ sung.
• Công ty đang phát triển phiên bản 20-head có thể dự đoán 20 token cùng lúc, hứa hẹn tốc độ nhận dạng và phiên âm nhanh hơn nữa mà không mất độ chính xác.
• Cải thiện tốc độ nhận dạng và phiên âm sẽ cho phép xử lý nhanh hơn trong các ứng dụng giọng nói và mở đường cho phản hồi thời gian thực.
• Công nghệ này có thể thúc đẩy năng suất, giảm chi phí vận hành và cung cấp nội dung nhanh chóng hơn cho các cá nhân và doanh nghiệp.
• Whisper hiện là tiêu chuẩn vàng trong nhận dạng giọng nói, với hơn 5 triệu lượt tải xuống mỗi tháng và được sử dụng trong hàng chục nghìn ứng dụng.
• Nhận dạng giọng nói nâng cao vẫn rất quan trọng trong thời đại các mô hình nền tảng, thúc đẩy các chức năng chính trong các lĩnh vực như chăm sóc sức khỏe và fintech.
• Công nghệ này cũng đang hỗ trợ các hệ thống AI đa phương thức có khả năng cao, như OpenAI đã kết hợp Whisper với LLM để xử lý truy vấn bằng giọng nói và cung cấp câu trả lời.
📌 aiOla ra mắt mô hình nhận dạng giọng nói Whisper-Medusa nhanh hơn 50% so với OpenAI Whisper, dự đoán 10 token mỗi lần thay vì 1. Mô hình nguồn mở này duy trì độ chính xác cao và hứa hẹn thúc đẩy ứng dụng giọng nói thời gian thực trong nhiều lĩnh vực.
https://venturebeat.com/ai/aiola-drops-ultra-fast-multi-head-speech-recognition-model-beats-openai-whisper/
• Synthesia vừa công bố tính năng Personal Avatars, cho phép người dùng tạo bản sao kỹ thuật số của chính mình chỉ trong vài phút.
• Để tạo avatar, người dùng cần quay 2 phút video bằng điện thoại hoặc webcam, sau đó tải lên và đồng ý cho Synthesia sử dụng hình ảnh để tạo AI.
• Avatar AI có thể nói hơn 30 ngôn ngữ, bất kể người dùng có biết ngôn ngữ đó hay không. Nó sử dụng giọng nói được nhân bản từ giọng của chủ nhân.
• Công nghệ auto alignment giúp avatar có cử chỉ, ngôn ngữ cơ thể phù hợp với nội dung đang nói.
• Synthesia mã hóa dữ liệu để bảo vệ avatar khỏi bị lạm dụng, chỉ tạo avatar khi có sự đồng ý rõ ràng và xóa dữ liệu khi người dùng yêu cầu.
• Tính năng này có thể ứng dụng trong nhiều lĩnh vực như tạo nội dung, đào tạo, quảng cáo, truyền thông nội bộ doanh nghiệp...
• Personal Avatars hiện có sẵn cho người dùng các gói Starter, Creator và Enterprise của Synthesia.
• Đây là bước tiếp theo sau khi Synthesia ra mắt nền tảng tạo video AI toàn diện Synthesia 2.0 vào tháng trước.
• Mục tiêu của Synthesia là "mở rộng ranh giới của giao tiếp kỹ thuật số" bằng cách tạo ra nội dung cá nhân hóa, chân thực.
• Công nghệ này có thể giúp tạo ra các video đào tạo, hướng dẫn, quảng cáo... một cách nhanh chóng và tiết kiệm chi phí.
• Tuy nhiên, việc sử dụng avatar AI cũng đặt ra những lo ngại về quyền riêng tư và khả năng lạm dụng công nghệ này.
📌 Synthesia giới thiệu tính năng Personal Avatars, cho phép tạo bản sao kỹ thuật số nói được 30 ngôn ngữ chỉ từ 2 phút video. Công nghệ này mở ra khả năng tạo nội dung cá nhân hóa nhanh chóng, tiết kiệm chi phí trong nhiều lĩnh vực, nhưng cũng đặt ra thách thức về bảo mật và đạo đức.
https://www.zdnet.com/article/clone-yourself-with-these-personal-ai-avatars/
• Runway, startup có trụ sở tại New York, vừa công bố phiên bản mới của mô hình AI video Gen-3 Alpha với tên gọi Gen-3 Alpha Turbo.
• Gen-3 Alpha Turbo được cho là nhanh hơn 7 lần so với phiên bản gốc Gen-3 Alpha. CEO Cristóbal Valenzuela tuyên bố có thể tạo video 10 giây chỉ trong 11 giây, gần như theo thời gian thực.
• Runway cũng thông báo sẽ giảm giá đáng kể cho Gen-3 Alpha Turbo trong những ngày tới.
• Hiện tại, Gen-3 Alpha tốn 10 credit cho mỗi giây video được tạo ra. Dự đoán Gen-3 Alpha Turbo có thể được định giá khoảng 5-7 credit/giây.
• Việc ra mắt phiên bản nhanh hơn và rẻ hơn có thể nhằm duy trì vị thế dẫn đầu của Runway trước sự cạnh tranh từ các đối thủ như Pika Labs, Luma AI, Kling và OpenAI (với Sora).
• Runway đang phải đối mặt với các vấn đề pháp lý liên quan đến dữ liệu huấn luyện. Một báo cáo của 404 Media tiết lộ kế hoạch của công ty trong việc thu thập dữ liệu từ các video YouTube, bao gồm cả nội dung có bản quyền.
• Runway hiện đang bị kiện cùng với các công ty AI tạo sinh khác vì cáo buộc vi phạm bản quyền hình ảnh.
• Ed Newton-Rex, người sáng lập tổ chức phi lợi nhuận Fairly Trained, kêu gọi Runway công khai bộ dữ liệu huấn luyện của họ.
• Hầu hết các công ty AI tạo sinh hàng đầu, kể cả những công ty đứng sau các mô hình nguồn mở như Meta's Llama 3.1, đều chưa tiết lộ đầy đủ chi tiết về bộ dữ liệu huấn luyện của họ.
• Các vụ kiện đang diễn ra có thể buộc các nhà cung cấp mô hình AI tạo sinh như Runway phải tiết lộ dữ liệu huấn luyện của họ thông qua quá trình khám phá tại tòa.
📌 Runway giới thiệu Gen-3 Alpha Turbo, mô hình AI video nhanh gấp 7 lần với giá rẻ hơn đáng kể. Tuy nhiên, công ty đang đối mặt với các vấn đề pháp lý về dữ liệu huấn luyện, có thể ảnh hưởng đến tương lai của ngành AI tạo sinh.
https://venturebeat.com/ai/runway-faster-cheaper-gen-3-alpha-turbo/
• Meta AI vừa công bố Segment Anything Model 2 (SAM 2), mô hình AI thống nhất đầu tiên có khả năng xác định pixel nào thuộc về đối tượng mục tiêu trong cả ảnh và video.
• SAM 2 có thể phân đoạn bất kỳ đối tượng nào và theo dõi nó nhất quán qua tất cả các khung hình của video theo thời gian thực, mở ra những khả năng mới cho chỉnh sửa video và trải nghiệm thực tế hỗn hợp.
• Phân đoạn - xác định pixel nào trong ảnh thuộc về một đối tượng - giúp ích cho các tác vụ như phân tích hình ảnh khoa học hoặc chỉnh sửa ảnh.
• Mô hình Segment Anything (SAM) ban đầu được phát hành năm ngoái đã truyền cảm hứng cho các công cụ chỉnh sửa hình ảnh mới trong các ứng dụng của Meta, như Backdrop và Cutouts trên Instagram.
• SAM cũng đã thúc đẩy nhiều ứng dụng đa dạng trong khoa học, y học và nhiều ngành công nghiệp khác. Ví dụ, SAM đã được sử dụng trong khoa học biển để phân đoạn hình ảnh sonar và phân tích rạn san hô, phân tích hình ảnh vệ tinh để cứu trợ thiên tai, và trong lĩnh vực y tế, phân đoạn hình ảnh tế bào và hỗ trợ phát hiện ung thư da.
• SAM 2 mở rộng các khả năng này sang video. Các mô hình hiện có chưa đạt được điều này vì phân đoạn trong video phức tạp hơn đáng kể so với trong ảnh.
• Trong video, đối tượng có thể di chuyển nhanh, thay đổi hình dạng và bị che khuất bởi các đối tượng khác hoặc các phần của cảnh. Meta đã giải quyết nhiều thách thức này khi xây dựng SAM 2.
• Meta tin rằng nghiên cứu này có thể mở ra những khả năng mới như chỉnh sửa và tạo video dễ dàng hơn, đồng thời cho phép tạo ra những trải nghiệm mới trong thực tế hỗn hợp.
• SAM 2 có thể được sử dụng để theo dõi đối tượng mục tiêu trong video nhằm hỗ trợ chú thích nhanh hơn cho dữ liệu hình ảnh để huấn luyện các hệ thống thị giác máy tính, bao gồm cả những hệ thống được sử dụng trong xe tự lái.
• Nó cũng có thể cho phép các cách sáng tạo để chọn và tương tác với đối tượng trong thời gian thực hoặc trong video trực tiếp.
• Tuân theo cách tiếp cận khoa học mở của mình, Meta đang chia sẻ nghiên cứu về SAM 2 để những người khác có thể khám phá các khả năng và trường hợp sử dụng mới.
📌 SAM 2 của Meta AI là mô hình phân đoạn đối tượng đầu tiên cho cả ảnh và video theo thời gian thực. Nó mở ra khả năng mới trong chỉnh sửa video, thực tế hỗn hợp và nhiều ứng dụng khác từ khoa học đến y tế. Meta chia sẻ nghiên cứu này theo cách tiếp cận khoa học mở.
https://about.fb.com/news/2024/07/our-new-ai-model-can-segment-video/
• Meta vừa công bố ra mắt AI Studio cho người dùng tại Mỹ, cho phép tạo phiên bản AI của chính mình hoặc các nhân vật AI tùy chỉnh.
• Có 2 cách để sử dụng AI Studio: truy cập ai.meta.com/ai-studio hoặc dùng trực tiếp trên ứng dụng Instagram.
• Trên Instagram, người dùng chỉ cần mở tin nhắn, bắt đầu cuộc trò chuyện mới và nhấn vào "Create an AI chat".
• Quá trình tạo nhân vật AI cho phép thiết lập tên, tính cách, giọng điệu, hình đại diện và khẩu hiệu.
• Meta cung cấp tài liệu hướng dẫn 18 trang "AI Studio Handbook" để tối ưu hóa trải nghiệm sử dụng.
• Nhân vật AI không chỉ là avatar, mà còn có kiến thức và tính cách riêng biệt.
• Người dùng có thể cài đặt các chủ đề không muốn AI đề cập hoặc tài khoản không muốn AI tương tác.
• Phản hồi từ nhân vật AI được gắn nhãn rõ ràng để tránh nhầm lẫn với người thật.
• Meta giới thiệu một số nhân vật AI do người nổi tiếng tạo ra như đầu bếp Marc Murphy và nhiếp ảnh gia Angel Barclay.
• Tính năng hiện chỉ khả dụng cho người dùng tại Mỹ. Người dùng ở các khu vực khác, đặc biệt là châu Âu, không thể tạo hoặc xem các nhân vật AI.
• Liên minh châu Âu có bộ quy tắc riêng về AI, khiến các công ty công nghệ như Meta và Apple phải thận trọng khi triển khai các tính năng AI tại đây.
📌 Meta ra mắt AI Studio trên Instagram cho người dùng Mỹ, cho phép tạo nhân vật AI tùy chỉnh. Tính năng này mở ra khả năng tương tác mới trên nền tảng, nhưng hiện chưa khả dụng tại châu Âu do các quy định nghiêm ngặt về AI.
https://sea.mashable.com/tech/33619/instagram-now-lets-you-create-an-ai-version-of-yourself
• Runway, startup có trụ sở tại New York, vừa công bố tính năng mới cho nền tảng video AI Gen-3 Alpha: khả năng tạo video từ ảnh tĩnh.
• Người dùng có thể tải lên ảnh tĩnh và/hoặc nhập lệnh văn bản để tạo video AI dài 5 hoặc 10 giây. Video 10 giây tiêu tốn 40 credit, video 5 giây tiêu tốn 20 credit.
• Tính năng này được đánh giá nhanh (dưới 1 phút để tạo video) và chất lượng cao. Mô hình tự động phát hiện và chặn việc tạo video từ hình ảnh khiêu dâm hoặc nhân vật nổi tiếng như chính trị gia.
• Runway đã đăng tải 10 video ấn tượng được tạo ra từ ảnh tĩnh bằng Gen-3 Alpha trên tài khoản X của họ.
• CEO Cristóbal Valenzuela giới thiệu tính năng mới trên tài khoản X cá nhân với cụm từ đơn giản "it's time".
• Runway đang cạnh tranh với các công ty khác trong lĩnh vực video AI như OpenAI (Sora), Kuaishou Technology (Kling AI), Luma AI (Dream Machine) và Pika.
• Tuy nhiên, Sora của OpenAI vẫn chưa được công bố rộng rãi, trong khi các mô hình khác đã có thể truy cập công khai.
• Công nghệ này đang làm thay đổi toàn bộ lĩnh vực làm phim và sáng tạo video.
• Runway và nhiều công ty AI khác đang phải đối mặt với các vụ kiện tập thể từ các nhà sáng tạo. Họ cáo buộc việc thu thập và đào tạo trên các tài liệu được đăng công khai - bao gồm cả tài liệu có bản quyền - mà không có sự cho phép, ủy quyền, bồi thường hoặc đồng ý rõ ràng là vi phạm luật bản quyền.
• Phán quyết của tòa án về vấn đề này sẽ ảnh hưởng lớn đến hiện tại và tương lai của các công cụ sáng tạo và video AI.
📌 Runway Gen-3 Alpha cho phép tạo video AI từ ảnh tĩnh trong vòng chưa đầy 1 phút với chất lượng cao. Tuy nhiên, công nghệ này đang đối mặt với tranh cãi về bản quyền, có thể ảnh hưởng đến tương lai của ngành công nghiệp video AI đang phát triển nhanh chóng.
https://venturebeat.com/ai/you-can-now-turn-still-images-into-ai-videos-with-runway-gen-3-alpha/
• Ngày 27/7/2024, startup AI Trung Quốc Zhipu đã ra mắt mô hình tạo video Ying, cho thấy các công ty công nghệ nước này đang bắt kịp trong lĩnh vực video AI.
• Ying chấp nhận cả lời nhắc bằng văn bản và hình ảnh để tạo ra các video clip 6 giây trong khoảng 30 giây. Người dùng có thể tinh chỉnh kết quả với các tùy chọn phong cách như hoạt hình 3D, phim ảnh hoặc tranh sơn dầu, cũng như các chủ đề cảm xúc như căng thẳng, sôi động và cô đơn.
• Dịch vụ này có thể truy cập thông qua trang web chính thức và ứng dụng di động của chatbot ChatGLM của Zhipu AI, và đã được cung cấp ngay lập tức cho tất cả người dùng sử dụng không giới hạn.
• Việc ra mắt Ying diễn ra chỉ 2 ngày sau động thái tương tự của Kuaishou - đối thủ video ngắn của Douyin (TikTok Trung Quốc). Kuaishou đã mở rộng thử nghiệm mô hình video Kling, cho phép mỗi khách hàng tạo 6 video mỗi ngày.
• Kling cung cấp các gói trả phí hàng năm cho phép tạo tối đa 60 và 800 video hàng tháng với chi phí lần lượt là 396 nhân dân tệ (54,63 USD) và 3.996 nhân dân tệ.
• OpenAI, công ty tiên phong trong lĩnh vực tạo video AI với Sora, vẫn chưa cung cấp mô hình này cho công chúng sử dụng. Họ muốn đảm bảo mô hình không thể được sử dụng để tạo và lan truyền thông tin sai lệch.
• Công nghệ đằng sau Ying là mô hình text-to-video tự phát triển có tên CogVideoX, tương tự kiến trúc diffusion transformer (DiT) được sử dụng bởi Sora của OpenAI, với tốc độ suy luận được cải thiện dẫn đến tạo video nhanh hơn.
• CEO Zhipu Zhang Peng cho biết công ty đã có một số cảm hứng từ thiết kế thuật toán của Sora. Zhipu đang phát triển phiên bản mới của mô hình video có khả năng tạo ra các video dài hơn với độ phân giải cao hơn.
• Mặc dù OpenAI chưa cung cấp Sora cho công chúng sử dụng rộng rãi, nhưng công ty đã công bố chi tiết kỹ thuật về cách thức hoạt động của nó.
📌 Các công ty công nghệ Trung Quốc như Zhipu và Kuaishou đang nhanh chóng bắt kịp OpenAI trong lĩnh vực tạo video AI. Zhipu ra mắt Ying có thể tạo video 6 giây trong 30 giây, trong khi Kuaishou cung cấp Kling với gói trả phí từ 396 đến 3.996 nhân dân tệ/năm. OpenAI vẫn thận trọng về việc phát hành Sora rộng rãi.
https://www.scmp.com/tech/tech-trends/article/3272135/zhipu-ai-launches-video-model-sign-more-chinese-tech-firms-are-taking-openais-sora
• OpenAI sẽ ra mắt bản cập nhật alpha cho tính năng Voice Mode của ChatGPT vào tuần tới dành cho người dùng ChatGPT Plus.
• Bản cập nhật này ban đầu dự kiến ra mắt vào tháng 6 nhưng đã bị trì hoãn 1 tháng. Chưa rõ liệu tất cả người dùng Plus sẽ nhận được tính năng cùng lúc hay sẽ được triển khai dần dần.
• Voice Mode mới sẽ cho phép người dùng có các cuộc hội thoại bằng giọng nói thực tế với ChatGPT nhờ thời gian phản hồi được rút ngắn.
• 3 tính năng mới chính của bản cập nhật Voice Mode:
1. Dịch trực tiếp giữa các ngôn ngữ
2. Tạo hiệu ứng âm thanh khi kể chuyện
3. Tùy chỉnh giọng nói cho các nhân vật
• Đây là một tuần quan trọng đối với ChatGPT, khi mới đây họ cũng đã công bố sắp ra mắt công cụ tìm kiếm SearchGPT.
• Sam Altman, CEO của OpenAI, là người thông báo về bản cập nhật Voice Mode sắp tới.
• Bản cập nhật nhằm mang lại thêm giá trị cho người dùng trả phí của ChatGPT.
• Chưa rõ liệu tất cả người dùng Plus sẽ nhận được tính năng cùng lúc hay sẽ được triển khai dần dần.
• Với các tính năng mới về hội thoại bằng giọng nói và tìm kiếm văn bản, ChatGPT đang ngày càng được sử dụng rộng rãi hơn trong năm 2024.
📌 ChatGPT sẽ ra mắt Voice Mode mới cho người dùng Plus vào tuần tới với 3 tính năng: dịch trực tiếp, hiệu ứng âm thanh và giọng nói nhân vật. Đây là bước tiến quan trọng của OpenAI trong việc nâng cao trải nghiệm tương tác bằng giọng nói với AI.
https://sea.mashable.com/tech/33581/chatgpts-voice-mode-update-is-coming-next-week-3-new-features-subscribers-will-get
• Kling AI, phát triển bởi Kuaishou Technology, vừa ra mắt phiên bản quốc tế cho phép người dùng toàn cầu tạo video AI miễn phí.
• Mô hình Kling có thể tạo video dài tới 2 phút với độ phân giải HD, sử dụng công nghệ tái tạo 3D tiên tiến để tạo chuyển động tự nhiên hơn cho người và động vật.
• Phiên bản quốc tế cho phép đăng ký bằng email, không cần số điện thoại Trung Quốc như trước đây. Mỗi lần tạo video tiêu tốn 10 credit, người dùng được cấp 66 credit miễn phí mỗi ngày.
• So với Sora của OpenAI chỉ cho phép một số nhà sáng tạo được chọn truy cập, Kling có thể trở thành công cụ AI video hàng đầu hiện nay.
• Kling sử dụng phương pháp tiếp cận khác với AI, tận dụng 3D tạo sinh trong quá trình tạo và cung cấp khả năng thay đổi cảnh, độ dài clip và độ phân giải video tương đương Sora.
• Khả năng tạo clip dài tới 2 phút là đáng kể, trong khi Sora giới hạn ở khoảng 1 phút mỗi lần tạo và mất 15 phút trở lên.
• Tuy nhiên, phiên bản toàn cầu hiện chỉ cho phép tạo clip ban đầu 5 giây và mất nhiều thời gian cho mỗi clip. Sora vẫn có cơ hội nếu ra mắt trong những tháng tới.
• Để truy cập Kling, người dùng có thể đăng nhập bằng email tại KlingAI.com và bắt đầu tạo video. Giao diện dễ sử dụng, cho phép nhập prompt dài tới 2.000 ký tự.
• Tốc độ tạo video hiện còn chậm, có thể do lượng người dùng đông đảo truy cập thử nghiệm.
• Sự ra mắt toàn cầu của Kling là điều tốt cho thị trường video AI, thúc đẩy cạnh tranh và phát triển nhanh hơn.
• Cuối cùng, các công cụ AI video sẽ đạt đến mức chất lượng tương tự khi họ đều hướng tới tạo ra nền tảng AI "thế giới mở" với mô hình có hiểu biết về thế giới thực.
• Sự khác biệt sẽ nằm ở các dịch vụ bổ sung, tốc độ tạo và quan trọng nhất là giá cả.
📌 Kling AI video đã có sẵn toàn cầu, cho phép tạo video AI 2 phút miễn phí. Với 66 credit/ngày, người dùng có thể tạo 6 video 5 giây. Mặc dù còn chậm, Kling có tiềm năng cạnh tranh với Sora của OpenAI trong tương lai gần.
https://www.tomsguide.com/ai/ai-image-video/sora-beating-kling-ai-video-is-now-available-outside-china-heres-how-to-get-access
• Adobe vừa phát hành các công cụ AI Firefly mới cho Photoshop và Illustrator vào ngày 23/7/2024, cho phép các nhà thiết kế đồ họa tạo ra hình ảnh và hiệu ứng chỉ bằng cách mô tả ngắn gọn.
• Công cụ mới "Generative Shape Fill" trong Illustrator (đang ở giai đoạn beta) cho phép người dùng thêm chi tiết và kết cấu vào hình dạng thông qua lời nhắc văn bản hoặc chọn tham chiếu phong cách. Tính năng này được hỗ trợ bởi phiên bản beta cập nhật của mô hình Firefly Vector của Adobe.
• Photoshop giờ đây cung cấp rộng rãi trình tạo hình ảnh từ văn bản của Firefly, cho phép người dùng tạo hình ảnh AI trong ứng dụng bằng cách nhấn "Generate Image" và mô tả những gì họ muốn.
• Adobe đang cố gắng cân bằng giữa việc áp dụng AI và nhu cầu của người dùng truyền thống. Công ty đã đào tạo Firefly trên tác phẩm của nhiều người sáng tạo và thậm chí trả tiền thưởng hàng năm cho các nhiếp ảnh gia và họa sĩ minh họa của Adobe Stock.
• Để giải quyết lo ngại của người dùng, Adobe cung cấp cho khách hàng Creative Cloud một số lượng tín dụng tạo sinh hạn chế mỗi tháng mà không tính thêm chi phí.
• Kể từ khi ra mắt vào tháng 3/2023, Adobe cho biết Firefly đã tạo ra hơn 9 tỷ hình ảnh.
• Illustrator cũng nhận được một loạt tính năng mới không sử dụng AI tạo sinh:
- Công cụ Dimension cho phép tính toán chiều dài và góc của hình ảnh
- Công cụ Mockup (beta) cho phép đặt logo lên bất kỳ sản phẩm nào chỉ bằng cách tải lên hình ảnh
- Retype có thể nhận dạng phông chữ, khớp chúng và cho phép sử dụng ở nơi khác
• Photoshop cũng phát hành rộng rãi công cụ Selection Brush và Adjustment Brush mới, nhằm hợp lý hóa các tác vụ lặp đi lặp lại.
• Mặc dù không tính phí đăng ký cao cấp cho AI tạo sinh như một số đối thủ cạnh tranh, Adobe vẫn thấy lợi nhuận khi khách hàng chuyển sang các gói đắt tiền hơn để có thêm tín dụng tạo sinh cho Firefly.
📌 Adobe tung ra công cụ AI Firefly mới cho Illustrator và Photoshop, cho phép tạo hình ảnh bằng văn bản. Từ khi ra mắt 3/2023, Firefly đã tạo 9 tỷ hình ảnh. Adobe cung cấp tín dụng tạo sinh miễn phí hàng tháng cho người dùng Creative Cloud, cân bằng giữa đổi mới AI và nhu cầu người dùng truyền thống.
https://techcrunch.com/2024/07/23/adobe-releases-new-firefly-ai-tools-for-illustrator-and-photoshop/
• Fal AI vừa phát hành Auraflow - mô hình AI tạo ảnh nguồn mở mới với giấy phép Apache 2.0, cạnh tranh với Stable Diffusion 3 (SD3) của Stability AI.
• Auraflow được đào tạo trong hơn 4 tuần với nhiều kích thước, độ phân giải và tỷ lệ khung hình khác nhau. Nó đạt điểm GenEval 0,64 và 0,703 khi sử dụng pipeline tăng cường prompt.
• Mô hình hiện đang ở phiên bản beta 0.1, yêu cầu GPU có khoảng 12GB VRAM để chạy phiên bản fp16. Fal AI cho biết đang phát triển phiên bản nhỏ gọn hơn.
• So sánh Auraflow và SD3 qua nhiều phong cách và chủ đề:
- Phong cách nghệ thuật: Hòa, Auraflow tốt hơn về phong cách ấn tượng, SD3 chi tiết hơn.
- Hiện thực: SD3 thắng với hình ảnh chi tiết và siêu thực hơn.
- Minh họa: SD3 thắng với hình ảnh đáng sợ và chi tiết hơn.
- Tuân thủ prompt: Auraflow thắng, nắm bắt tốt hơn các yếu tố trong prompt.
- Nhận thức không gian: Hòa, cả hai đều thể hiện tốt.
- Anime/manga: SD3 thắng với phong cách truyện tranh sống động hơn.
• Auraflow nổi trội với phong cách ấn tượng, kỳ ảo. SD3 mạnh hơn về chi tiết, siêu thực và năng động.
• Giấy phép nguồn mở của Auraflow cho phép sử dụng, sao chép và phân phối tự do, thuận lợi hơn cho việc tinh chỉnh so với SD3.
📌 Auraflow là đối thủ mới đáng gờm của SD3 trong lĩnh vực AI tạo ảnh nguồn mở. Mặc dù SD3 vẫn nhỉnh hơn về chất lượng hình ảnh, giấy phép Apache 2.0 của Auraflow mang lại lợi thế chiến lược, hứa hẹn tiềm năng phát triển mạnh mẽ trong tương lai.
https://decrypt.co/240883/auraflow-comparison-sd3-fal-ai-new-model
• Microsoft vừa công bố phiên bản ứng dụng di động miễn phí của Designer, công cụ tạo ảnh bằng AI tạo sinh, cho cả iOS và Android.
• Designer trước đây chỉ có trên web hoặc Microsoft Edge, giờ đã mở rộng sang nhiều nền tảng hơn. Microsoft Photos trên Windows Insiders đã được tích hợp Designer với nút "Edit with Designer".
• Các tính năng mới trong Designer bao gồm xóa đối tượng tạo sinh (tương tự Magic Erase của Google), làm nổi bật màu sắc, cắt ảnh tự động, thêm chữ và đánh dấu.
• Microsoft dự định đưa Designer vào nhiều ứng dụng khác như Edge, Word và PowerPoint, cho phép tạo ảnh ngay trong quá trình làm việc.
• Ứng dụng cung cấp các mẫu gợi ý để tạo ảnh, tương tự như tính năng tạo hình nền AI trên điện thoại Pixel. Người dùng có thể chia sẻ mẫu và tạo sticker tùy chỉnh.
• Designer cho phép tạo emoji, clip art, hình nền, chữ lồng, avatar và nhiều thứ khác chỉ bằng mô tả đơn giản.
• Ngoài tính năng tạo ảnh AI, ứng dụng còn có các công cụ chỉnh sửa ảnh cơ bản như xóa hoặc làm mờ nền. Tính năng thay đổi nền sẽ sớm ra mắt.
• Người dùng được cấp 15 lượt tăng tốc miễn phí mỗi ngày để tạo hoặc chỉnh sửa ảnh nhanh hơn. Có thể nâng cấp lên gói Copilot Pro để nhận 100 lượt/ngày.
• Các tính năng của Designer áp dụng cho tài khoản trên mọi phiên bản: ứng dụng, web hoặc tích hợp trong các ứng dụng Microsoft khác.
📌 Microsoft mở rộng Designer sang ứng dụng di động miễn phí, tích hợp vào nhiều sản phẩm như Photos, Edge, Word. Người dùng có 15 lượt tăng tốc/ngày, có thể tạo ảnh AI, emoji, sticker chỉ bằng mô tả đơn giản.
https://www.zdnet.com/article/microsoft-launches-free-mobile-app-versions-of-designer-its-ai-photo-creator/
• Haiper, startup AI tạo video có trụ sở tại London, vừa ra mắt mô hình nền tảng hình ảnh mới Haiper 1.5.
• Haiper được thành lập bởi hai cựu nhà nghiên cứu của Google Deepmind là Yishu Miao và Ziyu Wang.
• Mô hình mới cho phép người dùng tạo video dài 8 giây từ văn bản, hình ảnh và video gợi ý - gấp đôi độ dài so với mô hình ban đầu.
• Haiper cũng giới thiệu tính năng nâng cao chất lượng (upscaler) giúp người dùng cải thiện chất lượng nội dung.
• Công ty có kế hoạch mở rộng sang lĩnh vực tạo hình ảnh từ văn bản.
• Haiper ra mắt cách đây 4 tháng và đã thu hút hơn 1,5 triệu người dùng trên nền tảng của mình.
• Ban đầu, Haiper chỉ tạo được video 2-4 giây. Mô hình mới giải quyết vấn đề này bằng cách tăng gấp đôi độ dài lên 8 giây.
• Người dùng có thể tạo video với chất lượng SD hoặc HD ở bất kỳ độ dài nào.
• Công cụ nâng cao chất lượng tích hợp cho phép nâng cấp tất cả video lên 1080p chỉ với một cú nhấp chuột.
• Mô hình hình ảnh mới sẽ cho phép tạo hình ảnh từ văn bản, sau đó có thể chuyển thành video.
• Haiper đang phát triển mô hình nền tảng nhận thức nhằm tạo ra AGI có thể tái tạo các yếu tố cảm xúc và vật lý của thực tế.
• Mô hình mới và các cập nhật của Haiper có vẻ hứa hẹn nhưng vẫn cần được cộng đồng rộng rãi kiểm chứng.
• Hiện tại, việc tạo video 8 giây và công cụ nâng cao chất lượng chỉ dành cho người dùng trả phí gói Pro (24 USD/tháng).
• Chất lượng video 2 giây nhất quán hơn so với video dài hơn, vẫn còn một số hạn chế về chi tiết đối tượng và chuyển động.
• Haiper đang cạnh tranh với các đối thủ như Runway, Pika và OpenAI trong lĩnh vực AI tạo video.
📌 Haiper 1.5 nâng cấp khả năng tạo video AI lên 8 giây, chất lượng HD và tích hợp tạo hình ảnh. Với 1,5 triệu người dùng sau 4 tháng ra mắt, Haiper đang nỗ lực cạnh tranh với các "ông lớn" như Runway và OpenAI trong lĩnh vực AI tạo video.
https://venturebeat.com/ai/exclusive-meet-haiper-1-5-the-new-ai-video-generation-model-challenging-sora-runway/
• Google vừa ra mắt phiên bản beta của công cụ tạo video bằng AI tạo sinh có tên Google Vids cho một số người dùng được chọn trong bộ ứng dụng Workspace dành cho doanh nghiệp.
• Google Vids sử dụng công nghệ AI Gemini và Vertex AI của Google để tạo ra các bài thuyết trình có thể tùy chỉnh dựa trên yêu cầu của người dùng, bao gồm văn bản, âm thanh và video.
• Công cụ này sẽ được cung cấp đầu tiên cho "một nhóm người thử nghiệm đáng tin cậy được chọn" trong Google Workspace Labs.
• Google Vids sử dụng AI tạo sinh để tạo ra các bài thuyết trình có thể chỉnh sửa, bao gồm video, hình ảnh, giọng nói và nhạc nền miễn phí bản quyền.
• Người dùng có thể cộng tác trên một dự án chung, tương tự như các sản phẩm khác trong Google Workspace.
• Để mở rộng tính năng âm thanh, Google Vids cho phép người dùng chọn từ nhiều giọng nói khác nhau, từ năng động, thân thiện đến bình tĩnh, với các phương ngữ khác nhau như tiếng Anh Mỹ, Anh và Úc.
• Google lần đầu công bố công cụ thuyết trình video này vào tháng 4 cùng với các bổ sung khác cho AI Gemini của mình.
• Vào tháng 5, Google đã giới thiệu hàng loạt tính năng được hỗ trợ bởi AI cho bộ công cụ Workspace. Mặc dù phần lớn các tính năng mới này hướng đến người tiêu dùng, Google Vids hiện chỉ có sẵn cho tài khoản doanh nghiệp và doanh nghiệp lớn.
• Tháng trước, Google đã phát hành Gemini 1.5 Pro, phiên bản nâng cao của mô hình AI chủ lực, cho các nhà phát triển. Cùng với Gemini 1.5 Pro, Google cũng giới thiệu mô hình ngôn ngữ lớn nguồn mở Gemma 2, cung cấp phản hồi nhanh hơn và linh hoạt hơn.
• Một công ty khác cũng đang sử dụng AI tạo sinh để giúp doanh nghiệp và người sáng tạo nội dung tạo ra hình ảnh ấn tượng là Canva, đã ra mắt Magic Studio được hỗ trợ bởi AI vào tháng 10 năm ngoái.
📌 Google Vids, công cụ tạo video AI mới của Google, đang được thử nghiệm với người dùng Workspace được chọn. Nó sử dụng Gemini AI và Vertex AI để tạo bài thuyết trình tùy chỉnh với hình ảnh, video và giọng nói miễn phí bản quyền, mở ra tiềm năng mới cho việc tạo nội dung trong doanh nghiệp.
https://decrypt.co/239901/google-launches-ai-video-tool-for-businesses
• Google DeepMind vừa công bố PaliGemma, một mô hình ngôn ngữ-thị giác (VLM) mở kết hợp điểm mạnh của dòng mô hình PaLI với gia đình mô hình ngôn ngữ Gemma.
• PaliGemma tích hợp mô hình thị giác SigLIP 400M với mô hình ngôn ngữ Gemma 2B, tạo thành một VLM dưới 3B tham số nhưng có hiệu suất ngang ngửa các mô hình tiền nhiệm lớn hơn nhiều như PaLI-X, PaLM-E và PaLI-3.
• Kiến trúc của PaliGemma gồm 3 thành phần chính: bộ mã hóa hình ảnh SigLIP ViTSo400m, mô hình ngôn ngữ chỉ giải mã Gemma-2B v1.0 và một lớp chiếu tuyến tính.
• Mô hình có thể xử lý nhiều tác vụ khác nhau như phân loại hình ảnh, tạo chú thích và trả lời câu hỏi về hình ảnh thông qua API linh hoạt "hình ảnh+văn bản vào, văn bản ra".
• Quá trình đào tạo PaliGemma trải qua nhiều giai đoạn, bắt đầu từ tiền đào tạo đơn phương thức, sau đó là đào tạo đa phương thức trên nhiều tác vụ đa dạng, tăng độ phân giải và cuối cùng là chuyển giao cho các tác vụ cụ thể.
• PaliGemma đạt hiệu suất ấn tượng trong nhiều tác vụ ngôn ngữ-thị giác. Mô hình xuất sắc trong tạo chú thích hình ảnh, đạt điểm cao trên các bộ dữ liệu chuẩn như COCO-Captions và TextCaps.
• Trong trả lời câu hỏi về hình ảnh, PaliGemma thể hiện hiệu suất mạnh mẽ trên nhiều bộ dữ liệu như VQAv2, GQA và ScienceQA. Mô hình cũng hoạt động tốt trên các tác vụ chuyên biệt như hiểu biểu đồ (ChartQA) và các tác vụ liên quan đến OCR (TextVQA, DocVQA).
• PaliGemma cho thấy cải thiện đáng kể khi tăng độ phân giải hình ảnh từ 224px lên 448px và 896px, đặc biệt là đối với các tác vụ liên quan đến chi tiết tinh vi hoặc nhận dạng văn bản.
• Nghiên cứu cũng giới thiệu CountBenchQA, một bộ dữ liệu mới khắc phục hạn chế của TallyQA trong đánh giá khả năng đếm của các VLM.
• PaliGemma thể hiện khả năng tổng quát hóa zero-shot bất ngờ đối với các hình ảnh 3D từ Objaverse mà không cần đào tạo cụ thể.
• Mô hình đạt hiệu suất tốt nhất trên MMVP, vượt trội đáng kể so với các mô hình lớn hơn như GPT4-V và Gemini.
📌 PaliGemma là VLM mở 3B của Google DeepMind, kết hợp SigLIP và Gemma, đạt hiệu suất vượt trội trong nhiều tác vụ đa phương thức. Mô hình nhỏ gọn này thách thức quan niệm mô hình lớn hơn luôn tốt hơn, mở ra hướng đi mới cho các hệ thống AI hiệu quả và đa năng hơn trong lĩnh vực hiểu biết ngôn ngữ-thị giác.
https://www.marktechpost.com/2024/07/12/google-deepmind-unveils-paligemma-a-versatile-3b-vision-language-model-vlm-with-large-scale-ambitions/
• Các mô hình ngôn ngữ mới nhất như GPT-4 và Gemini 1.5 Pro được quảng cáo là "đa phương thức", có khả năng hiểu hình ảnh và âm thanh cũng như văn bản. Tuy nhiên, một nghiên cứu mới cho thấy chúng có thể không thực sự "nhìn thấy" như chúng ta nghĩ.
• Nghiên cứu được thực hiện bởi các nhà khoa học từ Đại học Auburn và Đại học Alberta, kiểm tra các mô hình AI đa phương thức lớn nhất trên một loạt các tác vụ thị giác đơn giản.
• Các tác vụ bao gồm xác định xem hai hình có chồng lên nhau không, đếm số hình ngũ giác trong một hình ảnh, hoặc xác định chữ cái nào trong một từ được khoanh tròn.
• Kết quả cho thấy các mô hình AI gặp khó khăn đáng kể với những tác vụ mà ngay cả học sinh lớp 1 cũng có thể thực hiện chính xác 100%.
• Trong bài kiểm tra hình tròn chồng lên nhau, GPT-4 chỉ đạt độ chính xác 18% khi các hình tròn gần nhau hoặc chạm nhau. Gemini Pro 1.5 thực hiện tốt nhất nhưng vẫn chỉ đạt 7/10 ở khoảng cách gần.
• Khi đếm số vòng tròn đan xen, các mô hình đạt 100% chính xác với 5 vòng, nhưng thêm 1 vòng làm kết quả giảm mạnh. Gemini không thể đưa ra câu trả lời đúng, Sonnet-3.5 chỉ đúng 1/3 số lần, GPT-4 đúng dưới 50% số lần.
• Các nhà nghiên cứu cho rằng điều này cho thấy các mô hình không thực sự "nhìn thấy" theo cách chúng ta hiểu. Thay vào đó, chúng có thể đang so khớp mẫu trong dữ liệu đầu vào với mẫu trong dữ liệu huấn luyện.
• Một lý do có thể là các mô hình nhận dạng tốt hình ảnh 5 vòng tròn vì nó giống logo Olympic - một hình ảnh phổ biến trong dữ liệu huấn luyện. Nhưng chúng gặp khó khăn với 6 hoặc 7 vòng vì những hình ảnh này hiếm gặp hơn.
• Các nhà nghiên cứu cho rằng thông tin thị giác mà các mô hình trích xuất từ hình ảnh có thể chỉ là gần đúng và trừu tượng, như "có một vòng tròn ở bên trái". Chúng không có khả năng đưa ra phán đoán thị giác thực sự.
• Điều này không có nghĩa là các mô hình AI "thị giác" là vô dụng. Chúng vẫn có thể chính xác cao trong việc nhận dạng hành động và biểu cảm của con người, đồ vật và tình huống hàng ngày - những thứ chúng được thiết kế để diễn giải.
• Tuy nhiên, nghiên cứu này cho thấy cần thận trọng khi đánh giá khả năng "nhìn thấy" thực sự của các mô hình AI, bất kể chúng có thể chính xác đến đâu trong một số tác vụ cụ thể.
📌 Nghiên cứu mới cho thấy các mô hình AI "thị giác" gặp khó khăn với các tác vụ thị giác đơn giản nhất. Chúng có thể không thực sự "nhìn thấy" như con người, mà chỉ so khớp mẫu dữ liệu. Điều này đặt ra câu hỏi về bản chất của "thị giác" trong AI và cách chúng ta đánh giá khả năng này.
https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/
• Phenomenal AI, một công ty khởi nghiệp AI của Ấn Độ, đã ra mắt nền tảng chuyển văn bản thành video đầu tiên của nước này, đánh dấu một bước tiến quan trọng trong lĩnh vực sáng tạo nội dung bằng AI.
• Nền tảng này cho phép người dùng tạo ra các video chất lượng cao chỉ bằng cách nhập văn bản, sử dụng công nghệ AI tạo sinh tiên tiến.
• Phenomenal AI được thành lập bởi Devvrat Arya và Apoorv Shankar, hai doanh nhân có kinh nghiệm trong lĩnh vực công nghệ và khởi nghiệp.
• Công ty đã huy động được 1,5 triệu USD trong vòng gọi vốn hạt giống từ các nhà đầu tư như Inflection Point Ventures, Unacademy và Blume Founders Fund.
• Nền tảng này hứa hẹn sẽ cách mạng hóa ngành công nghiệp sáng tạo nội dung và quảng cáo bằng cách giảm đáng kể thời gian và chi phí sản xuất video.
• Phenomenal AI sử dụng các mô hình AI tiên tiến để tạo ra video chất lượng cao, bao gồm cả hình ảnh, âm thanh và chuyển động từ đầu vào văn bản.
• Nền tảng này có thể tạo ra nhiều loại video khác nhau, từ quảng cáo ngắn đến video giáo dục dài hơn, phù hợp với nhiều ngành công nghiệp và ứng dụng.
• Công ty đang nhắm đến thị trường toàn cầu, với kế hoạch mở rộng ra ngoài Ấn Độ trong tương lai gần.
• Phenomenal AI đang tập trung vào việc cải thiện chất lượng video và mở rộng khả năng của nền tảng, bao gồm cả việc tích hợp các tính năng như tùy chỉnh phong cách và tạo nhân vật ảo.
• Sự ra mắt của Phenomenal AI đánh dấu một bước tiến quan trọng trong việc phát triển công nghệ AI tại Ấn Độ, thể hiện tiềm năng của quốc gia này trong lĩnh vực AI tạo sinh.
• Nền tảng này có thể tạo ra tác động đáng kể đến ngành công nghiệp sáng tạo nội dung, cho phép các doanh nghiệp và cá nhân tạo ra nội dung video chất lượng cao với chi phí và thời gian thấp hơn.
• Phenomenal AI đang đối mặt với sự cạnh tranh từ các nền tảng AI tạo sinh khác trên toàn cầu, nhưng vị trí của họ là nền tảng đầu tiên tại Ấn Độ có thể mang lại lợi thế cạnh tranh đáng kể.
• Công ty đang tích cực tìm kiếm các đối tác và khách hàng tiềm năng trong nhiều ngành công nghiệp, từ quảng cáo đến giáo dục và truyền thông.
📌 Phenomenal AI ra mắt nền tảng chuyển văn bản thành video AI đầu tiên tại Ấn Độ, huy động 1,5 triệu USD vốn hạt giống. Công nghệ này hứa hẹn cách mạng hóa ngành sáng tạo nội dung, giảm thời gian và chi phí sản xuất video, mở ra cơ hội mới cho nhiều ngành công nghiệp.
Citations:
[1] https://analyticsindiamag.com/phenomenal-ai-launches-indias-first-text-to-video-ai-platform/
• Microsoft vừa phát triển một công cụ AI tổng hợp giọng nói mới có tên VALL-E 2, được mô tả là "quá thực" đến mức công ty quyết định không công bố rộng rãi.
• Theo bài báo nghiên cứu, VALL-E 2 được cho là hệ thống text-to-speech đầu tiên đạt được "ngang bằng con người" (human parity).
• Công cụ này có khả năng tạo ra giọng nói con người chân thực và đáng tin cậy trực tiếp từ văn bản đầu vào.
• Microsoft khẳng định họ không có kế hoạch tích hợp VALL-E 2 vào bất kỳ sản phẩm nào hoặc mở rộng quyền truy cập cho công chúng.
• Trang web của Microsoft nêu rõ đây chỉ là "để trình diễn nghiên cứu" và hiện tại không có kế hoạch phát hành rộng rãi.
• Không có mẫu âm thanh nào được công bố, nên công chúng không thể đánh giá chất lượng thực tế của VALL-E 2.
• Bài đăng trên blog của Microsoft cung cấp nhiều biểu đồ và thuật ngữ kỹ thuật để minh họa cho công nghệ này.
• Các nhà nghiên cứu cho rằng nếu VALL-E 2 thực sự tốt như họ mô tả, có lẽ việc không công bố rộng rãi là quyết định đúng đắn.
• Đây không phải lần đầu tiên Microsoft phát triển công nghệ AI gây tranh cãi. Trước đó, họ đã phải đóng cửa chatbot Tay vì phát ngôn gây sốc.
• Quyết định không công bố VALL-E 2 cho thấy Microsoft đang thận trọng hơn trong việc phát triển và triển khai các công nghệ AI tiên tiến.
• Việc giữ bí mật về VALL-E 2 cũng đặt ra câu hỏi về tính minh bạch trong nghiên cứu AI và trách nhiệm của các công ty công nghệ lớn.
📌 Microsoft phát triển AI tổng hợp giọng nói VALL-E 2 đạt "ngang bằng con người" nhưng quyết định không công bố vì quá nguy hiểm. Quyết định này thể hiện sự thận trọng của công ty trong phát triển AI tiên tiến, đồng thời đặt ra vấn đề về tính minh bạch trong nghiên cứu AI.
https://sea.mashable.com/tech/33381/microsoft-made-an-ai-voice-so-real-its-too-dangerous-to-release
• Runway đã công bố mô hình AI video Gen-3 Alpha có thể tạo ra các video siêu thực từ văn bản, hình ảnh hoặc video.
• Gen-3 Alpha cho phép người dùng tạo ra các video AI chất lượng cao và có thể kiểm soát được để phục vụ nhiều mục đích sáng tạo khác nhau, bao gồm cả quảng cáo.
• Tuy nhiên, khác với các mô hình Gen-1 và Gen-2 trước đó, Gen-3 Alpha không miễn phí. Người dùng sẽ phải nâng cấp lên gói trả phí của Runway, với giá khởi điểm là 12 USD/tháng cho mỗi biên tập viên, thanh toán theo năm.
• Gen-3 Alpha được đào tạo trên các video và hình ảnh được chú thích với các mô tả chi tiết. Nó cho phép tạo ra các đoạn video siêu thực với các chuyển cảnh sáng tạo, keyframe chính xác và nhân vật con người biểu cảm với nhiều hành động, cử chỉ và cảm xúc đa dạng.
• Mô hình mới này là một bước tiến lớn so với Gen-1 và Gen-2 về tốc độ, độ trung thực, tính nhất quán và chuyển động.
• Ban đầu, Gen-3 Alpha sẽ hỗ trợ chế độ text-to-video, cho phép người dùng biến ý tưởng thành video bằng các câu lệnh ngôn ngữ tự nhiên. Trong tương lai, nó dự kiến sẽ hỗ trợ các chế độ khác như image-to-video và video-to-video.
• Mỗi video được tạo ra bởi mô hình có thể dài tối đa 10 giây, với tốc độ tạo video thay đổi tùy theo độ dài. Đây là thời lượng tốt hơn so với hầu hết các mô hình AI video khác, nhưng vẫn ngắn hơn so với Sora của OpenAI (hứa hẹn tạo video dài 1 phút).
• Gen-3 Alpha được mô tả là "mô hình đầu tiên trong một loạt mô hình sắp tới" được đào tạo trên cơ sở hạ tầng mới xây dựng cho việc đào tạo đa phương thức quy mô lớn.
• Runway coi đây là một bước tiến tới việc xây dựng "Mô hình Thế giới Tổng quát" có thể "đại diện và mô phỏng một loạt các tình huống và tương tác, giống như những gì gặp phải trong thế giới thực".
📌 Runway ra mắt mô hình AI video Gen-3 Alpha có khả năng tạo video siêu thực dài tới 10 giây. Mô hình này yêu cầu gói trả phí từ 12 USD/tháng, hứa hẹn cải thiện trong tương lai và là bước đầu hướng tới xây dựng Mô hình Thế giới Tổng quát.
https://venturebeat.com/ai/runways-gen-3-alpha-ai-video-model-now-available-but-theres-a-catch/
• YouTube đang đề nghị trả tiền cho các hãng thu âm lớn như Universal Music Group, Sony Music và Warner Records để được phép sử dụng bài hát của họ huấn luyện công cụ AI tạo nhạc.
• Mục đích là để phát triển các công cụ AI mới dự kiến ra mắt cuối năm nay, không phải mở rộng tính năng Dream Track hiện tại.
• YouTube muốn có giấy phép từ "hàng chục" nghệ sĩ, nhưng chưa tiết lộ mức phí cụ thể. Có thể là khoản thanh toán một lần thay vì chia sẻ doanh thu.
• Động thái này diễn ra sau khi YouTube ra mắt tính năng AI tạo nhạc theo phong cách của các nghệ sĩ nổi tiếng như Charli XCX, John Legend và T-Pain vào năm ngoái.
• Các hãng thu âm và nghệ sĩ có thể sẽ khó bị thuyết phục. Sony Music đã cảnh báo các công ty AI không được sử dụng nội dung trái phép. UMG từng gỡ toàn bộ danh mục nhạc khỏi TikTok do tranh chấp về nhạc AI.
• Hơn 200 nghệ sĩ như Billie Eilish, Pearl Jam, Katy Perry đã kêu gọi các công ty công nghệ ngừng sử dụng AI xâm phạm quyền của nghệ sĩ.
• Hiệp hội Công nghiệp Ghi âm Mỹ (RIAA) vừa kiện hai công ty AI tạo nhạc hàng đầu là Suno và Udio vì vi phạm bản quyền, đòi bồi thường tới 150.000 USD cho mỗi vi phạm.
• YouTube đang áp dụng cách tiếp cận "xin phép trước" để tránh các vụ kiện tụng như vậy.
• Việc này cho thấy xu hướng các nền tảng lớn muốn hợp pháp hóa việc sử dụng AI trong âm nhạc, thay vì đối đầu với ngành công nghiệp âm nhạc.
• Tuy nhiên, vẫn còn nhiều thách thức về mặt pháp lý và đạo đức cần giải quyết trước khi AI tạo nhạc được chấp nhận rộng rãi.
📌 YouTube đang đi đầu trong việc hợp pháp hóa AI tạo nhạc bằng cách đàm phán trực tiếp với các hãng thu âm lớn. Động thái này có thể mở ra kỷ nguyên mới cho công nghệ AI trong âm nhạc, nhưng vẫn còn nhiều tranh cãi về quyền tác giả và tác động đến nghệ sĩ.
https://www.theverge.com/2024/6/27/24187151/youtube-ai-music-deals-licensing-record-labels-sony-umg-warner
• Synthesia, startup có trụ sở tại London, vừa công bố bản cập nhật lớn cho nền tảng tạo video AI chuyên nghiệp của mình, được gọi là Synthesia 2.0.
• Bản cập nhật giới thiệu nhiều tính năng mới quan trọng:
- Avatar toàn thân có khả năng thực hiện nhiều chuyển động
- Trải nghiệm video tương tác cho phép người dùng tạo video AI với các yếu tố tương tác như lịch hoặc biểu mẫu
- Trình ghi màn hình AI mới giúp đơn giản hóa việc tạo video hướng dẫn
• Không phải tất cả tính năng sẽ ra mắt ngay lập tức. Một số sẽ được triển khai vào tháng tới, số khác sẽ được giới thiệu trong những tháng tới.
• Synthesia được thành lập năm 2017 bởi các nhà nghiên cứu AI và doanh nhân từ Stanford, Đại học Kỹ thuật Munich và Cambridge.
• Hiện nay, Synthesia đã được hơn 55.000 doanh nghiệp sử dụng, bao gồm Zoom, Dupont, Heineken và Electrolux.
• Avatar AI mới của Synthesia có khả năng hiểu ngữ cảnh và cảm xúc trong văn bản, thay đổi giọng điệu và biểu cảm khuôn mặt phù hợp.
• Avatar toàn thân mới sẽ có phạm vi chuyển động rộng hơn, bao gồm cả ngôn ngữ cơ thể và cử chỉ tay.
• Người dùng có thể tạo avatar cá nhân bằng webcam hoặc camera điện thoại với nền tự nhiên, đồng bộ môi tốt hơn và giọng nói tự nhiên hơn.
• Trình phát video tương tác mới cho phép tích hợp các điểm nhấp chuột, người xem có thể tương tác như điền biểu mẫu, mở lịch/câu đỏi hoặc chuyển đến phần video mong muốn.
• Trình ghi màn hình AI sẽ tự động tạo video AI chuyên nghiệp từ bản ghi màn hình, bao gồm âm thanh và phụ đề.
• Các cải tiến khác bao gồm:
- Thêm bộ nhận diện thương hiệu
- Tạo nội dung hàng loạt bằng trợ lý video AI
- Khả năng cộng tác cho nhiều người dùng
- Trải nghiệm dịch một cú nhấp chuột được cải thiện
• Synthesia cạnh tranh với các công ty khác trong lĩnh vực này như Deepbrain AI, Rephrase và HeyGen.
📌 Synthesia 2.0 mang đến cuộc cách mạng trong truyền thông doanh nghiệp với video AI tương tác và avatar toàn thân. Với hơn 55.000 doanh nghiệp đã áp dụng, bao gồm các tên tuổi lớn như Zoom và Heineken, Synthesia đang dẫn đầu xu hướng chuyển đổi từ nội dung văn bản sang video hấp dẫn hơn.
https://venturebeat.com/ai/synthesia-announces-platform-update-with-interactive-ai-videos-full-body-avatars/
- Các hãng thu âm lớn như Universal Music Group (UMG), Sony Music Entertainment và Warner Music Group đã cùng nhau khởi kiện các công ty tạo nhạc AI Suno và Udio vì cáo buộc vi phạm bản quyền.
- Cả Suno và Udio đều cho phép người dùng viết lời nhắc để tạo ra các đoạn âm thanh. Các vụ kiện cáo buộc cả hai công ty sao chép các bài hát và bản ghi âm mà không được sự cho phép của các hãng thu âm và cuối cùng phân phối các phiên bản tương tự.
- UMG, Sony và Atlantic Records cáo buộc Suno đã huấn luyện các mô hình AI bằng cách tải xuống phiên bản kỹ thuật số của một bài hát và sau đó tạo ra âm nhạc có âm thanh tương tự. Ví dụ, Suno đã tạo ra "29 đầu ra khác nhau chứa phong cách của Johnny B. Goode", một bài hát thuộc sở hữu của UMG.
- Các hãng thu âm cũng cáo buộc Suno tái tạo các đặc điểm của một số nghệ sĩ nhất định, chẳng hạn như ca sĩ Jason Derulo, người có thương hiệu là hát tên của mình ở đầu các bài hát.
- Các cáo buộc tương tự cũng được đưa ra chống lại Udio. Đơn kiện chống lại Udio cũng cáo buộc nền tảng này đã tạo điều kiện cho mọi người dễ dàng phân phối các mẫu nhạc tương tự như các bản ghi âm có bản quyền trên các nền tảng thương mại như Spotify.
- Udio trở nên phổ biến sau khi nhà sản xuất Metro Boomin sử dụng nó để tạo ra một bản nhạc AI mà anh ấy gọi là "BBL Drizzy", được phân phối miễn phí như một phần của cuộc tranh chấp đang diễn ra với đối thủ Drake (Aubrey Graham).
- Các nền tảng như Suno và Udio đã trở nên phổ biến hơn gần đây khi một số công ty bắt đầu thử nghiệm các ứng dụng tạo nhạc AI tiên tiến. Ví dụ: MusicFX của Google, Audiobox AI của Meta, và ElevenLabs gần đây đã giới thiệu một nền tảng tạo nhạc.
- Sự gia tăng của các nền tảng AI âm nhạc và giọng nói đã thúc đẩy các nhà lập pháp đề xuất luật bảo vệ hình ảnh của nghệ sĩ khỏi bị sao chép.
📌 Các vụ kiện đồng thời chống lại Suno và Udio đánh dấu một làn sóng pháp lý mới nhất của các hãng thu âm lớn nhằm vào các công ty AI. Họ cáo buộc các nền tảng này sao chép và phân phối trái phép các bài hát, ghi âm có bản quyền để huấn luyện mô hình. Sự phổ biến ngày càng tăng của công nghệ tạo nhạc AI đã thúc đẩy các nhà lập pháp đề xuất luật bảo vệ quyền của nghệ sĩ.
https://venturebeat.com/ai/record-labels-sue-ai-music-generator-startups-suno-udio-for-copyright-infringement/
- Instagram tự động gắn nhãn "Made with AI" cho bất kỳ bức ảnh nào được chỉnh sửa bằng công cụ trí tuệ nhân tạo (AI).
- Tác giả sử dụng AI để xóa một điểm sáng nhỏ ở góc ảnh chụp nhiếp ảnh gia nổi tiếng Louis Mendes, và Instagram đã gắn nhãn "Made with AI" cho bức ảnh này.
- Theo tác giả, việc gắn nhãn này gây hiểu lầm rằng toàn bộ bức ảnh được tạo ra bởi AI, trong khi thực tế AI chỉ được sử dụng như một công cụ chỉnh sửa nhỏ, tương tự như các công cụ chỉnh sửa khác trong Photoshop.
- Việc gắn nhãn "Made with AI" một cách rộng rãi có thể gây ảnh hưởng tiêu cực đến công việc chỉnh sửa ảnh nói chung.
- Tác giả đưa ra ví dụ về việc sử dụng AI để xóa biển số xe ô tô, cho rằng đây chỉ là công việc chỉnh sửa bình thường và không nên bị gắn nhãn "Made with AI".
- Có sự không nhất quán trong cách Instagram áp dụng nhãn "Made with AI", ví dụ như khi tải ảnh lên từ trình duyệt web trên máy tính, nhãn này không xuất hiện.
- Tác giả cho rằng Meta, công ty mẹ của Instagram, không nên tự đặt mình làm trọng tài trong việc áp dụng nhãn "Made with AI", vì điều này có thể gây bất lợi cho những người sử dụng AI một cách có trách nhiệm.
- Nhiếp ảnh gia và người làm sáng tạo cần cân nhắc về tác động của nhãn "Made with AI" đối với công việc của họ, đặc biệt là trong lĩnh vực chụp ảnh sự kiện và xử lý các vấn đề nhạy cảm trên mạng xã hội.
📌 Instagram đang gây tranh cãi khi tự động gắn nhãn "Made with AI" cho mọi bức ảnh được chỉnh sửa bằng AI. Cách tiếp cận thiếu tinh tế này có thể gây hiệu ứng tiêu cực đối với giới nhiếp ảnh và sáng tạo, đặc biệt khi AI chỉ được sử dụng cho các chỉnh sửa nhỏ. Meta cần xem xét lại chính sách gắn nhãn để tránh gây bất lợi cho người dùng có trách nhiệm.
https://fstoppers.com/artificial-intelligence/instagrams-ham-fisted-approach-labeling-photos-ai-bad-creatives-670231
- TikTok ra mắt tính năng Symphony Avatars cho phép doanh nghiệp và thương hiệu tạo quảng cáo tùy chỉnh hoàn toàn bằng AI tạo sinh.
- Một phóng viên CNN phát hiện tính năng liên quan Symphony Assistant không có biện pháp bảo vệ hay kiểm duyệt, đồng thời video được tạo ra không có thủy vân.
- TikTok đã khắc phục sự cố, cho rằng đó là lỗi kỹ thuật và khẳng định video độc hại sẽ không xuất hiện trên nền tảng do chính sách nội dung nghiêm ngặt.
- Phóng viên CNN Jon Sarlin truy cập Symphony Assistant bằng tài khoản cá nhân và tạo video về bất kỳ chủ đề nào chỉ bằng cách chọn avatar và nhập kịch bản.
- Các video được tạo ra trông thuyết phục, không có thủy vân, có thể khiến người dùng TikTok nhầm tưởng nếu được đăng tải.
- TikTok gọi đây là "lỗi kỹ thuật" do đẩy nhầm phiên bản thử nghiệm nội bộ của công cụ AI cho tất cả người dùng.
- Đây không phải lần đầu TikTok thử nghiệm AI và công ty sẽ tiếp tục thử nghiệm các tính năng AI mới với các biện pháp bảo vệ trước khi ra mắt công khai.
📌 Sự cố cho thấy TikTok cần thận trọng hơn khi thử nghiệm các tính năng AI, đặc biệt khi nền tảng đang đối mặt với nỗ lực cấm tại Mỹ. Tuy nhiên, công ty đã nhanh chóng khắc phục lỗi kỹ thuật và khẳng định các video độc hại sẽ không xuất hiện do chính sách nội dung nghiêm ngặt.
https://www.androidpolice.com/tiktok-symphony-avatars-generative-ai-controversy/
- Leonardo AI vừa ra mắt mô hình mới Leonardo Phoenix với nhiều cải tiến về độ tuân thủ prompt, chất lượng ảnh, khả năng tạo văn bản rõ ràng trong ảnh.
- Bài viết so sánh Leonardo Phoenix với mô hình của Ideogram, một công cụ tạo ảnh AI nổi tiếng khác, về các khía cạnh:
• Diễn giải phong cách nghệ thuật và tuân thủ prompt: Leonardo đạt điểm cao hơn.
• Tính chân thực của ảnh chân dung: Ideogram cho kết quả tốt hơn.
• Tính năng chỉnh sửa ảnh bằng AI, xóa nền, nâng cấp độ phân giải, tạo hoạt họa: chỉ có ở Leonardo.
• Tốc độ tạo ảnh nhanh hơn và hỗ trợ nhiều mô hình đa dạng hơn: ưu thế của Leonardo.
• Giao diện đơn giản, tối ưu cho người dùng cơ bản: điểm mạnh của Ideogram.
- Tác giả kết luận rằng với người dùng chuyên nghiệp và sẵn sàng trả phí, Leonardo là lựa chọn hấp dẫn hơn nhờ bộ tính năng phong phú. Còn với người dùng thông thường chỉ cần tạo ảnh đẹp nhanh chóng, Ideogram phù hợp hơn.
- Mặc dù Ideogram đôi khi cho ảnh chất lượng cao hơn, nhưng nhìn chung Leonardo với mô hình Phoenix mới đã vượt lên dẫn đầu nhờ tính năng vượt trội.
📌 Leonardo Phoenix với các cải tiến về độ tuân thủ prompt, chất lượng ảnh, tính năng chỉnh sửa đã vượt qua Ideogram để trở thành công cụ tạo ảnh AI tốt nhất hiện nay, dù Ideogram vẫn có ưu thế về giao diện tối giản và phù hợp hơn với người dùng cơ bản.
https://decrypt.co/236173/leonardo-ideogram-ai-image-generator-comparison
- OpenAI dường như đã cải tiến công cụ tạo ảnh DALL-E 3, đặc biệt về khả năng tạo văn bản. DALL-E 3 giờ đây tạo ra các đoạn văn bản dài chính xác hơn.
- Mặc dù OpenAI giới thiệu mô hình đa phương thức GPT-4o với khả năng tạo ảnh nâng cao, công ty vẫn tiếp tục cải tiến DALL-E 3.
- So sánh DALL-E 3 với Midjourney, Ideogram và các ví dụ từ GPT-4o cho thấy GPT-4o dường như vượt trội hơn hẳn về khả năng hiểu prompt và tạo văn bản, bất chấp những cải tiến của DALL-E 3 và các công cụ tạo ảnh khác.
- Với một bài thơ viết tay trong nhật ký, DALL-E 3 làm tốt hơn Midjourney và Ideogram trong việc minh họa, nhưng vẫn chỉ tái tạo một phần văn bản mong muốn một cách chính xác. GPT-4o rõ ràng dẫn đầu ở đây.
- Với góc nhìn thứ nhất của robot nhắn tin, DALL-E 3 chính xác nhất trong việc thực hiện góc nhìn yêu cầu và văn bản có thể đọc được một phần, nhưng vẫn còn cách xa mức độ của GPT-4o.
- Với việc xếp chồng các khối lập phương có màu sắc và chữ cái khác nhau, Midjourney và Ideogram hoàn thành tốt nhiệm vụ, trong khi DALL-E 3 thậm chí không hình dung đúng số lượng khối.
- Sẽ rất thú vị để xem liệu OpenAI có tiếp tục phát triển DALL-E hay không. Về chất lượng, GPT-4o hoàn toàn có thể thay thế mô hình tạo ảnh chuyên biệt này.
- Xu hướng các mô hình đa phương thức lớn vượt trội hơn các mô hình chuyên biệt trong từng lĩnh vực (âm thanh, video, hình ảnh) có thể mang lại lợi thế cho các công ty lớn như Google, Microsoft và OpenAI - những đơn vị có đủ nguồn lực để phát triển và triển khai các mô hình đa phương thức lớn nhất.
📌 OpenAI đã cải tiến đáng kể DALL-E 3, đặc biệt về khả năng tạo văn bản. Tuy nhiên, khi so sánh với Midjourney, Ideogram và GPT-4o, mô hình đa phương thức mới của OpenAI vẫn cho thấy sự vượt trội vượt bậc trong việc hiểu prompt và tạo ảnh chính xác. Điều này cho thấy xu hướng các mô hình đa phương thức lớn có thể thay thế các mô hình chuyên biệt, mang lại lợi thế cho các công ty công nghệ khổng lồ.
https://the-decoder.com/openai-upgrades-dall-e-3-instead-of-rolling-out-gpt-4os-much-better-imaging-capabilities/
- Meta công bố phát hành công khai họ mô hình AI mới có tên Chameleon, tương đương với các công cụ thương mại như Gemini Pro và GPT-4V.
- Chameleon có phiên bản 7 tỷ và 34 tỷ tham số, có khả năng hiểu và tạo ra hình ảnh và văn bản.
- Chameleon có thể xử lý kết hợp văn bản và hình ảnh (có thể liên quan với nhau) và tạo ra phản hồi có ý nghĩa.
- Ví dụ, bạn có thể chụp ảnh nội dung tủ lạnh và hỏi Chameleon món ăn nào có thể nấu chỉ với nguyên liệu sẵn có.
- Điều này không thể thực hiện được với thế hệ mô hình AI Llama, đưa nguồn mở đến gần hơn với các mô hình thị giác chính thống nổi tiếng hơn từ OpenAI và Google.
- Nhóm nghiên cứu Fundamental AI Research (FAIR) tại Meta đã phát hành công khai mô hình này cho mục đích nghiên cứu, tuy nhiên có một số hạn chế.
- Chìa khóa thành công của Chameleon là kiến trúc hoàn toàn dựa trên token. Mô hình học cách lý luận về hình ảnh và văn bản một cách liên kết.
- Các thách thức kỹ thuật mà nhóm Meta phải vượt qua bao gồm những vấn đề liên quan đến tính ổn định tối ưu hóa và mở rộng quy mô, bằng cách sử dụng các phương pháp và kỹ thuật đào tạo mới.
- Người dùng có thể yêu cầu Chameleon tạo lịch trình trải nghiệm ngày hạ chí và mô hình AI sẽ cung cấp hình ảnh liên quan kèm theo văn bản tạo ra.
- Theo đánh giá của con người, Chameleon tương đương hoặc vượt trội hơn các mô hình như Gemini Pro và GPT-4V khi lời nhắc hoặc đầu ra chứa chuỗi hỗn hợp cả hình ảnh và văn bản.
- Phiên bản Chameleon được phát hành công khai chỉ có thể tạo ra văn bản đầu ra và mức độ an toàn được tăng cường có chủ đích.
- Đối với các nhà nghiên cứu, Chameleon là nguồn cảm hứng cho các cách thay thế để đào tạo và thiết kế mô hình AI.
📌 Chameleon của Meta là bước tiến đáng kể trong AI mã nguồn mở, với khả năng xử lý linh hoạt cả hình ảnh và văn bản, tương đương các mô hình thương mại như Gemini Pro, GPT-4V. Kiến trúc dựa trên token và các kỹ thuật đào tạo mới giúp Chameleon vượt qua thách thức tối ưu hóa, mở rộng quy mô. Phiên bản công khai hiện chỉ tạo văn bản đầu ra, nhưng đã tiến bộ đáng kể so với 5 tháng trước.
https://www.tomsguide.com/ai/meta-just-dropped-an-open-source-gpt-4o-style-model-heres-what-it-means
- Universal Music Group (UMG) đã công bố hợp tác với startup công nghệ âm nhạc AI SoundLabs vào ngày 18 tháng 6 năm 2024.
- Thỏa thuận này sẽ cho phép các nghệ sĩ và nhà sản xuất âm nhạc của UMG sử dụng tính năng MicDrop của SoundLabs để tạo mô hình giọng nói của riêng họ từ dữ liệu mà họ cung cấp.
- Các nghệ sĩ sẽ có quyền kiểm soát sở hữu và sử dụng các mô hình giọng nói này, và các bản sao giọng nói sẽ không được công khai cho công chúng.
- MicDrop không chỉ tạo bản sao giọng nói mà còn cung cấp chức năng chuyển đổi giọng nói thành nhạc cụ và chuyển đổi ngôn ngữ, giúp nghệ sĩ phát hành bài hát trên toàn thế giới mà không gặp rào cản ngôn ngữ.
- Các bản sao giọng nói AI đã trở thành một trong những ứng dụng nổi tiếng và gây tranh cãi nhất của trí tuệ nhân tạo trong ngành âm nhạc.
- Năm ngoái, một nhạc sĩ ẩn danh tên Ghostwriter đã gây sốt với bài hát "Heart On My Sleeve" sử dụng giọng hát AI của Drake và The Weeknd, nhưng bài hát đã bị gỡ bỏ sau áp lực từ UMG.
- Drake cũng đã gặp rắc rối với việc sử dụng bản sao giọng nói của Tupac trong bài hát "Taylor Made Freestyle," dẫn đến việc bị yêu cầu ngừng sử dụng từ gia đình Tupac.
- Ngành công nghiệp âm nhạc đang thận trọng nhưng cũng quan tâm đến việc sử dụng công cụ âm nhạc AI, miễn là chúng được sử dụng một cách đạo đức và tôn trọng bản quyền của nghệ sĩ.
- UMG đã công bố các Nguyên tắc Sáng tạo Âm nhạc Với AI cùng với nhà sản xuất nhạc cụ Roland để định nghĩa rõ ràng việc sử dụng AI trong âm nhạc.
- RIAA cũng đã giới thiệu Chiến dịch Nghệ thuật Con người, ủng hộ cách tiếp cận tương tự đối với AI.
- Ví dụ rõ ràng nhất về triết lý của các hãng thu âm là bài hát "Where That Came From" của Randy Travis, sử dụng giọng hát của James Dupré để tái hiện giọng của Travis sau khi ông mất khả năng hát do đột quỵ.
- SoundLabs được thành lập bởi nhà soạn nhạc điện tử và nhà phát triển phần mềm BT, người đã làm việc với nhiều nghệ sĩ nổi tiếng như Madonna, Death Cab for Cutie, Sting và David Bowie.
- BT và UMG nhấn mạnh tầm quan trọng của việc sử dụng AI một cách đạo đức trong thông báo của họ.
- Chris Horton, Phó Chủ tịch Cấp cao về Công nghệ Chiến lược của UMG, cho biết: "UMG luôn đặt nghệ sĩ ở trung tâm của chiến lược AI của chúng tôi, để công nghệ phục vụ nghệ thuật."
📌 Universal Music Group hợp tác với SoundLabs để cung cấp công nghệ mô hình giọng nói AI cho nghệ sĩ, giúp họ tạo bản sao giọng nói và vượt qua rào cản ngôn ngữ. Thỏa thuận này nhấn mạnh tầm quan trọng của việc sử dụng AI một cách đạo đức và tôn trọng bản quyền nghệ sĩ.
stone.com/music/music-news/umg-startsai-voice-clone-partnership-with-soundlabs-1235041808/
- SKETCHPAD là framework mới giúp các mô hình ngôn ngữ đa phương thức (LMs) sử dụng bảng phác thảo trực quan và công cụ vẽ để lập luận giống con người.
- Các phương pháp hiện tại như mô hình chuyển văn bản thành hình ảnh còn hạn chế do không cho phép tương tác động, có độ phức tạp tính toán cao và thiếu linh hoạt trong việc tích hợp các mô hình thị giác chuyên biệt.
- SKETCHPAD cho phép LMs vẽ đường, hộp và dấu, tạo điều kiện cho quá trình lập luận gần với phác thảo của con người hơn. Nó có thể tích hợp các mô hình thị giác chuyên biệt để cải thiện nhận thức và lập luận trực quan.
- Framework hoạt động bằng cách tổng hợp các chương trình tạo phác thảo trực quan làm các bước lập luận trung gian. Nó sử dụng các gói Python phổ biến và tích hợp các mô hình thị giác chuyên biệt.
- Các thử nghiệm cho thấy SKETCHPAD cải thiện đáng kể hiệu suất trên nhiều tác vụ như hình học, thuật toán đồ thị và lập luận trực quan phức tạp. Ví dụ, nó cải thiện độ chính xác từ 37.5% lên 45.8% trên các tác vụ hình học sử dụng GPT-4 Turbo.
📌 SKETCHPAD là framework đột phá giúp cải thiện đáng kể khả năng lập luận của các mô hình ngôn ngữ đa phương thức bằng cách tích hợp công cụ phác thảo trực quan. Giải pháp mới này vượt qua các hạn chế quan trọng của các phương pháp hiện có, mang lại cách tiếp cận hiệu quả và chính xác hơn cho lập luận trực quan, với mức tăng hiệu suất lên tới 12.7% trên các tác vụ toán học và 8.6% trên các tác vụ thị giác.
https://www.marktechpost.com/2024/06/17/sketchpad-an-ai-framework-that-gives-multimodal-language-models-lms-a-visual-sketchpad-and-tools-to-draw-on-the-sketchpad/
- DenseAV là một mô hình AI có thể học ý nghĩa của từ và vị trí âm thanh mà không cần dữ liệu có nhãn, chỉ bằng cách xem video.
- Nó sử dụng học tương phản audio-video để liên kết âm thanh cụ thể với thế giới quan sát được.
- DenseAV so sánh cặp tín hiệu âm thanh và hình ảnh, xác định dữ liệu quan trọng và đánh giá tín hiệu nào khớp.
- Ý tưởng này đến với Mark Hamilton, một nghiên cứu sinh tiến sĩ tại MIT, khi xem cảnh chim cánh cụt ngã trong phim "March of the Penguins".
- Mục tiêu là để mô hình học ngôn ngữ bằng cách dự đoán những gì nó thấy từ những gì nó nghe và ngược lại.
- Các nhà nghiên cứu tập trung vào các điểm ảnh mà mô hình nhìn vào khi nghe thấy âm thanh cụ thể để khám phá ý nghĩa của từ.
- DenseAV được trang bị "bộ não hai bên", một bên tập trung vào ngôn ngữ và bên kia tập trung vào âm thanh như tiếng mèo kêu.
- Lượng lớn nội dung video sẵn có có nghĩa là AI có thể được đào tạo trên các video hướng dẫn.
- Ứng dụng thú vị khác là hiểu ngôn ngữ mới, như giao tiếp của cá heo hoặc cá voi.
- Bước tiếp theo là tạo ra các hệ thống có thể học từ dữ liệu chỉ video hoặc chỉ âm thanh.
📌 DenseAV đại diện cho một bước tiến quan trọng trong AI, cho thấy khả năng học ngôn ngữ và âm thanh chỉ từ video mà không cần sự can thiệp của con người. Điều này mở ra nhiều ứng dụng tiềm năng như đào tạo AI trên video hướng dẫn và thậm chí hiểu các dạng giao tiếp mới của động vật.
https://www.tomsguide.com/ai/this-ai-model-is-learning-to-speak-by-watching-videos-heres-how
- DeepMind, phòng thí nghiệm trí tuệ nhân tạo của Google, đang phát triển công nghệ mới có thể tạo ra âm thanh, thậm chí cả lời thoại, để đi kèm với video.
- Công nghệ video-to-audio (V2A) này có thể kết hợp với các công cụ tạo video như Google Veo và OpenAI's Sora.
- Hệ thống có thể hiểu các pixel thô và kết hợp thông tin đó với lời nhắc văn bản để tạo hiệu ứng âm thanh cho những gì đang diễn ra trên màn hình.
- Công cụ này cũng có thể được sử dụng để tạo nhạc nền cho các đoạn phim truyền thống, chẳng hạn như phim câm và bất kỳ video nào khác không có âm thanh.
- Các nhà nghiên cứu của DeepMind đã huấn luyện công nghệ này trên các video, âm thanh và chú thích do AI tạo ra, chứa các mô tả chi tiết về âm thanh và bản ghi lời thoại.
- Bằng cách này, công nghệ đã học cách liên kết các âm thanh cụ thể với các cảnh trực quan.
- Mặc dù lời nhắc văn bản là tùy chọn, nhưng nó có thể được sử dụng để định hình và tinh chỉnh sản phẩm cuối cùng sao cho chính xác và thực tế nhất có thể.
- Bạn có thể nhập các lời nhắc tích cực để định hướng đầu ra tạo ra âm thanh bạn muốn hoặc các lời nhắc tiêu cực để tránh xa âm thanh bạn không muốn.
- Các nhà nghiên cứu thừa nhận rằng họ vẫn đang cố gắng giải quyết các hạn chế hiện tại của công nghệ V2A, chẳng hạn như sự suy giảm chất lượng âm thanh đầu ra có thể xảy ra nếu có méo mó trong video nguồn.
- Họ cũng đang cố gắng cải thiện đồng bộ hóa môi cho lời thoại được tạo ra.
- Ngoài ra, họ cam kết sẽ đưa công nghệ này qua các đánh giá an toàn và thử nghiệm nghiêm ngặt trước khi phát hành ra thế giới.
📌 DeepMind của Google đang phát triển công nghệ AI mới có thể tạo âm thanh và lời thoại cho video, kết hợp được với các công cụ tạo video AI. Công nghệ này hiểu được pixel và lời nhắc văn bản để tạo hiệu ứng âm thanh chính xác, thực tế. Tuy nhiên, vẫn cần cải thiện chất lượng và đồng bộ hóa, đồng thời phải qua đánh giá an toàn nghiêm ngặt trước khi phát hành.
https://www.engadget.com/google-deepminds-new-ai-tech-will-generate-soundtracks-for-videos-113100908.html
- Runway ML, một startup tại New York, đã ra mắt Gen-3 Alpha, mô hình video AI siêu thực mới nhất, cho phép tạo ra các đoạn video dài 10 giây với độ chính xác cao và biểu cảm phong phú.
- Gen-3 Alpha là bước tiến mới trong loạt mô hình được Runway huấn luyện trên hạ tầng mới, hướng tới xây dựng các mô hình AI có thể mô phỏng nhiều tình huống và tương tác trong thế giới thực.
- Mô hình này hỗ trợ các chế độ tạo video từ văn bản, hình ảnh và video, cùng với một số chế độ mới chỉ có thể thực hiện với mô hình cơ sở mạnh mẽ hơn.
- Runway chưa công bố ngày phát hành chính xác của Gen-3 Alpha và cũng chưa rõ liệu mô hình này sẽ có sẵn trong gói miễn phí hay yêu cầu đăng ký trả phí (bắt đầu từ 15 USD mỗi tháng hoặc 144 USD mỗi năm).
- CTO của Runway, Anastasis Germanidis, cho biết Gen-3 Alpha sẽ sớm có mặt trong sản phẩm của Runway và sẽ cung cấp sức mạnh cho tất cả các chế độ hiện có.
- Runway đã học được rằng các mô hình khuếch tán video vẫn chưa đạt đến giới hạn hiệu suất từ việc mở rộng quy mô và những mô hình này xây dựng các biểu diễn mạnh mẽ của thế giới hình ảnh.
- Gen-3 Alpha được huấn luyện chung trên video và hình ảnh, là kết quả của sự hợp tác từ đội ngũ các nhà khoa học nghiên cứu, kỹ sư và nghệ sĩ.
- Runway đã hợp tác với các tổ chức giải trí và truyền thông hàng đầu để tạo ra các phiên bản tùy chỉnh của Gen-3, cho phép kiểm soát phong cách và nhân vật một cách nhất quán, đáp ứng các yêu cầu nghệ thuật và kể chuyện cụ thể.
- Các nhà làm phim của các bộ phim nổi tiếng như Everything, Everywhere, All at Once và The People’s Joker đã sử dụng Runway để tạo hiệu ứng cho các phần của phim.
- Runway mời các tổ chức quan tâm đến việc có phiên bản tùy chỉnh của mô hình mới để đăng ký thông qua một biểu mẫu trong thông báo của họ.
- Chưa có giá công khai cho việc huấn luyện mô hình tùy chỉnh.
📌 Runway ML ra mắt Gen-3 Alpha, mô hình video AI siêu thực mới, tạo ra các đoạn video dài 10 giây với độ chính xác cao và biểu cảm phong phú. Mô hình này hỗ trợ nhiều chế độ tạo video và đã hợp tác với các tổ chức giải trí hàng đầu.
https://venturebeat.com/ai/runway-unveils-new-hyper-realistic-ai-video-model-gen-3-alpha-capable-of-10-second-long-clips/
- Suno và Udio là hai công cụ tạo nhạc AI hàng đầu năm 2024. Suno vượt trội hơn về chất lượng âm thanh, cấu trúc bài hát và sắp xếp nhạc cụ.
- Udio có chất lượng âm thanh kém hơn, với nhiều méo mó rõ rệt. Cấu trúc bài hát đôi khi không hợp lý.
- Suno tạo ra bài hát chất lượng tốt, gần như không có khuyết điểm. Tuy nhiên vẫn còn một chút méo mó ở giọng hát và nhạc cụ.
- Lời bài hát do Suno tạo ra khá tẻ nhạt và vô hồn. Khi thử với prompt sâu sắc hơn, lời bài hát có phần trau chuốt và mang chủ đề sâu sắc hơn.
- Theo David Cope, người tiên phong trong lĩnh vực tạo nhạc bằng máy tính, AI có thể tạo ra âm nhạc hay nhưng không sâu sắc.
- Các quy trình kỹ thuật trong sản xuất và tạo nhạc sẽ được cải thiện đáng kể trong tương lai. Âm nhạc tầm thường và hời hợt sẽ bị AI thay thế.
- Tuy nhiên, lời bài hát sâu sắc và trình diễn tình cảm, tinh tế sẽ không thể nào bị AI bắt chước hoàn hảo.
- Công cụ tạo nhạc AI sẽ hữu ích cho những người muốn thử nghiệm sáng tác và tạo nhạc nền.
- Nhưng để tạo ra âm nhạc truyền cảm, kể câu chuyện và chạm đến trái tim người nghe, không gì bằng nghệ sĩ thật.
📌 Mặc dù công nghệ AI đang phát triển vượt bậc và có thể tạo ra những bài hát chất lượng tốt, nhưng nó vẫn chưa thể thay thế hoàn toàn các nhà sản xuất âm nhạc và nghệ sĩ thực thụ. Âm nhạc đích thực cần sự sâu sắc trong lời bài hát và sự tinh tế trong trình diễn, điều mà AI hiện tại vẫn chưa đạt được.
https://www.makeuseof.com/ai-music-generation-vs-creating-your-own/
- Camb AI, một startup tại Dubai chuyên nghiên cứu công nghệ nội địa hóa nội dung dựa trên AI, đã công bố ra mắt Mars5, một mô hình AI mạnh mẽ cho việc tạo giọng nói nhân tạo.
- Mars5 nổi bật với khả năng tái tạo giọng nói với mức độ chân thực cao, bao gồm các thông số phức tạp như nhịp điệu, cảm xúc và ngữ điệu.
- Mars5 hỗ trợ hơn 140 ngôn ngữ, gấp gần 3 lần so với ElevenLabs, bao gồm cả các ngôn ngữ ít tài nguyên như Icelandic và Swahili.
- Phiên bản mã nguồn mở của Mars5 chỉ hỗ trợ tiếng Anh, trong khi phiên bản hỗ trợ nhiều ngôn ngữ hơn có sẵn trên nền tảng trả phí của công ty.
- Mars5 kết hợp khả năng tạo giọng nói và chuyển đổi văn bản thành giọng nói trong một nền tảng duy nhất, cho phép người dùng tải lên tệp âm thanh và văn bản để tạo giọng nói nhân tạo.
- Mô hình này có thể tái tạo các tông giọng và cảm xúc đa dạng, phù hợp cho các nội dung khó chuyển đổi thành giọng nói như bình luận thể thao, phim ảnh và anime.
- Mars5 sử dụng mô hình autoregressive ~750M tham số và mô hình non-autoregressive multinomial diffusion ~450M tham số, hoạt động trên các mã hóa encodec 6kbps.
- Các thử nghiệm ban đầu cho thấy Mars5 hoạt động tốt hơn so với các mô hình tổng hợp giọng nói khác, bao gồm cả Metavoice và ElevenLabs.
- Camb AI cũng đang lên kế hoạch phát hành mã nguồn mở cho một mô hình khác tên là Boli, được thiết kế để dịch thuật với hiểu biết ngữ cảnh, ngữ pháp chính xác và ngôn ngữ thông tục.
- Boli vượt trội hơn các công cụ dịch thuật truyền thống như Google Translate và DeepL, đặc biệt trong các ngôn ngữ ít đến trung bình tài nguyên.
- Camb AI cung cấp các khả năng của Mars5 và Boli dưới dạng API cho các doanh nghiệp, SMEs và nhà phát triển.
- Công ty đang hợp tác với các tổ chức lớn như Major League Soccer, Tennis Australia, Maple Leaf Sports & Entertainment, các hãng phim và âm nhạc hàng đầu, cũng như nhiều cơ quan chính phủ.
- Camb AI đã thực hiện dịch trực tiếp một trận đấu của Major League Soccer sang 4 ngôn ngữ trong hơn 2 giờ liên tục, và dịch các cuộc họp báo sau trận đấu của Australian Open sang nhiều ngôn ngữ.
📌 Camb AI ra mắt Mars5, mô hình AI tạo giọng nói với độ chân thực cao, hỗ trợ 140 ngôn ngữ, vượt trội so với ElevenLabs. Mars5 kết hợp khả năng tạo giọng nói và chuyển đổi văn bản thành giọng nói, phù hợp cho nhiều nội dung phức tạp. Công ty cũng đang phát triển mô hình dịch thuật Boli với hiệu suất vượt trội.
https://venturebeat.com/ai/exclusive-camb-takes-on-elevenlabs-with-open-voice-cloning-ai-model-mars5-offering-higher-realism-support-for-140-languages/
- Luma AI, một startup được hậu thuẫn bởi Andreessen Horowitz, ra mắt Dream Machine - công cụ tạo video AI miễn phí chất lượng cao.
- Dream Machine hứa hẹn tạo video tốc độ 120 khung hình/giây, thời lượng lên đến 120 giây.
- Người dùng háo hức trải nghiệm Dream Machine, tạo ra hàng đợi dài hàng giờ trên website của Luma AI hôm thứ Tư.
- Các ví dụ video được chia sẻ trực tuyến cho thấy chất lượng ấn tượng của Dream Machine.
- Barkley Dai, trưởng bộ phận sản phẩm và tăng trưởng của Luma, xác nhận công ty đang nỗ lực tăng năng lực để đáp ứng nhu cầu cao.
- Thời gian chờ đợi giảm xuống chỉ hơn 1 phút vào sáng thứ Năm, cải thiện đáng kể so với chiều hôm trước.
- Luma AI đã tiếp cận trước các nhà sáng tạo video AI nổi tiếng, cho họ xem trước khả năng của mô hình, giúp quảng bá Dream Machine.
- Phản hồi ban đầu từ người dùng khá tích cực, tạo được video 5 giây chỉ trong vài phút từ prompt văn bản.
- Nhiều người so sánh trực tiếp Dream Machine với Sora của OpenAI, vốn được coi là tiêu chuẩn trong lĩnh vực tạo video AI.
- Phiên bản miễn phí của Dream Machine cho phép tạo 30 video/tháng, bản trả phí cao nhất 2.000 video/tháng với giá $499.
- Luma AI là đối thủ mới nhất trong cuộc đua AI ngày càng sôi động với các dịch vụ miễn phí như Lumiere (Google), Runway, Pika, Kling (Kuaishou).
📌 Dream Machine của Luma AI gây chú ý với khả năng tạo video AI chất lượng cao, tốc độ 120 fps, thời lượng 120 giây. Nhu cầu trải nghiệm lớn khiến thời gian chờ lên đến hàng giờ. Phản hồi tích cực, nhiều người đánh giá ngang ngửa Sora của OpenAI. Luma AI hứa hẹn cạnh tranh mạnh mẽ trong cuộc đua AI với mức giá hấp dẫn.
https://www.digitaltrends.com/computing/luma-ai-dream-machine-video-generation-free-public-beta/
- Cuộc thi "Hoa hậu AI" đầu tiên sẽ diễn ra vào cuối tháng 6, với giải thưởng trị giá hơn 20.000 đô la Mỹ.
- 10 thí sinh lọt vào vòng chung kết được chọn từ 1.500 đơn đăng ký, đều là những người mẫu được tạo ra bởi AI.
- Ban giám khảo gồm 2 người thật và 2 người mẫu ảo sẽ đánh giá dựa trên vẻ đẹp, công nghệ sử dụng và sức ảnh hưởng trên mạng xã hội của các thí sinh.
- Các thí sinh AI có profile trên Instagram, tương tác với người hâm mộ và ủng hộ các hoạt động từ thiện.
- Ailya Lou, thí sinh đến từ Brazil, có gần 11.000 người theo dõi trên Instagram.
- Anne Kerdi là đại sứ thương hiệu cho quỹ bảo tồn đại dương Océanopolis Acts, trong khi Aiyana Rainbow (Romania) được mô tả là người ủng hộ cộng đồng LGBTQ.
- Nhiều ý kiến cho rằng cuộc thi này còn tệ hơn các cuộc thi sắc đẹp truyền thống vì sự giả tạo và phi thực tế của các thí sinh.
- Người mẫu AI có thể kiếm tới 10.800 đô la mỗi tháng, khiến các thương hiệu có xu hướng sử dụng họ thay vì người mẫu thật.
- Điều này đặt ra câu hỏi liệu AI có thể thay thế công việc của con người trong lĩnh vực người mẫu hay không.
📌 Cuộc thi Hoa hậu AI đầu tiên với giải thưởng hơn 20.000 đô la đang gây tranh cãi vì sự giả tạo và phi thực tế của các thí sinh được tạo bởi trí tuệ nhân tạo. Xu hướng sử dụng người mẫu AI có thể đe dọa công việc của người mẫu thật trong tương lai.
https://www.techspot.com/news/103377-artificial-beauty-exploring-world-ai-models-inaugural-miss.html
- Shutterstock và Databricks hợp tác ra mắt Shutterstock ImageAI, mô hình AI tạo ảnh từ văn bản cho phép doanh nghiệp tạo ra hình ảnh chất lượng cao, khả thi về mặt thương mại và được điều chỉnh theo nhu cầu kinh doanh cụ thể.
- ImageAI tận dụng khả năng tiên tiến của Databricks Mosaic AI và được huấn luyện độc quyền trên kho dữ liệu ảnh chất lượng cao của Shutterstock.
- Mô hình cho phép các công ty tạo ra hình ảnh chân thực, đáp ứng các tiêu chuẩn doanh nghiệp về quản trị dữ liệu, bảo mật và quyền sở hữu trí tuệ.
- Aimee Egan, Giám đốc Doanh nghiệp của Shutterstock, cho biết sự hợp tác này nhấn mạnh cam kết của công ty trong việc thúc đẩy AI có trách nhiệm và cung cấp cho khách hàng các công cụ sáng tạo.
- Naveen Rao, Phó Chủ tịch AI tại Databricks, tin rằng các công ty nên chủ động xây dựng mô hình GenAI tùy chỉnh trên dữ liệu của họ.
- Các lợi ích chính của ImageAI bao gồm: đầu ra đáng tin cậy, khả năng thích ứng nhanh với yêu cầu doanh nghiệp, tích hợp an toàn với các ứng dụng doanh nghiệp thông qua nền tảng Databricks.
- ImageAI được huấn luyện từ đầu chỉ trong vài tuần bằng Databricks Mosaic AI Model Training và có thể được triển khai bằng Mosaic AI Model Serving.
- ImageAI hiện đã có sẵn trong bản xem trước riêng trên Databricks Mosaic AI Model Serving và trực tiếp trên Shutterstock.com.
📌 Shutterstock và Databricks hợp tác ra mắt ImageAI, mô hình AI tạo ảnh từ văn bản tùy chỉnh cho doanh nghiệp. Mô hình này tận dụng khả năng của Databricks Mosaic AI, được huấn luyện trên kho ảnh chất lượng cao của Shutterstock, cho phép tạo ra hình ảnh chân thực, đáp ứng các tiêu chuẩn về quản trị dữ liệu, bảo mật và quyền sở hữu trí tuệ. ImageAI hiện đã có sẵn trên Databricks và Shutterstock.com.
https://analyticsindiamag.com/shutterstock-databricks-launch-imageai-customisable-text-to-image-ai-for-enterprises/
- Stability AI giới thiệu SD3 Medium, mô hình AI nguồn mở tạo ảnh từ văn bản tiên tiến nhất trong series Stable Diffusion 3.
- SD3 Medium được xây dựng trên 2 tỷ tham số, hỗ trợ tạo ảnh chân thực, tuân thủ các lệnh văn bản và phong cách phức tạp, hiểu và render văn bản không lỗi chính tả.
- Mô hình tập trung vào khả năng tạo từ và đánh vần chính xác, vượt trội so với các bộ tạo ảnh từ văn bản trước đây nhờ Kiến trúc Transformer Khuếch tán.
- Người dùng có thể tinh chỉnh nhanh mô hình bằng các bộ dữ liệu nhỏ để tùy chỉnh đầu ra, phù hợp cho các dự án cần hoàn thành nhanh.
- SD3 Medium có kích thước tham số nhỏ gọn (2 tỷ) so với các mô hình nặng hơn (800 triệu - 8 tỷ), tối ưu để chạy trên PC với GPU tiêu dùng/gaming.
- Stability hợp tác với Nvidia để tăng cường hiệu suất các mô hình SD trên GPU RTX và TensorRT, mang lại mức tăng 50% hiệu năng.
- Công ty cũng hợp tác với AMD để tối ưu hóa suy luận cho SD3 Medium trên các thiết bị APU và GPU tiêu dùng.
- Stable Diffusion 3 có sẵn qua API của công ty và trọng số mô hình được mở mã nguồn cho cộng đồng.
📌 SD3 Medium là mô hình AI tạo ảnh từ văn bản tiên tiến nhất của Stability AI với 2 tỷ tham số, nhiều tính năng vượt trội, tối ưu hóa hiệu suất trên phần cứng Nvidia (tăng 50%) và AMD, đồng thời mở mã nguồn cho cộng đồng phát triển.
https://siliconangle.com/2024/06/12/stability-ai-releases-sd3-medium-advanced-text-image-generating-ai-model-yet/
- Luma AI, một startup AI ở San Francisco, giới thiệu Dream Machine - hệ thống AI mạnh mẽ có khả năng tạo ra video chất lượng cao từ mô tả văn bản đơn giản.
- Dream Machine cho phép người dùng nhập một lời nhắc mô tả và trong khoảng 2 phút, tạo ra một đoạn video 5 giây chân thực khớp với cảnh đó.
- Người dùng thử nghiệm beta sớm khen ngợi khả năng tái tạo trung thực các đối tượng, nhân vật, hành động và môi trường được chỉ định, đồng thời duy trì chuyển động mượt mà và kể chuyện mạch lạc.
- Việc ra mắt Dream Machine đại diện cho một cột mốc quan trọng trong việc dân chủ hóa tạo sinh video AI.
- Trong khi các hệ thống đối thủ như OpenAI's Sora và Kuaishou's Kling chỉ tiếp cận được với một nhóm đối tác chọn lọc, Luma AI đã làm cho Dream Machine có sẵn miễn phí trên trang web của mình cho bất kỳ ai thử nghiệm.
- Luma AI có kế hoạch phát hành API và plugin cho các phần mềm sáng tạo phổ biến.
- Cách tiếp cận mở này có thể giúp Luma AI có một khởi đầu thuận lợi trong việc xây dựng một cộng đồng sáng tạo và nhà phát triển sôi động xung quanh nền tảng của mình.
- Bằng cách hạ thấp rào cản gia nhập, Dream Machine có tiềm năng châm ngòi cho một làn sóng đổi mới và sáng tạo khi người dùng khám phá các khả năng của video do AI tạo ra.
📌 Luma AI đã ra mắt Dream Machine, một hệ thống AI mạnh mẽ tạo video chất lượng cao từ văn bản, miễn phí cho mọi người sử dụng. Công cụ này hứa hẹn dân chủ hóa việc tạo video AI, mở ra cơ hội cho các nhà sáng tạo và doanh nghiệp sản xuất nội dung gốc với tốc độ và quy mô chưa từng có, đồng thời thúc đẩy một cộng đồng năng động xung quanh nền tảng của Luma AI.
https://venturebeat.com/ai/luma-ai-debuts-dream-machine-for-realistic-video-generation-heating-up-ai-media-race/
- Microsoft giới thiệu VALL-E 2, một mô hình ngôn ngữ codec neural đạt được hiệu suất cấp độ con người trong tổng hợp giọng nói zero-shot text-to-speech (TTS).
- Mô hình sử dụng hai tính năng mới: Repetition Aware Sampling và Grouped Code Modeling để cải thiện độ ổn định và hiệu quả của quá trình tổng hợp giọng nói.
- Repetition Aware Sampling cải tiến phương pháp nucleus sampling truyền thống bằng cách xem xét sự lặp lại token trong lịch sử giải mã, giúp cải thiện độ ổn định và ngăn chặn các vấn đề vòng lặp vô hạn.
- Grouped Code Modeling tổ chức các mã codec thành các nhóm để giảm độ dài chuỗi, tăng tốc độ suy luận và giải quyết các thách thức liên quan đến mô hình chuỗi dài.
- VALL-E 2 có thể tổng hợp giọng nói với độ chính xác và tự nhiên cao, ngay cả với các câu phức tạp. Mô hình chỉ yêu cầu dữ liệu cặp giọng nói-bản ghi âm đơn giản để huấn luyện.
- Mô hình đã được đánh giá trên các bộ dữ liệu LibriSpeech và VCTK, thể hiện hiệu suất vượt trội về độ mạnh mẽ, tính tự nhiên và sự tương đồng của giọng nói so với các hệ thống trước đây.
- VALL-E 2 là mô hình đầu tiên đạt được sự tương đương với con người trên các tiêu chuẩn này, tạo ra giọng nói chất lượng cao cho các câu phức tạp và lặp lại.
- Khả năng của VALL-E 2 có thể đặc biệt hữu ích trong việc tạo giọng nói cho những người bị suy giảm khả năng nói, chẳng hạn như những người mắc chứng mất ngôn ngữ hoặc bệnh xơ cứng teo cơ một bên.
- Mặc dù mô hình mới có tiềm năng đáng kể, nhưng nó cũng mang lại rủi ro lạm dụng, chẳng hạn như giả mạo giọng nói hoặc mạo danh. Mô hình giả định sự đồng ý của người dùng cho việc tổng hợp giọng nói.
- Trong các ứng dụng thực tế, VALL-E 2 nên bao gồm các giao thức phê duyệt của người nói và phát hiện giọng nói tổng hợp để ngăn chặn sự lạm dụng.
📌 VALL-E 2 của Microsoft đánh dấu bước tiến quan trọng trong lĩnh vực tổng hợp giọng nói, đạt được hiệu suất ngang ngửa con người với các tính năng mới như Repetition Aware Sampling và Grouped Code Modeling. Mô hình mới mang lại tiềm năng to lớn trong việc hỗ trợ người dùng có vấn đề về giọng nói, tuy nhiên cũng cần có các biện pháp bảo vệ để tránh bị lạm dụng.
https://analyticsindiamag.com/microsoft-rolls-out-vall-e-2-attains-human-level-speech-synthesis/
- smallest.ai giới thiệu phiên bản beta của AWAAZ - mô hình chuyển văn bản thành giọng nói (TTS) cho các ngôn ngữ Ấn Độ.
- AWAAZ có điểm Mean Opinion Score (MOS) tốt nhất cho tiếng Hindi và tiếng Anh Ấn Độ, có thể nói trên 10 ngữ điệu.
- Mô hình cho phép tạo giọng nói chỉ từ đoạn âm thanh 5 giây và có độ trễ streaming thấp 200ms.
- Giá 999 Rupee cho 500.000 ký tự, rẻ hơn 10 lần so với đối thủ.
- smallest.ai phát triển AWAAZ do thiếu các mô hình TTS chất lượng cao và giá cả phải chăng cho ngôn ngữ Ấn Độ.
- Các mô hình hiện tại hoặc chất lượng kém hoặc quá đắt, đặc biệt khi mở rộng quy mô.
- AWAAZ sử dụng bộ dữ liệu đa ngôn ngữ, đa ngữ điệu chất lượng cao, tập trung vào Ấn Độ và Nam Á.
- Demo về khả năng của AWAAZ đã có sẵn, smallest.ai đang tìm kiếm phản hồi từ người dùng.
- Các tính năng chính: độ trễ ~200ms, thông lượng chuyên dụng, bảo mật doanh nghiệp, tuân thủ tùy chỉnh, giảm giá cho doanh nghiệp.
- smallest.ai được thành lập năm 2023 tại San Francisco bởi Sudarshan Kamath và Akshat Mandloi, mới ra mắt gần đây.
📌 smallest.ai đã ra mắt phiên bản beta của AWAAZ - mô hình TTS đa ngôn ngữ, đa ngữ điệu cho các ngôn ngữ Ấn Độ với chất lượng tốt nhất, giá chỉ 999 Rupee cho 500.000 ký tự. AWAAZ giải quyết vấn đề thiếu các mô hình TTS chất lượng cao và giá cả phải chăng cho ngôn ngữ Ấn Độ, sử dụng bộ dữ liệu đa ngôn ngữ chất lượng cao, tập trung vào Ấn Độ và Nam Á.
https://analyticsindiamag.com/smallest-ai-launches-awaaz-a-multi-lingual-multi-accent-text-to-speech-model-in-indian-languages/
- Stability AI, nổi tiếng với công cụ tạo hình ảnh Stable Diffusion, đã ra mắt mô hình AI mở mới cho việc tạo âm thanh và nhạc, gọi là Stable Audio Open.
- Stable Audio Open được huấn luyện hoàn toàn trên nhạc miễn phí bản quyền và có thể biến mô tả văn bản thành bản ghi âm dài tới 47 giây.
- Ví dụ về các bản ghi âm được tạo ra từ các mô tả như "tiếng chim Blackbird, mùa hè, hoàng hôn trong rừng" và "nhịp rock chơi trong studio, trống phiên trên bộ trống acoustic" đã được cung cấp.
- Stable Audio Open dựa trên công cụ tạo âm thanh thương mại của công ty, Stable Audio, ra mắt lần đầu vào tháng 9 và được cải tiến với phiên bản Stable Audio 2.0 vào tháng 4, tăng cường độ rõ ràng và kéo dài thời lượng âm thanh.
- Khác với mô hình thương mại được huấn luyện trên nguồn nhạc có bản quyền, Stable Audio Open chỉ được huấn luyện trên 486.000 mẫu từ các thư viện nhạc miễn phí như Free Music Archive và FreeSound, do đó chất lượng âm thanh có thể không bằng.
- Công cụ này được thiết kế cho các nhạc sĩ và nhà làm phim cần tạo nhịp trống, đoạn nhạc cụ, âm thanh môi trường và các yếu tố sản xuất.
- Ngoài ra, công cụ còn có thể chỉnh sửa các bài hát hiện có hoặc áp dụng phong cách mới, như jazz mượt mà, cho một bài hát ở phong cách khác.
- Một lợi ích thú vị của Stable Audio Open là người dùng có thể tinh chỉnh mô hình với âm thanh của riêng họ, ví dụ như tải lên các bản ghi trống hoặc đoạn guitar của mình để tạo ra âm thanh mới theo phong cách riêng.
- Tuy nhiên, tính mở của Stable Audio Open cũng giới hạn tính hữu ích của nó. Mô hình này không nhằm tạo ra các bài hát hoàn chỉnh mà chỉ tạo ra các đoạn âm thanh ngắn dùng làm hiệu ứng âm nhạc. Để tạo ra các bài hát hoàn chỉnh hoặc có lời, người dùng nên sử dụng dịch vụ cao cấp Stable Audio 2.0 hoặc nền tảng khác như của Suno Inc.
- Stability AI thừa nhận rằng mô hình không hoạt động tốt khi người dùng đưa ra yêu cầu bằng các ngôn ngữ khác ngoài tiếng Anh, do thiếu dữ liệu huấn luyện phù hợp.
- Mặc dù được gọi là nguồn mở, Stable Audio Open chỉ có sẵn dưới giấy phép cộng đồng nghiên cứu phi thương mại của Stability AI, cấm sử dụng thương mại bất kỳ âm thanh nào được tạo ra.
- Quyết định ra mắt phiên bản mở của công cụ tạo âm thanh đến không lâu sau khi phó chủ tịch âm thanh tạo sinh của Stability AI, Ed Newton-Rex, từ chức vì chính sách sử dụng tác phẩm có bản quyền để huấn luyện mô hình của công ty.
- Vấn đề bản quyền trở thành một trong những vấn đề gây tranh cãi nhất xung quanh AI khi công nghệ này ngày càng phổ biến. Nhiều nhạc sĩ và các nghệ sĩ sáng tạo khác lo ngại rằng họ có thể bị thay thế bởi các mô hình AI được huấn luyện trên tác phẩm của họ.
- Stability AI cho rằng việc sử dụng nhạc có bản quyền để huấn luyện mô hình AI là hợp lý theo nguyên tắc "sử dụng hợp lý", nhưng có tranh cãi về định nghĩa chính xác của "sử dụng hợp lý".
- Trong thư từ chức, Newton-Rex lập luận rằng việc huấn luyện AI trên tác phẩm có bản quyền không thể được coi là sử dụng hợp lý vì ảnh hưởng đến giá trị thị trường tiềm năng của nội dung đó.
- Hơn 200 nghệ sĩ lớn trên thế giới đã ký một bức thư ngỏ phản đối việc sử dụng AI trong âm nhạc, gọi đó là "cuộc tấn công vào sự sáng tạo của con người".
- Một số nhà lập pháp cũng có cùng quan điểm. Ví dụ, bang Tennessee đã thông qua một luật mới nhằm bảo vệ tác phẩm của nhạc sĩ khỏi bị lạm dụng bởi AI.
📌 Stability AI ra mắt công cụ Stable Audio Open, một mô hình AI mở cho phép tạo âm thanh từ mô tả văn bản, nhưng chỉ tạo ra các đoạn âm thanh ngắn và không thể sử dụng cho mục đích thương mại. Công cụ này được thiết kế cho các nhạc sĩ và nhà làm phim, nhưng có hạn chế về ngôn ngữ và chất lượng âm thanh so với phiên bản thương mại.
https://siliconangle.com/2024/06/05/stability-ai-debuts-open-version-stable-audio-music-generator-tool/
- Kling là một mô hình video AI mới được phát triển bởi công ty nền tảng video Trung Quốc Kuaishou.
- Nó cung cấp nhiều tính năng tương tự như Sora của OpenAI, bao gồm tạo video dài hơn lên đến 2 phút ở độ phân giải 1080p 30fps, mô phỏng chính xác vật lý thế giới thực, hỗ trợ nhiều tỷ lệ khung hình và loại cảnh quay.
- Kling sử dụng mô hình khuếch tán transformer tương tự như Sora.
- Ngoài các tính năng tạo sinh, Kling còn có khả năng tái tạo khuôn mặt và cơ thể 3D tiên tiến để cải thiện biểu cảm và chuyển động chi tiết trong video.
- Trong khi Sora vẫn chưa được cung cấp rộng rãi cho công chúng, Kling dường như đã cho phép người dùng đăng ký trước thông qua danh sách chờ.
- Một số video được tạo bởi Kling đã được chia sẻ, bao gồm cảnh một cậu bé đi xe đạp, một con ngựa trong sa mạc, ai đó đang ăn mì và video chân thực về một cậu bé thưởng thức bánh hamburger.
📌 Kling, mô hình video AI mới của Kuaishou, đang thách thức vị thế của Sora với khả năng tạo video dài 2 phút ở 1080p 30fps, mô phỏng vật lý chính xác, tái tạo khuôn mặt và cơ thể 3D. Không như Sora, Kling đã mở đăng ký trước cho người dùng qua danh sách chờ.
https://www.tomsguide.com/ai/ai-image-video/forget-sora-kling-is-a-killer-new-ai-video-model-that-just-dropped-and-im-impressed
- Vinija Jain, kỹ sư học máy kỳ cựu tại Amazon và nghiên cứu viên tại IIT Patna, đã công bố bài báo "How Culturally Aware are Vision-Language Models?" đánh giá độ nhạy cảm văn hóa của AI trong chú thích hình ảnh.
- Jain thu thập 1.500 hình ảnh về các loại hình múa và ẩm thực Ấn Độ, tạo ra bộ dữ liệu MOSAIC-1.5k đại diện cho sự phong phú văn hóa Ấn Độ. Cô cũng giới thiệu Điểm số Nhận thức Văn hóa (CAS) để đo lường khả năng nắm bắt ngữ cảnh văn hóa trong chú thích hình ảnh của các mô hình AI.
- Gần đây, Guneet Singh Kohli, nhà nghiên cứu AI tại GreyOrange, đã tạo ra Sanskriti Bench nhằm phát triển tiêu chuẩn văn hóa Ấn Độ để kiểm tra sự gia tăng của các mô hình AI Ấn Độ. Jain cũng bắt đầu hợp tác với Kohli cho sáng kiến này.
- Jain đang xây dựng Indic-MMLU, tập trung vào việc hiểu các ngôn ngữ Ấn Độ. Cô hy vọng sẽ phát hành tiêu chuẩn này vào cuối tháng tới.
- Jain cũng đang cố vấn cho các sinh viên của Sriparna Saha tại phòng thí nghiệm AI của IIT Patna cho nghiên cứu y tế Ấn Độ. Bài báo "M3: Multimodal, Multilingual, Medical Help Assistant" sẽ là VLM y tế đa ngôn ngữ đầu tiên của Ấn Độ.
- Jain đang làm việc để tạo ra danh mục tất cả các nghiên cứu AI Ấn Độ có tác động, bao gồm LLM, tập dữ liệu, tiêu chuẩn, framework và bộ mã hóa.
📌 Vinija Jain, một nhà nghiên cứu AI gốc Ấn, đang nỗ lực xây dựng các mô hình ngôn ngữ thị giác nhận thức văn hóa và thúc đẩy nghiên cứu AI Ấn Độ. Các dự án của cô như MOSAIC-1.5k, Indic-MMLU và M3 hướng tới việc cải thiện khả năng của AI trong việc hiểu và phục vụ cộng đồng Ấn Độ tốt hơn, đồng thời truyền cảm hứng cho nhiều nghiên cứu AI khác tại quốc gia này.
https://analyticsindiamag.com/meet-the-ai-researcher-building-culturally-aware-vision-language-models/
- Llama3-V là một mô hình đa phương thức dựa trên Llama3, được huấn luyện với chi phí dưới 500 đô la.
- Mô hình tích hợp thông tin hình ảnh bằng cách nhúng ảnh đầu vào thành các embedding patch sử dụng mô hình SigLIP.
- Các embedding này được căn chỉnh với token văn bản thông qua khối projection sử dụng các khối self-attention, đặt embedding hình ảnh và văn bản trên cùng một mặt phẳng.
- Token hình ảnh được thêm vào trước token văn bản và biểu diễn kết hợp được xử lý qua Llama3.
- SigLIP sử dụng sigmoid loss cho từng cặp ảnh-văn bản, chia ảnh thành các patch không chồng lấp, chiếu chúng vào không gian embedding có chiều thấp hơn và áp dụng self-attention.
- Để tối ưu hóa tài nguyên tính toán, Llama3-V sử dụng cơ chế lưu trữ đệm để tính toán trước các embedding ảnh SigLIP và tận dụng các tối ưu hóa MPS/MLX.
- Quá trình tiền huấn luyện sử dụng 600.000 cặp ảnh-văn bản, chỉ cập nhật ma trận projection. Tinh chỉnh có giám sát sử dụng 1 triệu mẫu, tập trung vào ma trận vision và projection.
- Llama3-V đạt mức tăng hiệu suất 10-20% so với Llava, mô hình hàng đầu về hiểu biết đa phương thức, và có hiệu suất tương đương với các mô hình nguồn đóng lớn hơn nhiều trên hầu hết các chỉ số, ngoại trừ MMMU.
📌 Llama3-V thể hiện những tiến bộ đáng kể trong AI đa phương thức, vượt trội hơn Llava 10-20% và sánh ngang với các mô hình nguồn đóng lớn hơn trên hầu hết các chỉ số. Với việc tích hợp SigLIP để nhúng ảnh hiệu quả và các tối ưu hóa tính toán, Llama3-V tối đa hóa việc sử dụng GPU và giảm chi phí huấn luyện, thiết lập nó như một mô hình SOTA cạnh tranh và hiệu quả cho hiểu biết đa phương thức.
https://www.marktechpost.com/2024/05/31/llama3-v-a-sota-open-source-vlm-model-comparable-performance-to-gpt4-v-gemini-ultra-claude-opus-with-a-100x-smaller-model/
- ElevenLabs, công ty đã cung cấp các phiên bản giọng nói và âm nhạc do AI tạo ra, giờ đây cho phép mọi người tạo hiệu ứng âm thanh cho podcast, phim ảnh hoặc trò chơi.
- Công cụ Sound Effects mới có thể tạo ra đoạn âm thanh dài tới 22 giây dựa trên lời nhắc của người dùng, kết hợp với nền tảng giọng nói và âm nhạc của công ty.
- Người dùng sẽ có ít nhất 4 tùy chọn clip âm thanh có thể tải xuống cho mỗi lời nhắc.
- ElevenLabs hợp tác với nền tảng phương tiện truyền thông Shutterstock để xây dựng thư viện và huấn luyện mô hình trên các clip âm thanh của họ.
- Shutterstock đã cấp phép thư viện nội dung của mình cho nhiều công ty AI như OpenAI, Meta và Google.
- Sound Effects miễn phí sử dụng, nhưng người dùng trả phí có thể sử dụng clip âm thanh tạo ra với giấy phép thương mại. Người dùng miễn phí phải ghi công ElevenLabs bằng cách đưa "elevenlabs.io" vào tiêu đề.
- Người dùng ElevenLabs có giới hạn số lượng ký tự khi viết lời nhắc, với 10.000 ký tự/tháng cho người dùng miễn phí.
- Với Sound Effects, mỗi giây âm thanh sẽ tính 40 ký tự từ phân bổ nếu người dùng tự đặt thời lượng. Nếu dùng thời lượng mặc định, mỗi yêu cầu lời nhắc sẽ tính 200 ký tự.
- Thư viện hiệu ứng âm thanh đã tồn tại trên thị trường cho người sáng tạo, nhà làm phim và nhà phát triển game. Nhưng đôi khi chúng đắt hoặc khó tìm đúng loại âm thanh cần thiết.
- ElevenLabs thiết kế Sound Effects để tạo ra âm cảnh phong phú, sinh động, nhanh chóng, giá cả phải chăng và quy mô lớn.
- Các nhà phát triển AI khác cũng đang phát triển công cụ tạo âm thanh từ văn bản của riêng họ như Stable Audio của Stability AI và AudioCraft của Meta.
📌 ElevenLabs giới thiệu công cụ AI Sound Effects cho phép tạo hiệu ứng âm thanh tùy chỉnh lên đến 22 giây chỉ từ lời nhắc văn bản. Công ty hợp tác với Shutterstock để xây dựng thư viện huấn luyện mô hình. Công cụ miễn phí sử dụng nhưng giới hạn 10.000 ký tự lời nhắc/tháng, trong khi bản trả phí cho phép sử dụng thương mại. Đây là bước tiến mới trong cuộc đua phát triển công nghệ tạo âm thanh từ AI.
https://www.theverge.com/2024/5/31/24168898/elevenlabs-prompt-generative-ai-content
- Tại Build 2024, Microsoft đã ra mắt Phi-3-vision, phiên bản tiên tiến của mô hình ngôn ngữ AI nhỏ Phi-3. Mô hình đa phương thức mới này có khả năng xử lý và giải thích hình ảnh, nhận diện nội dung cho người dùng.
- Phi-3-vision với 4,2 tỷ tham số, được thiết kế cho thiết bị di động. Độ phức tạp của mô hình AI được thể hiện qua số lượng tham số, cho thấy mức độ huấn luyện và khả năng hiểu biết.
- Microsoft đang tinh chỉnh mô hình Phi, với Phi-3 là bản nâng cấp của Phi-2, được huấn luyện trên Phi-1 và có thêm khả năng mới.
- Khác với các mô hình nổi tiếng hơn như DALL-E của OpenAI, Phi-3-vision chỉ có thể phân tích hình ảnh chứ không thể tạo ra hình ảnh mới.
- Microsoft đã giới thiệu một số mô hình AI nhỏ, được thiết kế để sử dụng cục bộ và tương thích với nhiều thiết bị hơn so với các mô hình lớn như Gemini của Google hay ChatGPT.
- Các mô hình này hoạt động ngoại tuyến, không cần kết nối internet và giảm sức mạnh tính toán cần thiết cho các tác vụ cụ thể, như giải quyết vấn đề toán học được thể hiện qua mô hình Orca-Math của Microsoft.
- Phiên bản đầu tiên của Phi-3 được giới thiệu vào tháng 4, khi Microsoft ra mắt Phi-3-mini nhỏ gọn. Trong các bài kiểm tra chuẩn, nó vượt trội hơn các mô hình lớn hơn như Llama 2 của Meta với 3,8 tỷ tham số.
- Microsoft cũng cung cấp hai mô hình Phi-3 khác là Phi-3-small và Phi-3-medium, với lần lượt 7 tỷ và 14 tỷ tham số.
- Phi-3-vision hiện đang có sẵn trong bản xem trước. Các mô hình Phi-3 khác như Phi-3-mini, Phi-3-small và Phi-3-medium có thể truy cập thông qua danh mục mô hình Azure Machine Learning và các bộ sưu tập.
- Để sử dụng chúng, bạn sẽ cần một tài khoản Azure trả phí và trung tâm Azure AI Studio.
📌 Microsoft đã ra mắt Phi-3-vision, một mô hình ngôn ngữ AI nhỏ gọn mới với 4,2 tỷ tham số, có khả năng xử lý và giải thích hình ảnh. Đây là bản nâng cấp của Phi-3, vượt trội hơn các mô hình lớn như Llama 2 của Meta. Phi-3-vision hiện đang có sẵn trong bản xem trước cùng với các mô hình Phi-3 khác trên nền tảng Azure của Microsoft.
Citations:
[1] https://www.tomsguide.com/ai/microsofts-new-tiny-language-model-can-read-images-heres-what-you-can-use-it-for
- Sony Music cảnh báo 700 công ty AI, bao gồm Google, Microsoft và OpenAI, không được khai thác dữ liệu âm nhạc thuộc sở hữu của Sony để huấn luyện mô hình AI mà không có sự cho phép rõ ràng.
- Tuyên bố của Sony bao gồm nhiều loại tác phẩm âm nhạc, từ lời bài hát, sáng tác đến bản ghi âm và hình ảnh.
- Sony cũng yêu cầu các nền tảng nghe nhạc trực tuyến như Spotify và Apple Music áp dụng biện pháp bảo vệ cho nghệ sĩ.
- Có nhiều tranh cãi về khía cạnh pháp lý của việc khai thác và sử dụng dữ liệu để huấn luyện AI. Một số cho rằng đó là "sử dụng hợp lý", trong khi những người khác cho rằng các bên liên quan, đặc biệt là người sáng tạo, nên được bồi thường.
- Hơn 200 nghệ sĩ đã ký thư ngỏ yêu cầu các công ty công nghệ ngừng sử dụng AI để xâm phạm và hạ giá trị quyền của nghệ sĩ.
- Sony chưa hành động chống lại bất kỳ công ty phát triển AI cá nhân nào. Họ chỉ đưa ra cảnh báo, có lẽ để tránh các vụ kiện tiềm ẩn.
- Sony yêu cầu các công ty chia sẻ thông tin về việc họ có sử dụng nội dung của Sony để huấn luyện mô hình AI hay không, cách họ truy cập và thời gian lưu giữ bản sao.
📌 Sony Music đã đưa ra cảnh báo đối với 700 công ty AI về việc khai thác trái phép dữ liệu âm nhạc để huấn luyện AI. Tuy nhiên, lập trường pháp lý của Sony vẫn chưa rõ ràng trong bối cảnh có nhiều tranh cãi xoay quanh vấn đề bản quyền và sử dụng hợp lý trong lĩnh vực AI âm nhạc đang phát triển mạnh mẽ.
Citations:
[1] https://www.slashgear.com/1583935/sony-goes-to-war-with-ai-music-for-wrong-reasons/
- **Thuật toán đề xuất của Facebook** đang quảng bá hình ảnh hentai khỏa thân, thường được tạo bởi AI, vào nguồn cấp tin tức của người dùng, cho thấy Meta không thể kiểm soát vấn đề spam do AI tạo ra.
- **Nhiều hình ảnh hentai** có hàng chục nghìn lượt thích và hàng trăm bình luận, một số có dấu hiệu rõ ràng là do AI tạo ra (như tay kỳ lạ, thủy vân của trình tạo hình ảnh AI), trong khi nhiều hình ảnh khác có thể bị đánh cắp từ các nghệ sĩ hentai trên internet.
- **Một số hình ảnh** có thủy vân của các nghệ sĩ trên Patreon, cho thấy nhiều hình ảnh được vẽ bởi con người nhưng bị đánh cắp để spam trên Facebook.
- **Khó phân biệt** giữa hentai do AI tạo ra và hentai do con người vẽ vì công nghệ tạo hình ảnh AI đã trở nên rất tinh vi.
- **Người dùng Facebook** đã phát hiện ra nội dung này khi một bức ảnh hentai bị làm mờ được đăng trong một nhóm AI. Từ đó, họ tìm thấy hàng chục trang chứa hình ảnh hentai khỏa thân, bao gồm cả hình ảnh của các nhân vật Disney như Elsa và Anna từ loạt phim Frozen và Misty từ Pokémon.
- **Nhiều trang spam** đăng hàng chục lần mỗi ngày, với hàng nghìn lượt thích. Các trang này thường đẩy người dùng ra khỏi nền tảng Facebook đến các nhóm Telegram hoặc các trang web đầy quảng cáo.
- **Tác giả không phản đối hentai** nhưng lo ngại về việc Facebook không thể hoặc không muốn thực thi các quy tắc của mình, đặc biệt khi nền tảng này vẫn là nơi thù địch đối với các công việc liên quan đến tình dục và các nghệ sĩ người lớn.
- **Trong quá trình báo cáo**, tác giả đã bị Facebook xóa một bài viết về porn do AI tạo ra, mặc dù bài viết không chứa nội dung khiêu dâm thực sự. Điều này cho thấy sự mâu thuẫn trong việc thực thi quy tắc của Facebook.
- **Facebook không phản hồi** khi được yêu cầu bình luận về việc kiểm duyệt spam do AI tạo ra, và nhiều hình ảnh vi phạm rõ ràng vẫn tồn tại trên nền tảng này.
📌 Facebook đang gặp khó khăn trong việc kiểm soát nội dung hentai do AI tạo ra, với hàng chục nghìn lượt thích và bình luận. Nhiều hình ảnh bị đánh cắp từ các nghệ sĩ, và Meta không thể thực thi các quy tắc của mình, gây lo ngại về sự an toàn và kiểm duyệt trên nền tảng.
https://www.404media.co/ai-generated-hentai-is-viral-all-over-facebook/
- Hội nghị Google I/O 2024 đã giới thiệu Gemini AI, một công nghệ AI tạo sinh mới của Google, được thiết kế để cạnh tranh với các mô hình AI tiên tiến khác như GPT-4 của OpenAI.
- Gemini AI có khả năng xử lý ngôn ngữ tự nhiên và tạo ra nội dung văn bản, hình ảnh, và video với độ chính xác cao.
- Google Photos được nâng cấp với tính năng "Magic Editor" sử dụng AI để chỉnh sửa ảnh tự động, bao gồm việc loại bỏ các đối tượng không mong muốn và cải thiện chất lượng hình ảnh.
- Tính năng "Ask Photos" trong Google Photos cho phép người dùng đặt câu hỏi về nội dung trong ảnh và nhận câu trả lời chi tiết từ AI.
- Google cũng giới thiệu các cải tiến trong Google Maps, bao gồm việc sử dụng AI để cung cấp thông tin giao thông và điều hướng chính xác hơn.
- Các sản phẩm khác như Google Assistant và Google Workspace cũng được cập nhật với các tính năng AI mới, giúp tăng cường hiệu suất làm việc và trải nghiệm người dùng.
- Google nhấn mạnh tầm quan trọng của việc phát triển AI một cách có trách nhiệm, đảm bảo tính minh bạch và bảo mật dữ liệu người dùng.
- Hội nghị cũng đề cập đến việc Google đang đầu tư mạnh mẽ vào nghiên cứu AI và hợp tác với các tổ chức học thuật để thúc đẩy sự phát triển của công nghệ này.
📌 Google I/O 2024 giới thiệu Gemini AI, công nghệ AI tạo sinh mới, cùng với các tính năng đột phá trong Google Photos như "Magic Editor" và "Ask Photos". Google cũng cập nhật các sản phẩm khác với AI, nhấn mạnh phát triển AI có trách nhiệm và bảo mật dữ liệu.
https://qz.com/google-i-o-developer-conference-gemini-ai-ask-photos-1851476785
- Google vừa công bố Veo, một mô hình video AI tạo sinh mới, nhằm cạnh tranh trực tiếp với OpenAI.
- Veo có khả năng tạo video từ văn bản, hứa hẹn mang lại trải nghiệm video đột phá.
- Mô hình này được phát triển bởi nhóm nghiên cứu AI của Google, với mục tiêu nâng cao chất lượng và tính sáng tạo của video.
- Veo sử dụng công nghệ AI tiên tiến để phân tích và chuyển đổi văn bản thành video, giúp người dùng dễ dàng tạo nội dung video mà không cần kỹ năng chuyên môn.
- Google nhấn mạnh rằng Veo sẽ hỗ trợ nhiều ngôn ngữ và phong cách video khác nhau, từ hoạt hình đến thực tế.
- Veo được thiết kế để tích hợp dễ dàng với các nền tảng và công cụ hiện có của Google, như YouTube và Google Photos.
- Google cũng công bố hợp tác với Sora, một công ty chuyên về công nghệ AI, để phát triển và tối ưu hóa Veo.
- Sora sẽ cung cấp các công cụ và tài nguyên cần thiết để cải thiện hiệu suất và khả năng của Veo.
- Veo được kỳ vọng sẽ mở ra nhiều cơ hội mới cho các nhà sáng tạo nội dung, từ việc sản xuất video quảng cáo đến giáo dục và giải trí.
- Google cam kết sẽ tiếp tục đầu tư vào nghiên cứu và phát triển AI để mang lại những cải tiến vượt bậc cho Veo và các sản phẩm khác.
📌 Google ra mắt Veo, mô hình video AI tạo sinh mới, cạnh tranh với OpenAI. Veo có khả năng tạo video từ văn bản, hỗ trợ nhiều ngôn ngữ và phong cách video. Google hợp tác với Sora để tối ưu hóa Veo, mở ra nhiều cơ hội cho các nhà sáng tạo nội dung.
- Công nghệ AI đang được áp dụng để tạo ra các hình ảnh và video khiêu dâm với sự đồng ý của người thể hiện, như trường hợp của Eva Oh.
- Lee Gentry, người sáng lập Night Visions, tập trung vào việc tái tạo hình ảnh con người một cách chính xác nhất có thể để phục vụ cho các nghệ sĩ và đại lý quản lý tài khoản OnlyFans.
- Lịch sử cho thấy công nghệ luôn được sử dụng để miêu tả các hình ảnh khiêu dâm, từ phim câm đến DVD và internet, nhưng phần lớn các sản phẩm này do nam giới sản xuất và hướng đến nam giới.
- Gần đây, phụ nữ đã bắt đầu kiểm soát việc phân phối hình ảnh của chính họ thông qua các trang web như OnlyFans, nơi họ tự sản xuất và phân phối nội dung.
- Các nghệ sĩ khiêu dâm đang sử dụng công nghệ mới như chatbots và dịch vụ hình ảnh theo yêu cầu để giữ bước với công nghệ và bảo vệ quyền lợi của mình.
- Night Visions cung cấp dịch vụ tạo hình ảnh dựa trên văn bản nhập vào và đảm bảo quá trình biết khách hàng của mình để bảo vệ quyền riêng tư và sự đồng ý.
- Các vấn đề về việc sử dụng hình ảnh không đồng ý và lạm dụng hình ảnh vẫn là một thách thức lớn, đặc biệt là trên quy mô quốc tế.
- Luật sư Simon Pulman đề cập đến sự cần thiết của việc bảo vệ nghệ sĩ khiêu dâm trên phương diện pháp lý, tương tự như các nhân vật công cộng khác.
- Eva Oh và các nghệ sĩ khác đang khám phá việc sử dụng AI để mở rộng khả năng của họ, không chỉ trong lĩnh vực khiêu dâm mà còn trong việc giáo dục và tương tác xã hội.
📌 Tương lai của ngành công nghiệp phim "nóng" đang chứng kiến sự thay đổi lớn với việc áp dụng AI, cho phép nghệ sĩ kiểm soát hình ảnh và video của mình. Các công ty như Night Visions hỗ trợ tạo hình ảnh theo yêu cầu với sự đồng ý rõ ràng, trong khi các nghệ sĩ như Eva Oh khám phá khả năng mở rộng ảnh hưởng của họ qua công nghệ AI.
Citations:
[1]https://reason.com/?p=8277
- ElevenLabs đang ra mắt một trình tạo nhạc trí tuệ nhân tạo mới hoàn chỉnh với giọng hát, thể hiện một số bản nhạc ấn tượng trên X để quảng bá cho sự ra mắt sắp tới.
- Âm nhạc AI đã chứng tỏ là một trong những lĩnh vực phát triển nhanh nhất của nội dung tổng hợp cho đến nay trong năm nay với bản nhạc Suno đầu tiên vượt qua 1 triệu lượt nghe và Udio ra mắt giọng hát siêu thực.
- ElevenLabs nổi tiếng với giọng nói nhân tạo nghe tự nhiên và khả năng nhân bản giọng nói chính xác đáng kinh ngạc, đã từ từ xây dựng một loạt các tính năng âm thanh AI bao gồm hiệu ứng âm thanh.
- Âm nhạc hiện đang trong giai đoạn xem trước sớm, chỉ có thể truy cập bởi nhân viên ElevenLabs nhưng các mẫu được chia sẻ cho đến nay cho thấy chất lượng vượt trội hơn Udio trên nhiều thể loại.
- Các ví dụ về nhạc jazz, pop, dubstep và đồng quê đã được các nhân viên ElevenLabs chia sẻ cũng như tài khoản X chính cho nền tảng âm thanh tổng hợp, dựa trên các gợi ý từ người dùng.
- ElevenLabs viết trong một tweet rằng "Tất cả các bài hát trong chuỗi này đều được tạo ra từ một lời nhắc văn bản duy nhất mà không có chỉnh sửa nào." Điều này thật ấn tượng.
- Bài hát đầu tiên có tiêu đề 'It Started to Sing' với phong cách "pop pop-rock, country, top charts song" và nó đã thực hiện đúng như lời hứa.
📌 ElevenLabs đang chuẩn bị ra mắt trình tạo nhạc AI mới với khả năng tạo ra các bản nhạc dài 2-3 phút hoàn chỉnh với giọng hát tự nhiên chỉ từ một dòng prompt duy nhất, vượt trội hơn hẳn Udio và Suno. Các mẫu nhạc được chia sẻ cho thấy chất lượng ấn tượng trên nhiều thể loại như jazz, pop, dubstep, đồng quê.
Citations:
[1] https://www.tomsguide.com/ai/elevenlabs-is-launching-a-new-ai-music-generator-and-you-have-to-hear-these-clips-to-appreciate-it
- OpenAI một lần nữa từ chối trả lời câu hỏi liệu họ có sử dụng nội dung của người dùng để huấn luyện mô hình AI mới của họ, Sora hay không.
- Câu hỏi này đã được đặt ra trong một cuộc phỏng vấn gần đây với đại diện của OpenAI, nhưng không nhận được câu trả lời rõ ràng.
- Sự từ chối này tiếp tục gây ra lo ngại trong cộng đồng về vấn đề quyền riêng tư và sử dụng dữ liệu cá nhân mà không có sự đồng ý của người dùng.
- Trong quá khứ, OpenAI đã bị chỉ trích vì không minh bạch về nguồn dữ liệu huấn luyện cho các mô hình AI của mình, và vấn đề này vẫn chưa được giải quyết.
- Người dùng và chuyên gia trong lĩnh vực công nghệ đều bày tỏ sự quan ngại về khả năng vi phạm quyền riêng tư và thiếu kiểm soát dữ liệu cá nhân.
- Một số người dùng đã kêu gọi OpenAI công bố rõ ràng các nguồn dữ liệu mà họ sử dụng để huấn luyện các mô hình AI, để người dùng có thể hiểu rõ hơn về cách thức dữ liệu của họ được sử dụng.
- Các tổ chức bảo vệ quyền riêng tư cũng đã lên tiếng yêu cầu có sự minh bạch hơn từ các công ty công nghệ lớn như OpenAI, đặc biệt là khi các công nghệ mới ngày càng ảnh hưởng đến đời sống cá nhân.
📌 OpenAI tiếp tục từ chối xác nhận việc sử dụng nội dung cá nhân trong huấn luyện AI Sora, gây ra lo ngại về quyền riêng tư. Cộng đồng và các tổ chức bảo vệ quyền riêng tư đang yêu cầu minh bạch hơn về nguồn dữ liệu được sử dụng.
Citations:
[1] https://petapixel.com/2024/05/10/openai-again-refuses-to-say-if-it-used-your-content-to-train-sora/
- Krea AI, một công ty khởi nghiệp về truyền thông AI tạo sinh ít được biết đến ở San Francisco do Victor Pérez và Diego Rodriguez đồng sáng lập, đã ra mắt phiên bản beta công khai vào cuối năm 2023.
- Ban đầu, Krea cung cấp tính năng nâng cấp hình ảnh AI, sau đó bổ sung khả năng tạo hình ảnh AI thời gian thực và giao diện người dùng mới với các công cụ vẽ dựa trên con trỏ.
- Mới đây, Krea đã nâng cấp để cho phép người đăng ký gói Max (60 đô la/tháng) tạo video bằng AI. Người dùng có thể truy cập trang web Krea AI và chọn mục "Video" để bắt đầu dự án video mới.
- Người dùng có thể hủy quá trình tạo video bất kỳ lúc nào, mang lại sự kiểm soát và hiệu quả cao hơn.
- Mặc dù chưa đạt được độ chân thực như các đối thủ, Krea Video vẫn có thể tạo ra video mượt mà, chuyển cảnh độc đáo, cuốn hút và hình ảnh hoạt hình ấn tượng.
- Khả năng này không chỉ giúp Krea AI nổi bật so với các đối thủ mà còn thu hút gần một triệu người dùng.
📌 Krea AI đã nâng cấp để cung cấp tính năng tạo video AI cho người đăng ký gói Max với giá 60 đô la/tháng. Mặc dù chưa đạt độ chân thực như đối thủ, Krea Video vẫn tạo ra được video mượt mà, chuyển cảnh độc đáo và hình ảnh ấn tượng, giúp công ty thu hút gần 1 triệu người dùng.
Citations:
[1] https://venturebeat.com/ai/a-new-video-ai-generator-emerges-krea-ai-adds-capabilities-for-paid-subscribers/
- Liên hoan phim AI quốc tế lần thứ 2 (AIFF) do Runway tổ chức diễn ra tại Nhà hát Orpheum ở Trung tâm Los Angeles vào ngày 1/5, thu hút hơn 400 nhà sản xuất, họa sĩ hoạt hình, diễn viên và đạo diễn tham dự.
- Sự kiện có sự hợp tác của Liên hoan phim Tribeca và Liên hoan phim quốc tế Geneva (GIFF), đánh dấu bước ngoặt cho sự hội nhập của AI tạo sinh vào Hollywood.
- Các bộ phim được trình chiếu sử dụng các mô hình AI Gen-1 và Gen-2 của Runway cùng các công cụ AI khác như Luma AI, ComfyUI, kết hợp với các kỹ thuật làm phim truyền thống.
- Đạo diễn Daniel Antebi chia sẻ họ dùng Luma AI để tái tạo và ghi lại môi trường 3D, công cụ video-to-video của Runway để tăng cường hiệu ứng, và ComfyUI để tạo ra diễn viên hoàn toàn bằng cơ bắp nhờ AI.
- Caleb Ward, người điều hành khóa học làm phim AI nổi tiếng Curious Refuge, tiết lộ ông sẽ mang đến sự hiện diện đáng kể của phim AI tại Liên hoan phim Cannes 2024 tại Pháp (14-25/5).
- Anastasis Germanidis, đồng sáng lập và CTO của Runway, cho biết họ sẽ tiếp tục xây dựng các công cụ giúp người dùng kiểm soát tốt hơn việc chỉ đạo nghệ thuật.
- Alejandro Matamala, đồng sáng lập và CDO của Runway, nói rằng chúng ta sẽ tiếp tục chứng kiến các nhà sáng tạo nâng cao khả năng - nhà văn sẽ trở thành họa sĩ hoạt hình, họa sĩ hoạt hình sẽ chuyển sang làm đạo diễn.
📌 Liên hoan phim AI quốc tế lần 2 của Runway quy tụ hơn 400 người trong ngành công nghiệp điện ảnh, đánh dấu bước ngoặt cho sự hội nhập của AI tạo sinh vào Hollywood. Các bộ phim sử dụng công nghệ AI của Runway và các công cụ khác, hứa hẹn giúp các nhà sáng tạo nâng tầm khả năng trong tương lai.
Citations:
[1] https://venturebeat.com/ai/runways-la-film-festival-marked-an-inflection-point-for-ai-movies/
- Zhipu AI, một start-up hàng đầu về AI tạo sinh tại Trung Quốc, có kế hoạch phát hành dịch vụ chuyển đổi văn bản thành video, nhằm cạnh tranh với Sora của OpenAI vào cuối năm nay.
- Công ty có trụ sở tại Bắc Kinh này đã bắt đầu phát triển mô hình ngôn ngữ lớn (LLM) cho video trước khi OpenAI công bố các đoạn video do Sora tạo ra vào tháng Hai.
- Zhipu AI dự đoán sự bùng nổ của các LLM có khả năng chuyển đổi các lệnh văn bản thành video trong năm nay do nhu cầu đa dạng từ các khách hàng trong lĩnh vực phim ảnh đến sản xuất trò chơi điện tử.
- Công ty này dự kiến ra mắt "công cụ chuyển đổi văn bản thành video chất lượng cao" vào năm nay.
- Các công ty Trung Quốc đã đua nhau bắt kịp các công ty AI tạo sinh hàng đầu thế giới kể từ khi OpenAI, được hỗ trợ bởi Microsoft, giới thiệu bot trò chuyện ChatGPT vào cuối năm 2022 và sau đó là Sora vào tháng Hai năm nay.
- Công ty khởi nghiệp có trụ sở tại Bắc Kinh, Shengshu Technology và Đại học Thanh Hoa, đã phát hành công cụ chuyển đổi văn bản thành video Vidu, được coi là hy vọng tốt nhất của Trung Quốc cho đến nay trong việc cạnh tranh với Sora.
- Mô hình AI của Shengshu có thể tạo ra các video với độ phân giải 1080p không dài hơn 16 giây dựa trên các lệnh văn bản đơn giản.
- Dịch vụ của OpenAI hiện không chính thức có mặt tại Trung Quốc, nơi có khoảng 200 LLM đã xuất hiện, theo số liệu chính phủ gần đây.
- Zhipu AI, được thành lập vào năm 2019 bởi một nhóm sinh viên tốt nghiệp khoa học máy tính từ Đại học Thanh Hoa, là một trong những công ty Trung Quốc đầu tiên khám phá phát triển LLMs.
- Zhipu AI được biết đến là một trong "4 con hổ AI mới" của Trung Quốc, cùng với các start-up Moonshot AI, Baichuan và MiniMax.
- Công ty này được các quỹ đầu tư mạo hiểm và các gã khổng lồ công nghệ trong nước hậu thuẫn, bao gồm Tencent Holdings, Meituan, Xiaomi và Alibaba Group Holding.
- Zhipu AI đã huy động được 2,5 tỷ nhân dân tệ (khoảng 346 triệu USD) từ các nhà đầu tư vào năm ngoái.
- Một đánh giá gần đây của Đại học Thanh Hoa, đã xem xét 14 LLM đại diện từ Trung Quốc và nước ngoài, xếp hạng GLM-4 của Zhipu AI là một trong hai mô hình hàng đầu trong nước.
📌 Zhipu AI, một start-up AI hàng đầu của Trung Quốc, dự kiến sẽ ra mắt công cụ chuyển đổi văn bản thành video vào cuối năm 2024 để cạnh tranh với Sora của OpenAI. Công ty này đã phát triển mô hình ngôn ngữ lớn cho video và được hỗ trợ bởi các tập đoàn công nghệ lớn như Tencent và Alibaba. GLM-4 của họ được xếp hạng cao trong các mô hình ngôn ngữ lớn tại Trung Quốc.
https://www.scmp.com/tech/tech-trends/article/3261770/chinese-unicorn-zhipu-ai-launch-sora-rival-early-2024-amid-local-race-catch-openai-report
- Sarvam AI, được thành lập vào tháng 7 năm 2023 tại Bengaluru, Ấn Độ, bởi Vivek Raghavan và Pratyush Kumar, nhằm mục đích làm cho AI sinh tạo trở nên dễ tiếp cận hơn cho mọi người tại Ấn Độ.
- Công ty đã huy động được 41 triệu USD trong vòng gọi vốn Series A vào tháng 12 năm trước, với sự tham gia của Lightspeed Ventures, Peak XV Partners và Khosla Ventures.
- Sarvam AI hiện có một đội ngũ nhỏ gồm 25 thành viên và không có kế hoạch mở rộng đáng kể, chỉ dự kiến tăng lên 30-40 người.
- Công ty đã phát triển và cung cấp nguồn mở mô hình LLM tiếng Hindi OpenHathi dựa trên Llama 2 của Meta, và đã được tải xuống hơn 18.000 lần trong tháng trước trên Hugging Face.
- Sarvam AI cũng đã phát hành nguồn mở bộ dữ liệu "Samvaad", bao gồm 100.000 cuộc đối thoại chất lượng cao bằng tiếng Anh, Hindi và Hinglish, với tổng cộng hơn 700,000 lượt trao đổi.
- Công ty đang hợp tác với Meta để xây dựng các mô hình LLM bản địa và đã thử nghiệm với các mô hình nguồn mở khác như Mistral và Databricks DBRX.
- Sarvam AI không chỉ tập trung vào việc xây dựng LLM từ đầu mà còn nhấn mạnh việc tạo ra các sản phẩm hữu ích cho thị trường và thúc đẩy AI sinh tạo tiến lên tại Ấn Độ.
- Công ty cũng đang phát triển các hệ thống agentic, cho phép người dùng không chỉ nhận thông tin mà còn có thể thực hiện hành động, và dự kiến sẽ công bố những phát triển này trong những tháng tới.
- Sarvam AI nhấn mạnh vào việc sử dụng giao diện giọng nói, với kế hoạch hỗ trợ 10 ngôn ngữ và có thể mở rộng thêm trong tương lai.
📌 Sarvam AI, với trụ sở tại Bengaluru, đã huy động được 41 triệu USD và phát triển các mô hình LLM như OpenHathi. Công ty tập trung vào AI sinh tạo với các ứng dụng tiếng Ấn Độ và hệ thống agentic, hướng tới việc mở rộng hỗ trợ ngôn ngữ và giao diện giọng nói.
https://analyticsindiamag.com/is-sarvam-ai-the-openai-of-india/
- "Simplicity’s Delight" là một bài hát pop được tạo ra bởi phần mềm của Suno Inc, một startup chuyên về công nghệ AI trong âm nhạc, cho thấy khả năng tạo ra âm nhạc nghe như do con người thực hiện chỉ trong vài giây.
- Các công ty khởi nghiệp AI như Suno và Udio đang dẫn đầu cuộc cách mạng âm nhạc AI, với Suno cho phép tạo bài hát lên đến hai phút và Udio cho phép tạo nhạc trong khoảng 30 giây.
- Cả hai công ty đều cung cấp các phiên bản miễn phí: người dùng Udio có thể tạo 1.200 bài hát mỗi tháng trong khi sản phẩm vẫn đang thử nghiệm beta, và người dùng Suno có thể tạo 10 bài hát mỗi ngày hoặc trả phí hàng tháng để nhận thêm tính năng.
- Các nghệ sĩ và nhãn hiệu âm nhạc lo ngại về tác động của AI đến sinh kế của họ và đã kêu gọi hạn chế sử dụng AI trong âm nhạc, với hàng trăm nghệ sĩ ký vào một bức thư ngỏ.
- Các công ty lớn như OpenAI và Google đã thử nghiệm tính năng tạo nhạc AI nhưng chưa đưa ra thị trường dưới dạng sản phẩm tiêu dùng, trong khi đó Google DeepMind đã giới thiệu nhưng chưa phát hành công cụ tạo nhạc Lyria.
- Các công ty AI đang đối mặt với các thách thức pháp lý liên quan đến bản quyền và sử dụng dữ liệu đào tạo, với các vụ kiện từ các nhà xuất bản âm nhạc và các nhãn hiệu lớn.
- Suno và Udio không tiết lộ dữ liệu đào tạo cụ thể của họ, nhưng đều khẳng định rằng họ tuân thủ pháp luật và đang tìm cách bồi thường công bằng cho các nghệ sĩ.
📌 Kỷ nguyên âm nhạc AI đang dần hình thành với các công ty như Suno và Udio dẫn đầu, tạo ra âm nhạc nghe như do con người thực hiện. Tuy nhiên, điều này cũng đặt ra những lo ngại về bản quyền và tác động đến ngành công nghiệp âm nhạc, với các nghệ sĩ và nhãn hiệu đang kêu gọi hạn chế sử dụng AI.
Citations:
[1] https://www.bloomberg.com/news/articles/2024-05-06/suno-udio-and-more-the-ai-music-era-is-here-not-everyone-is-a-fan
- ElevenLabs, một công ty khởi nghiệp AI đột phá, cho phép người dùng dễ dàng nhân bản giọng nói của mình hoặc tạo ra giọng nói mới.
- Công ty cung cấp khả năng tạo giọng nói với các giọng điệu, ngữ điệu khác nhau và lồng tiếng clip sang nhiều ngôn ngữ.
- ElevenLabs được thành lập bởi Mati Staniszewski và Piotr Dabkowski từ Ba Lan, với tầm nhìn về tương lai nơi giọng nói AI sẽ chấm dứt việc lồng tiếng một cách vụng về.
- Với chỉ 7 nhà nghiên cứu, ElevenLabs đã xây dựng công cụ giọng nói vượt trội so với các gã khổng lồ công nghệ có hàng trăm, hàng nghìn nhân viên.
- Tham vọng của công ty vượt ra ngoài việc nhân bản giọng nói, hướng tới việc loại bỏ hoàn toàn rào cản ngôn ngữ.
- ElevenLabs đang phát triển công cụ lồng tiếng dịch giọng nói của người nói sang ngôn ngữ khác và công cụ dịch ngay lập tức mọi âm thanh xung quanh một người sang ngôn ngữ họ có thể hiểu.
- Tuy nhiên, sức mạnh lớn đi kèm với trách nhiệm lớn. Các chatbot giọng nói của ElevenLabs đã bị lạm dụng ngay sau khi ra mắt, với việc những kẻ quấy rối tạo ra deepfake của người nổi tiếng nói những điều khủng khiếp.
📌 ElevenLabs đang dẫn đầu cuộc cách mạng về công nghệ nhân bản giọng nói và dịch ngôn ngữ với chỉ 7 nhà nghiên cứu. Tuy nhiên, việc lạm dụng công nghệ này để tạo deepfake cho thấy trách nhiệm đi kèm với sức mạnh của AI là rất lớn, đòi hỏi sự chuẩn bị kỹ lưỡng của các nhà sáng lập.
Citations:
[1] https://www.theatlantic.com/technology/archive/2024/05/elevenlabs-ai-voice-cloning-deepfakes/678288/
- Ideogram, một startup AI đến từ Toronto, Canada, do các nhà nghiên cứu cũ của Google Brain sáng lập, vừa công bố gói Pro mới dành cho những người sáng tạo chuyên nghiệp và năng suất nhất.
- Gói Pro có giá 48 USD/tháng (thanh toán hàng năm) hoặc 60 USD (thanh toán hàng tháng), bổ sung vào các gói miễn phí, Basic (7 USD/tháng) và Plus (16 USD/tháng) hiện có.
- Gói Pro cho phép người dùng đệ trình tới 3.000 prompt văn bản mỗi tháng lên ứng dụng web tạo ảnh AI của Ideogram, tất cả sẽ được ưu tiên tạo ảnh nhanh, mất dưới 15 giây để tạo 4 ảnh cùng lúc, tổng cộng 12.000 ảnh mỗi tháng.
- Tính năng giữ kín các tác phẩm được tạo ra khỏi cộng đồng và nguồn cấp dữ liệu công khai của Ideogram, cũng như tải lên ảnh của chính mình để remix cũng có trong gói Pro.
- Tuy nhiên, hình ảnh được tạo trên Ideogram không đi kèm bảo hiểm cho doanh nghiệp như OpenAI và Adobe cung cấp, nên người dùng lo ngại về vi phạm bản quyền tiềm ẩn có thể ít sử dụng công cụ này cho các dự án thương mại như quảng cáo, tiếp thị, tài liệu bán hàng, v.v.
- Ideogram dường như cho phép sử dụng thương mại dựa trên điều khoản dịch vụ của họ.
📌 Ideogram đã ra mắt gói Pro với mức giá 48-60 USD/tháng, cung cấp 12.000 ảnh được tạo nhanh bởi AI mỗi tháng cùng các tính năng nâng cao, nhằm cạnh tranh với các đại gia như Adobe và Meta. Tuy nhiên, hình ảnh tạo ra không có bảo hiểm cho doanh nghiệp, có thể gây e ngại về vi phạm bản quyền khi sử dụng cho mục đích thương mại.
Citations:
[1] https://venturebeat.com/ai/ideogram-launches-pro-tier-with-12000-fast-ai-image-generations-per-month/
- Versus, một công ty khởi nghiệp về AI, đã ra mắt Vivi, một nền tảng cho phép người dùng tạo nội dung tương tác từ văn bản, hình ảnh và video chỉ trong vài phút.
- Vivi sử dụng các mô hình ngôn ngữ lớn và thị giác máy tính để phân tích nội dung và tạo ra các trải nghiệm tương tác như trò chơi, bài kiểm tra và hội thoại.
- Người dùng chỉ cần cung cấp URL, văn bản hoặc hình ảnh và Vivi sẽ tự động tạo nội dung tương tác mà không cần kỹ năng lập trình.
- Vivi hỗ trợ nhiều loại nội dung như bài báo, bài đăng trên blog, sách điện tử, bài thuyết trình, hình ảnh sản phẩm và video.
- Nền tảng này nhằm mục đích giúp các nhà tiếp thị, nhà giáo dục và người sáng tạo nội dung thu hút khán giả và tăng sự tương tác.
- Vivi cung cấp các mẫu tùy chỉnh, chủ đề và cài đặt để người dùng có thể điều chỉnh nội dung tương tác theo nhu cầu của họ.
- Người dùng cũng có thể nhúng nội dung Vivi vào trang web hoặc ứng dụng của họ bằng một dòng mã đơn giản.
- Versus đã huy động được 4 triệu USD từ các nhà đầu tư để phát triển nền tảng Vivi.
- Công ty có kế hoạch mở rộng sang các lĩnh vực khác như truyền thông xã hội, thương mại điện tử và chăm sóc sức khỏe trong tương lai.
📌 Vivi, nền tảng AI mới của Versus, cho phép tạo nội dung tương tác từ văn bản, hình ảnh và video trong vài phút mà không cần kỹ năng lập trình. Với khoản đầu tư 4 triệu USD, Vivi hướng tới việc thu hút người dùng và tăng tương tác trên nhiều lĩnh vực.
Citations:
[1] https://venturebeat.com/ai/versus-launches-vivi-an-ai-platform-transforming-passive-content-into-interactive-experiences/
- GenreX, một startup AI đang được ươm tạo tại AI2 Incubator ở Seattle, vừa ra mắt bản beta của công nghệ video-to-music (video sang nhạc) được coi là "đột phá" và "bước tiến đáng kể".
- Công cụ AI của GenreX không cần dùng prompt văn bản như ChatGPT hay Midjourney, mà phân tích các thuộc tính của video (như đoạn phim trượt tuyết) và dùng thông tin đó để chỉ đạo bộ tạo nhạc đưa ra bản nhạc nền gốc trong vài giây.
- Nếu nhạc không phù hợp, người dùng chỉ cần bấm "regenerate" (tạo lại) để có bản nhạc mới. Công cụ không bao giờ tạo ra cùng một bản nhạc.
- Đây là bước đi mới nhất của các startup gắn AI vào sáng tạo âm nhạc. Các công ty khác như Soundry AI cũng dùng AI tạo sinh để tạo nhạc.
- Đồng sáng lập Yihao Chen cho biết anh bắt đầu công ty sau khi nhiều bạn nhạc sĩ than phiền gặp khó khăn trong cảm hứng sáng tạo. Anh coi AI và công nghệ nói chung là công cụ thúc đẩy sáng tạo của con người.
- Hiện tại, công cụ AI tạo nhạc của GenreX được dùng miễn phí trong ứng dụng riêng.
📌 GenreX đã ra mắt công cụ AI tạo nhạc nền cho video mà không cần prompt văn bản, được coi là bước đột phá trong sáng tạo nội dung. Công nghệ phân tích video và tạo ra bản nhạc gốc trong vài giây, hứa hẹn thúc đẩy sáng tạo của các nhà làm phim và nhạc sĩ. Hiện công cụ đang miễn phí trên ứng dụng riêng của GenreX.
Citations:
[1] https://www.geekwire.com/2024/ai-startups-new-tool-creates-music-for-video-footage-without-requiring-text-prompts/
- Udio và Suno là hai công cụ tạo nhạc AI hàng đầu, cho phép tạo ra các bản nhạc chỉ bằng lệnh văn bản đơn giản.
- Để sử dụng, người dùng chỉ cần nhập lệnh văn bản kèm thể loại, nhạc cụ và các chi tiết liên quan, sau đó nhấn nút "Tạo". Kết quả là các đoạn nhạc ngắn được tạo ra.
- Tác giả đã thử nghiệm 7 lệnh khác nhau, từ đơn giản đến phức tạp, trên cả Udio và Suno để so sánh.
- Udio có tính năng mạnh mẽ là cho phép duyệt catalog để sao chép thông tin lệnh và thể loại. Tác giả đã thêm các chi tiết lệnh như du dương, thơ mộng, hip hop trừu tượng,...
- Suno có một số hạn chế như không thể kéo dài bản nhạc quá 1 phút 03 giây, giao diện và quá trình ghép đoạn nhạc gây cản trở trải nghiệm sáng tạo.
- Suno cũng tạo ra các đoạn tạm dừng kỳ lạ dài 7 giây ở giữa bài và thêm giọng hát đơn điệu làm giảm chất lượng bản nhạc.
- Đáng ngạc nhiên là AI thậm chí có thể tạo ra các đoạn hài kịch tương đối ổn. Suno đã thử tạo hài kịch.
📌 Udio và Suno là hai công cụ tạo nhạc AI hàng đầu với khả năng tạo bản nhạc từ lệnh văn bản đơn giản. Qua 7 lệnh thử nghiệm, Udio cho thấy ưu thế hơn với tính năng mạnh mẽ và chất lượng bản nhạc tốt hơn. Trong khi đó, Suno còn một số hạn chế về thời lượng, giao diện và chất lượng âm thanh cần cải thiện.
Citations:
[1] https://www.tomsguide.com/ai/suno-vs-udio-7-prompts-to-find-the-best-ai-music-generator
- Đại học Thanh Hoa và công ty AI ShengShu Technology đã cùng nhau phát triển và công bố mô hình AI lớn có khả năng chuyển đổi từ văn bản sang video, có tên là Vidu.
- Vidu được giới thiệu tại Diễn đàn Zhongguancun ở Bắc Kinh vào ngày 27 tháng 4 năm 2024.
- Mô hình AI Vidu có khả năng tạo ra video độ nét cao 1080p dài 16 giây chỉ với một cú nhấp chuột.
- Vidu là mô hình AI lớn đầu tiên của Trung Quốc với "thời lượng mở rộng, tính nhất quán xuất sắc và khả năng động".
- Mô hình này có thể hiểu và tạo ra nội dung tiếng Trung, bao gồm cả hình ảnh của gấu trúc và rồng Trung Quốc.
- Cùng ngày, Đại học Thanh Hoa cũng đã thành lập Trường Khoa học AI, tập trung vào lý thuyết cơ bản và kiến trúc cốt lõi của AI cũng như việc đào tạo tài năng kết hợp "AI + X".
- Trường nhằm xây dựng cơ sở cao cấp cho tài năng AI hàng đầu của Trung Quốc và đổi mới sáng tạo gốc rễ thông qua cơ chế mới, hỗ trợ mạnh mẽ cho việc đạt được tự lực công nghệ cấp cao.
- Andrew Chi-Chih Yao, người đoạt giải Turing và là thành viên của Học viện Khoa học Trung Quốc, sẽ đảm nhận vị trí hiệu trưởng đầu tiên của trường.
- Trường Khoa học AI của Đại học Thanh Hoa dự kiến sẽ đạt được đột phá trong nghiên cứu cơ bản và công nghệ cốt lõi quan trọng, củng cố nền tảng phát triển AI thế hệ mới của Trung Quốc và thúc đẩy ứng dụng AI trong nhiều ngành công nghiệp.
- Trường cũng có kế hoạch duy trì giao lưu và hợp tác quốc tế cấp cao trong lĩnh vực AI, tận dụng lợi thế của một trường đại học tổng hợp.
📌 Mô hình AI Vidu, sản phẩm hợp tác giữa Đại học Thanh Hoa và ShengShu Technology, có khả năng tạo video từ văn bản chỉ với một cú nhấp chuột, đánh dấu bước tiến quan trọng trong lĩnh vực AI của Trung Quốc. Trường Khoa học AI mới thành lập tại Đại học Thanh Hoa hứa hẹn sẽ là nơi đào tạo tài năng AI hàng đầu và thúc đẩy đổi mới sáng tạo.
Citations:
[1] https://news.cgtn.com/news/2024-04-28/China-developed-text-to-video-large-AI-model-unveiled-in-Beijing-1taeuzOCze0/p.html
- Vidu, mô hình AI tạo video của Trung Quốc, được phát triển bởi Đại học Thanh Hoa và công ty AI ShengShu Technology, đã được giới thiệu tại Diễn đàn Zhongguancun ở Bắc Kinh vào ngày 27 tháng 4 năm 2024.
- Mô hình này sử dụng công nghệ Diffusion và Transformer tiên tiến, cho phép tạo ra video có độ phân giải cao trong 16 giây, với khả năng tái hiện chi tiết phức tạp như ánh sáng, bóng tối và biểu cảm khuôn mặt một cách chân thực.
- Vidu được thiết kế để hiểu sâu sắc các yếu tố văn hóa Trung Quốc, có khả năng tích hợp các biểu tượng văn hóa đặc trưng như gấu trúc và rồng thần thoại (loong), làm tăng sự kết nối với khán giả và người sáng tạo nội dung địa phương.
- Zhu Jun, phó viện trưởng Viện Trí tuệ Nhân tạo tại Đại học Thanh Hoa và là nhà khoa học trưởng của ShengShu-AI, nhấn mạnh sự phù hợp của lộ trình kỹ thuật của Vidu với việc ra mắt Sora, thúc đẩy tiến bộ trong nghiên cứu.
- Công nghệ cốt lõi của Vidu, U-ViT, đã được đề xuất trước khi kiến trúc mô hình DiT (Diversity in Transformation) của Sora được công bố, cho thấy sự tiên phong của Trung Quốc trong lĩnh vực AI.
- Vidu không chỉ là một bước tiến về mặt công nghệ mà còn là một thành tựu chiến lược, thể hiện cam kết của Trung Quốc trong việc dẫn đầu sự phát triển AI, đồng thời cân bằng lợi ích quốc gia và bản sắc văn hóa.
📌 Vidu, mô hình AI tạo video của Trung Quốc, sử dụng công nghệ Diffusion và Transformer, có khả năng tạo ra video chất lượng cao và hiểu biết sâu sắc về văn hóa Trung Quốc. Được giới thiệu tại Diễn đàn Zhongguancun, Vidu thể hiện sự tiên phong trong công nghệ và cam kết của Trung Quốc trong việc phát triển AI.
Citations:
[1] https://www.aitoolsclub.com/meet-vidu-a-chinese-ai-video-generator-and-the-first-real-challenger-to-sora-by-openai/
- Shy Kids mất gần 2 tuần để tạo ra video ngắn Air Head bằng Sora của OpenAI, chủ yếu do các hạn chế của AI.
- Sora thiếu tính mạch lạc, buộc nhóm sản xuất phải sử dụng phương pháp chỉnh sửa không chính thống, giống như tạo phim tài liệu.
- Tỷ lệ giữa tài liệu gốc và nội dung cuối cùng là 300:1, tức Shy Kids chỉ sử dụng khoảng 0.33% video do Sora tạo ra trong bản chỉnh sửa cuối cùng.
- Ngoài việc tạo hàng trăm clip, nhóm còn phải thực hiện thủ công các tác vụ thông thường như chỉnh màu, định giờ lại và thậm chí VFX để loại bỏ các yếu tố không mong muốn.
- Trong một clip, Sora tạo ra quả bóng bay có khuôn mặt in trên mặt trước, trong clip khác, bóng bay có màu sắc khác nhau hoặc có dây treo không mong muốn ở phía dưới, tất cả đều phải được loại bỏ.
📌 Mặc dù Sora và AI tạo video đã tiến bộ vượt bậc, nhưng có vẻ như nó còn lâu mới thay thế được các nghệ sĩ hậu trường, đặc biệt nếu nội dung được tạo ra cần có tính mạch lạc hoặc dài hơn vài giây. Shy Kids đã phải mất gần 2 tuần và rất nhiều công sức chỉnh sửa để tạo ra video Air Head ngắn dưới 2 phút từ hàng trăm clip do Sora tạo ra.
Citations:
[1] https://www.notebookcheck.net/OpenAI-s-Sora-finicky-to-work-with-needs-hundreds-of-prompts-serious-VFX-work-for-under-2-minutes-of-cohesive-story.831515.0.html
- Boris Elgadsen, người từng đoạt giải nhất hạng mục Sáng tạo tại Sony World Photography Awards năm ngoái với một bức ảnh AI, đang rao bán tác phẩm "The Electrician" với giá 21.500 đô la (khoảng 20.000 euro).
- Bức ảnh gây tranh cãi của nghệ sĩ người Đức đang được trưng bày tại Phòng trưng bày Palmer ở London, trong khuôn khổ triển lãm có tên "Post-Photography: The Uncanny Valley".
- Triển lãm còn có các bức ảnh AI khác cũng đang được rao bán, tuy nhiên không có tác phẩm nào có giá bằng "The Electrician" của Elgadsen.
- 20.000 đô la vẫn thấp hơn nhiều so với tác phẩm nghệ thuật AI đắt nhất từng được bán - một tác phẩm vào năm 2018 đã được bán với giá hơn 400.000 đô la.
- Tác phẩm của Elgadsen được trưng bày cùng các nghệ sĩ Nouf Aljowaysir và Ben Millar Cole, trong một chuỗi triển lãm kết hợp giữa nhiếp ảnh và nghệ thuật tổng hợp.
- Ngay sau khi giành giải nhất hạng mục Sáng tạo tại Sony World Photography Awards 2023, Elgadsen đã tiết lộ rằng bức ảnh được tạo ra bởi AI, trước khi từ chối nhận giải thưởng.
- Bức ảnh là một phần trong chuỗi tác phẩm có tên "Pseudomesia: Fake Memories" mà Elgadsen đã thực hiện từ năm 2022.
📌 Bức ảnh AI "The Electrician" của nghệ sĩ Boris Elgadsen, từng gây tranh cãi khi đoạt giải nhất tại Sony World Photography Awards 2023, đang được rao bán với mức giá 21.500 đô la tại một triển lãm ở London. Dù chưa phải là tác phẩm nghệ thuật AI đắt nhất từng được bán, nhưng đây vẫn là một mức giá đáng chú ý cho thấy sự phát triển của trào lưu nghệ thuật AI.
Citations:
[1] https://petapixel.com/2024/04/26/ai-image-that-won-sony-world-photo-award-is-being-sold-for-21000/
- Google, Meta, OpenAI cùng nhiều công ty công nghệ lớn khác đã cam kết thực thi các biện pháp bảo vệ xung quanh công nghệ AI tạo sinh để chống lại nội dung lạm dụng tình dục trẻ em (CSAM).
- Liên minh này được thành lập bởi hai tổ chức phi lợi nhuận là Thorn (tổ chức công nghệ trẻ em) và All Tech is Human.
- Thorn được thành lập năm 2012 bởi các diễn viên Demi Moore và Ashton Kutcher, tập trung phát triển các công cụ và nguồn lực bảo vệ trẻ em khỏi bị lạm dụng và bóc lột tình dục.
- Báo cáo mới của Thorn kêu gọi áp dụng nguyên tắc "An toàn theo thiết kế" trong phát triển AI tạo sinh, ngăn chặn việc tạo ra CSAM trong toàn bộ vòng đời của một mô hình AI.
- Nội dung khiêu dâm trẻ em deepfake đã tăng vọt sau khi các mô hình AI tạo sinh được công khai, với các mô hình AI độc lập không cần dịch vụ đám mây đang được lưu hành trên các diễn đàn web đen.
- AI tạo sinh giúp việc tạo ra khối lượng nội dung CSAM dễ dàng hơn bao giờ hết. Một kẻ ấu dâm có thể tạo ra số lượng lớn CSAM, bao gồm cả chỉnh sửa hình ảnh và video gốc thành nội dung mới.
- Năm 2022, Thorn phát hiện hơn 824.466 tệp chứa tài liệu lạm dụng trẻ em. Năm ngoái, hơn 104 triệu tệp CSAM bị tình nghi đã được báo cáo chỉ riêng ở Mỹ.
📌 Liên minh các công ty công nghệ lớn như Google, Meta, OpenAI cam kết chống lại nội dung lạm dụng tình dục trẻ em được tạo bởi AI tạo sinh. Báo cáo của Thorn cho thấy AI tạo sinh giúp việc sản xuất CSAM dễ dàng hơn, với hơn 824.000 file lạm dụng trẻ em được phát hiện năm 2022 và 104 triệu file bị tình nghi ở Mỹ năm ngoái. Thorn kêu gọi áp dụng nguyên tắc "An toàn theo thiết kế" để ngăn chặn vấn nạn này.
Citations:
[1] https://decrypt.co/227731/aig-csam-google-meta-openai-fight-ai-child-sexual-abuse-material
- Adobe giới thiệu phiên bản beta hoàn toàn mới của Photoshop được xây dựng dựa trên những tiến bộ của mô hình Firefly Image 3 Foundation Model.
- Tính năng Generative Fill được cải tiến đáng kể, cho phép người dùng tăng cường bằng hình ảnh tham chiếu, hứa hẹn kết quả chân thực và chính xác hơn với khả năng kiểm soát nâng cao.
- Tính năng Generate Image mới cung cấp tùy chọn tương tự như Adobe Firefly, biến trang trắng thành bức tranh phong phú.
- Mô hình Firefly Image 3 Foundation Model hiện có sẵn trong Photoshop, cung cấp sức mạnh cho Generative Fill, Generative Expand và Generate Image.
- Các nhiếp ảnh gia có thể sử dụng hình ảnh tham chiếu khi dùng Generative Fill, Generate Image và Generative Expand.
- Tính năng Generate Similar mới cho phép tạo ra các biến thể tương tự của hình ảnh.
- Adobe bổ sung Adjustment Brush cho phép người dùng áp dụng các điều chỉnh không phá hủy lên các vùng cụ thể của hình ảnh.
- Adjustment Presets mới lấy cảm hứng từ Lightroom cho phép thay đổi nhanh giao diện hình ảnh bằng bộ lọc một lần nhấp.
📌 Bản cập nhật lớn của Photoshop nâng tầm sáng tạo lên mức chưa từng có với các tính năng AI tạo sinh mới dựa trên mô hình Firefly Image 3, như Generative Fill, Generate Image, Generative Expand. Ngoài ra còn có Adjustment Brush và Adjustment Presets giúp chỉnh sửa hình ảnh linh hoạt hơn.
Citations:
[1] https://petapixel.com/2024/04/23/adobe-introduces-one-of-its-most-significant-photoshop-updates-ever/
- Sakana AI, một startup AI của Nhật Bản, đã giới thiệu EvoSDXL-JP, một mô hình sinh ảnh mới được xây dựng thông qua phương pháp Evolutionary Model Merge, cho phép sinh ảnh phong cách Nhật Bản nhanh hơn gấp 10 lần so với mô hình trước.
- EvoSDXL-JP hiện đã được công bố công khai trên nền tảng HuggingFace, dành cho mục đích nghiên cứu và giáo dục, kèm theo một bản demo dễ tiếp cận để thử nghiệm ngay lập tức.
- Mô hình này hỗ trợ tiếng Nhật và có khả năng sinh ảnh theo phong cách Nhật Bản bằng cách kết hợp các mô hình nguồn mở khác nhau.
- Theo công bố từ Sakana AI, tốc độ suy luận của EvoSDXL-JP nhanh hơn 10 lần so với mô hình Nhật Bản hiện tại và cũng cho thấy hiệu suất tốt hơn trong các bài kiểm tra chuẩn.
- EvoSDXL-JP có khả năng sinh ảnh nhanh chóng và tiết kiệm chi phí, là mô hình lý tưởng để dễ dàng trải nghiệm và thử nghiệm AI tạo sinh.
- Sakana AI kỳ vọng mô hình này sẽ được sử dụng rộng rãi tại các trang web giáo dục ở Nhật Bản, giúp nhiều người hơn nữa có thể tận hưởng lợi ích của AI tạo sinh.
- Ngoài ra, Sakana AI cũng đã giới thiệu EvoLLM-JP, một mô hình ngôn ngữ lớn tiếng Nhật, và EvoVLM-JP, một mô hình ngôn ngữ ảnh, cả hai đều được xây dựng thông qua phương pháp Evolutionary Model Merge.
- EvoLLM-JP được tạo ra bằng cách kết hợp mô hình ngôn ngữ lớn (LLM) tiếng Nhật và LLM toán học, và đã cho thấy khả năng tốt không chỉ trong toán học mà còn trong khả năng tổng thể tiếng Nhật.
- EvoVLM-JP, được tạo ra bằng cách kết hợp LLM tiếng Nhật và mô hình ngôn ngữ ảnh (VLM), có thể phản hồi với kiến thức về văn hóa Nhật Bản và đạt kết quả tốt nhất trong các bài kiểm tra chuẩn sử dụng hình ảnh và văn bản tiếng Nhật.
📌 Sakana AI đã phát triển EvoSDXL-JP, một mô hình sinh ảnh tiên tiến với tốc độ xử lý nhanh gấp 10 lần, hỗ trợ tiếng Nhật và phong cách Nhật Bản, hiện có sẵn trên HuggingFace. Mô hình này hứa hẹn sẽ thúc đẩy việc sử dụng AI tạo sinh trong giáo dục và nghiên cứu tại Nhật Bản.
Citations:
[1] https://analyticsindiamag.com/sakana-ai-releases-japanese-dalle-3-calls-it-evosdxl-jp/
- MetaAI chatbot của Meta đã được nâng cấp với phiên bản cải tiến của công cụ tạo ảnh AI Imagine, cho phép tạo ảnh động GIF một cách nhanh chóng và sáng tạo.
- Tính năng mới cho phép hình ảnh được tạo ra theo thời gian thực khi người dùng nhập từ khóa, thay đổi theo từng từ mới cho đến một giới hạn nhất định.
- Hình ảnh được tạo ra có thể chuyển thành ảnh động GIF, thể hiện quá trình sáng tạo một cách sinh động.
- Đây là một trong những tính năng độc đáo của MetaAI Imagine chưa từng có ở các công cụ tạo ảnh khác, đặc biệt khi tích hợp trong giao diện chatbot.
- MetaAI Imagine nổi bật với tốc độ tạo ảnh nhanh, đa dạng phong cách từ siêu thực đến nghệ thuật, và khả năng tạo văn bản rõ ràng trên ảnh.
- Được hỗ trợ bởi mô hình ngôn ngữ lớn Llama 3, MetaAI có thể cung cấp hướng dẫn toàn diện cho Imagine ngay cả khi người dùng đưa ra yêu cầu ban đầu hạn chế.
- MetaAI diễn giải ý định của người dùng, gửi lệnh đã tinh chỉnh đến Imagine, trả về một loạt hình ảnh hấp dẫn theo thời gian thực ban đầu, sau đó là hình ảnh hoàn chỉnh hơn.
📌 MetaAI chatbot của Meta đã tích hợp phiên bản nâng cấp ấn tượng của công cụ tạo ảnh AI Imagine, cho phép tạo ảnh động GIF một cách nhanh chóng và sáng tạo. Tính năng độc đáo này cùng khả năng xử lý ngôn ngữ mạnh mẽ của mô hình Llama 3 đã mang đến trải nghiệm thú vị và tiện lợi cho người dùng trong việc tạo ra những hình ảnh sinh động theo ý tưởng của mình.
Citations:
[1] https://www.tomsguide.com/ai/ai-image-video/metas-imagine-ai-image-generator-just-got-a-big-gif-upgrade-and-im-obsessed
• Vào ngày 12/4/2024, phòng thí nghiệm nghiên cứu x.AI của Elon Musk đã phát hành Grok-1.5 Vision (Grok-1.5V), một mô hình đa phương thức mới kết hợp xử lý văn bản với khả năng hiểu dữ liệu hình ảnh.
• Grok-1.5V đánh dấu một bước tiến đáng kể trong lĩnh vực trí tuệ nhân tạo (AI).
• Grok là một chatbot AI có thể trả lời hầu hết mọi câu hỏi và đề xuất những câu hỏi cần hỏi. Nó có tính cách hài hước và kiến thức thế giới thực tế thông qua nền tảng 𝕏.
• Grok-1.5V nổi bật trong lĩnh vực suy luận đa lĩnh vực, hiểu không gian thế giới thực và bài đánh giá RealWorldQA.
• Grok-1.5V vượt trội so với các chatbot khác trong việc hiểu các tình huống thế giới thực mà không cần nhắc nhở chi tiết.
• Khả năng ấn tượng của Grok-1.5V bao gồm:
- Tạo ra mã hoạt động từ sơ đồ vẽ tay.
- Giải quyết các vấn đề lập trình.
- Tính nhãn dinh dưỡng từ ảnh.
- Đưa ra lời khuyên về bảo trì nhà cửa.
- Chuẩn bị câu chuyện đêm từ bức vẽ của trẻ em.
- Chuyển đổi bảng thành định dạng CSV dễ dàng.
- Khả năng giải thích meme một cách xuất sắc.
• Grok-1.5V có thể rút ngắn khoảng cách giữa thế giới ảo và thực, đây là một thành tựu đáng kể.
• Bài đánh giá RealWorldQA kiểm tra khả năng hiểu không gian của các mô hình đa phương thức, nhấn mạnh nhu cầu cải thiện khả năng hiểu môi trường vật lý của AI.
• Mặc dù các tác vụ có vẻ đơn giản với con người, nhưng chúng lại rất khó khăn đối với các công cụ AI hàng đầu, khiến thành tích của Grok-1.5V trở nên đáng chú ý.
📌 Grok-1.5 Vision (Grok-1.5V) đánh dấu khởi đầu của một kỷ nguyên mới trong AI đa phương thức, nơi các mô hình có khả năng hiểu dữ liệu hình ảnh và vật lý. Đổi mới này dẫn đường cho các ứng dụng AI tinh vi và thực tế hơn, đưa chúng ta đến gần hơn với các hệ thống thực sự thông minh và thích ứng.
Citations:
[1] https://www.aitoolsclub.com/grok-by-elon-musk-can-turn-diagrams-into-working-code/
- Microsoft giới thiệu hệ thống AI mới tên VASA-1, có khả năng tạo video chân thực của khuôn mặt nói chuyện chỉ từ một ảnh và một đoạn âm thanh.
- VASA-1 vượt xa khả năng đồng bộ môi đơn thuần, nắm bắt được nhiều biểu cảm, cảm xúc, chuyển động đầu và thậm chí cho phép điều khiển hướng nhìn và khoảng cách.
- Video không chỉ đồng bộ hoàn hảo chuyển động môi với âm thanh mà còn thể hiện nhiều sắc thái khuôn mặt tự nhiên và chuyển động đầu, tạo cảm giác chân thực và sống động.
- VASA-1 đạt được sự chân thực bằng cách sử dụng AI để tách các thành phần khuôn mặt như biểu cảm, vị trí đầu 3D và chuyển động môi, cho phép kiểm soát và chỉnh sửa độc lập từng khía cạnh.
- Phương pháp này không chỉ đảm bảo chất lượng video vượt trội với chuyển động khuôn mặt và đầu chân thực, mà còn cho phép tạo video 512×512 trực tuyến với tốc độ lên đến 40 FPS, tất cả với độ trễ ban đầu tối thiểu.
- Min Choi cho rằng VASA-1 có khả năng tạo hoạt ảnh cho một ảnh với lời nói biểu cảm, tương tự như công nghệ EMO của Alibaba.
- Mọi người lo ngại về khả năng lạm dụng công nghệ deepfake này vì nó ra mắt đúng vào thời điểm bầu cử.
- Các nhà nghiên cứu thừa nhận khả năng sử dụng sai mục đích, nhưng nhấn mạnh các ứng dụng tích cực của VASA-1 như nâng cao trải nghiệm giáo dục, hỗ trợ người gặp khó khăn giao tiếp và cung cấp sự đồng hành hoặc hỗ trợ trị liệu.
📌 Microsoft giới thiệu VASA-1, công nghệ AI tạo video deepfake siêu chân thực chỉ từ một ảnh và âm thanh, nắm bắt tinh tế biểu cảm, cảm xúc, chuyển động đầu. Dù có nhiều ứng dụng tích cực trong giáo dục và hỗ trợ giao tiếp, VASA-1 vẫn gây lo ngại về khả năng lạm dụng trong bối cảnh bầu cử.
Citations:
[1] https://analyticsindiamag.com/microsoft-unveils-vasa-1-creating-deepfake-videos-with-a-single-image/
- Fanvue công bố tổ chức World AI Creator Awards (WAICA) để vinh danh các nhà sáng tạo nội dung AI trên toàn cầu.
- Trong khuôn khổ WAICA, cuộc thi Miss AI - cuộc thi sắc đẹp đầu tiên dành cho các người mẫu do AI tạo ra sẽ được tổ chức.
- Tổng giải thưởng của Miss AI lên tới 20.000 USD (khoảng 16 lakh Rupee), trong đó người chiến thắng nhận 5.000 USD tiền mặt, chương trình đào tạo trị giá 3.000 USD và gói hỗ trợ PR trị giá 5.000 USD.
- Á hậu 1 nhận khóa học miễn phí trị giá 500 USD, gói quảng bá trị giá 2.000 USD và hỗ trợ PR trị giá 2.500 USD.
- Á hậu 2 nhận cuộc gọi tư vấn miễn phí trị giá 500 USD, gói quảng bá trị giá 500 USD và hỗ trợ PR trị giá 1.000 USD.
- Ban giám khảo gồm các nhà sáng tạo AI nổi tiếng như Aitana Lopez, Emily Pellegrini, doanh nhân Andrew Bloch và nhà sử học sắc đẹp Sally-Ann Fawcett.
- Thí sinh tham gia phải là người mẫu được tạo ra 100% bởi AI thông qua bất kỳ công cụ nào và không mất phí tham dự.
📌 Fanvue đang tổ chức cuộc thi sắc đẹp Miss AI đầu tiên trên thế giới dành riêng cho các người mẫu do AI tạo ra, với tổng giải thưởng lên tới 20.000 USD. Cuộc thi nhằm tôn vinh sự phát triển của ngành công nghiệp AI, mặc dù vẫn còn tranh cãi về việc liệu đây có phải là một ý tưởng hay.
Citations:
[1] Miss Artificial Intelligence! AI Beauty Pageant Announced With A Prize Pool Of Rs 16 Lakh: Report https://in.mashable.com/tech/73421/miss-artificial-intelligence-ai-beauty-pageant-announced-with-a-prize-pool-of-rs-16-lakh-report
- Adobe đang hợp tác với các công ty AI video hàng đầu như Sora, Runway và Pika để tích hợp công nghệ tạo video AI vào phần mềm Premiere Pro.
- Sora cho phép người dùng tạo video bằng cách nhập văn bản, trong khi Runway hỗ trợ các hiệu ứng kỹ xảo. Pika giúp tạo video quảng cáo và video giải thích sản phẩm.
- Adobe cũng đang phát triển công cụ AI của riêng mình là Sensei GenAI và Firefly để cạnh tranh trong lĩnh vực này.
- Việc tích hợp AI sẽ giúp rút ngắn quy trình sản xuất video, giảm chi phí và tăng tính sáng tạo cho người dùng.
- Tuy nhiên, Adobe chưa công bố chi tiết về thời điểm ra mắt và giá cả của các tính năng mới này.
- Đây là một phần trong chiến lược của Adobe nhằm đưa AI vào các sản phẩm sáng tạo, tương tự như việc tích hợp Firefly vào Photoshop.
- Adobe hy vọng sẽ thu hút thêm người dùng và tăng doanh thu bằng cách cung cấp các công cụ AI tiên tiến trong bộ phần mềm của mình.
📌 Adobe đang hợp tác với Sora, Runway và Pika để tích hợp AI vào Premiere Pro, cho phép tạo video nhanh chóng từ văn bản, hiệu ứng kỹ xảo và video giải thích sản phẩm, qua đó rút ngắn quy trình sản xuất, giảm chi phí và tăng tính sáng tạo, nhằm cạnh tranh trong thị trường video AI đang phát triển mạnh mẽ.
Citations:
[1] https://venturebeat.com/ai/adobe-to-add-ai-video-generators-sora-runway-pika-to-premiere-pro/
- Lĩnh vực tạo nhạc AI đang phát triển nhanh chóng với nhiều công cụ mới cho phép người dùng tạo nhạc mà không cần nhiều kiến thức âm nhạc.
- Udio nổi bật với khả năng tạo giọng hát ấn tượng, vượt trội so với đối thủ Suno. Tuy nhiên Udio chỉ tạo được đoạn nhạc 30 giây, có thể kéo dài tối đa 4 phút.
- Suno nổi bật với khả năng tạo cả bản nhạc hoàn chỉnh gồm cả lời và hình ảnh minh họa. Phiên bản V3 mới nhất được đánh giá cao về chất lượng và trải nghiệm người dùng.
- Stable Audio và Audio Shake cũng là những công cụ tạo nhạc AI đáng chú ý, mỗi công cụ có những tính năng riêng biệt.
- Các công cụ tạo nhạc AI đang mở ra cánh cửa mới cho những người mới bắt đầu cũng như các nhạc sĩ, nhà sản xuất âm nhạc chuyên nghiệp.
- Bằng cách nắm bắt ưu nhược điểm của từng công cụ, người dùng có thể tận dụng tối đa tiềm năng của chúng để đẩy giới hạn sáng tạo.
📌 Udio, Suno, Stable Audio và Audio Shake đang dẫn đầu cuộc cách mạng tạo nhạc AI, mang đến cơ hội mới cho mọi đối tượng từ người mới đến nhà sản xuất chuyên nghiệp. Mỗi công cụ có ưu nhược điểm riêng, việc nắm bắt chúng sẽ giúp người dùng phát huy tối đa khả năng sáng tạo âm nhạc trong kỷ nguyên mới.
Citations:
[1] https://www.geeky-gadgets.com/ai-music-creators-compared/
- Từ ngày 15/5/2024, Google Photos sẽ cung cấp các công cụ chỉnh sửa ảnh AI miễn phí cho tất cả người dùng, giúp việc chỉnh sửa ảnh AI dễ dàng và dễ tiếp cận hơn.
- Người dùng Android và iOS đều có thể sử dụng ba công cụ AI từ Google Photos:
+ Magic Eraser: Dễ dàng xóa các đối tượng không mong muốn khỏi ảnh.
+ Photo Unblur: Làm sắc nét ảnh mờ để khôi phục chi tiết bị mất và tạo ảnh rõ nét hơn.
+ Portrait Light: Điều chỉnh ánh sáng để có ảnh chân dung đẹp hơn, làm nổi bật chủ thể.
- Người dùng điện thoại Pixel sẽ có quyền truy cập vào công cụ Magic Editor mạnh mẽ hơn, ban đầu chỉ dành cho Pixel 8 và Pixel 8 Pro.
- Tất cả người dùng Google Photos sẽ nhận được 10 lần lưu Magic Editor miễn phí mỗi tháng. Để sử dụng không giới hạn, cần nâng cấp lên điện thoại Pixel hoặc đăng ký gói Google One Premium (từ 2TB trở lên).
- Người dùng nên kiểm tra ứng dụng Google Photos vào ngày 15/5 để sử dụng các tính năng mới này.
📌 Google Photos sẽ cung cấp các công cụ chỉnh sửa ảnh AI miễn phí cho tất cả người dùng từ 15/5/2024, bao gồm Magic Eraser, Photo Unblur và Portrait Light. Người dùng Pixel sẽ có quyền truy cập vào Magic Editor mạnh mẽ hơn. Mỗi người dùng sẽ có 10 lần lưu Magic Editor miễn phí/tháng, cần điện thoại Pixel hoặc gói Google One Premium để sử dụng không giới hạn. Các tính năng mới sẽ có mặt trên ứng dụng Google Photos từ 15/5.
Citations:
[1] Google Photos’ AI editing tools are now available to everyone, for free https://www.diyphotography.net/google-photos-ai-editing-tools-are-now-available-to-everyone-for-free/
- Spotify đã đầu tư vào AI và machine learning trong hơn một thập kỷ để giúp người dùng dễ dàng khám phá những bản nhạc mới trong kho nhạc hơn 100 triệu bài.
- Công cụ mới nhất, AI DJ, kết hợp công nghệ cá nhân hóa, AI tạo sinh và giọng nói AI động để tạo ra trải nghiệm nghe nhạc mới mẻ, ít bị chi phối trực tiếp bởi sở thích trước đó của người dùng.
- Spotify có hơn 600 triệu người dùng và sứ mệnh của công ty là giúp mỗi người tìm thấy âm nhạc họ yêu thích trong kho nhạc khổng lồ này.
- Các công cụ đề xuất của Spotify như Spotify Home feed, Discover Weekly, Blend, Daylist và Made for You Mixes đã phát triển trong nhiều năm qua.
- Đằng sau hậu trường, Spotify có một đội ngũ chuyên gia về công nghệ và âm nhạc làm việc để cải thiện khả năng đề xuất của nền tảng.
- Tuy nhiên, việc xác định thời điểm tối ưu để người dùng khám phá những thể loại mới so với việc gắn bó với sở thích quen thuộc vẫn là một thách thức.
📌 Spotify đang đặt cược lớn vào AI và machine learning để cá nhân hóa trải nghiệm nghe nhạc cho hơn 600 triệu người dùng, giúp họ dễ dàng khám phá những bản nhạc mới trong kho nhạc hơn 100 triệu bài. Công cụ AI DJ mới nhất kết hợp công nghệ cá nhân hóa, AI tạo sinh và giọng nói AI động, hứa hẹn mang đến những trải nghiệm âm nhạc độc đáo, vượt ra ngoài sở thích quen thuộc của người dùng.
Citations:
[1] How Spotify AI plans to know what's going on inside your head, and find the right track for it https://www.cnbc.com/2024/04/14/how-spotify-ai-plans-to-know-whats-going-on-inside-your-head.html
- Alexsandrah, người mẫu ở London, có một người song sinh ảo do AI tạo ra, sao chép các đặc điểm của cô ấy đến từng chi tiết nhỏ nhất.
- Người mẫu do AI tạo ra đã ra mắt trong một buổi chụp ảnh, với Alexsandrah nhận được tín dụng và thù lao cho việc sử dụng nó.
- Những người ủng hộ cho rằng người mẫu kỹ thuật số thúc đẩy sự đa dạng, cho phép người tiêu dùng đưa ra quyết định mua hàng cá nhân hóa hơn và giảm lãng phí thời trang.
- Tuy nhiên, những người chỉ trích lo ngại rằng người mẫu AI có thể thay thế người mẫu thật và các chuyên gia khác như chuyên gia trang điểm.
- Sara Ziff, người sáng lập Liên minh Người mẫu, tin rằng việc sử dụng AI để bóp méo sự đại diện chủng tộc cho thấy sự thiếu hòa nhập đáng lo ngại trong ngành.
- Alexsandrah, người da màu, tự hào về công việc của mình với The Diigitals và coi đó là di sản cho các thế hệ tương lai.
📌 Sự xuất hiện của người mẫu do AI tạo ra, như bản sao kỹ thuật số của Alexsandrah, đang thúc đẩy cuộc tranh luận về tác động của công nghệ đối với ngành công nghiệp thời trang. Mặc dù chúng có thể thúc đẩy sự đa dạng và giảm lãng phí, nhưng cũng gây ra lo ngại về việc thay thế người mẫu thật, đặc biệt là phụ nữ da màu vốn đã phải đối mặt với rào cản đáng kể trong nghề người mẫu.
Citations:
[1] AI-generated fashion models could bring more diversity to the industry https://apnews.com/article/ai-fashion-model-digital-diversity-aaa489111bd8e793aa6e5a531dc7ade2
- TCL, công ty nổi tiếng về TV thông minh, sẽ phát hành bộ phim gốc đầu tiên được tạo ra hoàn toàn bởi AI vào mùa hè này.
- Bộ phim mang tên "Next Stop Paris", thuộc thể loại hài lãng mạn, sẽ phát sóng trên ứng dụng truyền hình miễn phí TCLtv+ của công ty.
- Đoạn trailer dài 60 giây giới thiệu câu chuyện về hai người Mỹ trẻ tuổi và hấp dẫn gặp nhau trên chuyến tàu đến Paris và nảy sinh tình cảm.
- Trong khi nhiều studio phim truyền thống bị chỉ trích vì sử dụng AI, TCL quyết định đi đầu và nhấn mạnh việc sử dụng công nghệ này.
- Chris Regina, Giám đốc Nội dung của TCL, từng giữ các vị trí cấp cao tại NBCUniversal và Netflix, cho rằng việc sử dụng AI là điểm khác biệt của bộ phim.
- Việc phát hành trailer cung cấp cái nhìn tổng quan về dự án mà TCL đang thực hiện, đánh dấu bước tiến trong việc ứng dụng AI vào sản xuất phim.
📌 TCL sẽ ra mắt bộ phim hài lãng mạn "Next Stop Paris" được tạo hoàn toàn bởi AI vào mùa hè 2023, phát sóng miễn phí trên ứng dụng TCLtv+. Đây là dự án gốc đầu tiên của công ty, đánh dấu bước tiến trong việc ứng dụng AI vào ngành công nghiệp giải trí với trailer 60 giây giới thiệu câu chuyện tình yêu giữa hai người trẻ.
Citations:
[1] First AI-generated rom-com is due this summer -- and the trailer puts Hallmark Channel to shame https://www.tomshardware.com/tech-industry/artificial-intelligence/first-ai-generated-rom-com-is-due-this-summer-and-the-trailer-puts-hallmark-channel-to-shame
- xAI, công ty AI của Elon Musk giới thiệu Grok-1.5V, mô hình đa phương thức thế hệ đầu tiên có khả năng xử lý nhiều loại thông tin hình ảnh như tài liệu, sơ đồ, biểu đồ, ảnh chụp màn hình và ảnh.
- Grok-1.5V sẽ sớm có mặt cho người dùng thử nghiệm sớm và người dùng Grok hiện tại.
- Tính năng nổi bật của Grok-1.5V là khả năng hiểu các khái niệm không gian trong thế giới thực, vượt trội hơn các mô hình khác trong bài kiểm tra RealWorldQA.
- So sánh với các mô hình hàng đầu như GPT-4V, Claude 3 Sonnet, Claude 3 Opus và Gemini Pro 1.5, Grok-1.5V thể hiện lợi thế cạnh tranh trên nhiều bài kiểm tra.
- Grok-1.5V có thể chuyển đổi thông tin hình ảnh phức tạp thành mã lập trình, ví dụ như chuyển lưu đồ mô tả trò chơi đoán số thành mã Python.
- Các nhà phát triển kỳ vọng Grok-1.5V sẽ có cải tiến đáng kể về khả năng đa phương thức trên hình ảnh, âm thanh, video, hướng tới xây dựng AI tổng quát có lợi (AGI).
- Trước đó, xAI đã giới thiệu Grok-1.5 với khả năng lập luận nâng cao, độ dài ngữ cảnh 128.000 token và đánh bại Mistral Large trên nhiều bài kiểm tra như MMLU, GSM8K, HumanEval.
📌 Grok-1.5V của xAI thể hiện khả năng xử lý thông tin hình ảnh vượt trội, đánh bại GPT-4V và các mô hình hàng đầu khác trên nhiều bài kiểm tra. Với tiềm năng cải tiến đa phương thức, Grok-1.5V hứa hẹn là bước tiến quan trọng hướng tới việc xây dựng AGI hiểu và tương tác toàn diện với thế giới.
Citations:
[1] https://analyticsindiamag.com/elon-musks-xai-unveils-grok-1-5-vision-beats-openais-gpt-4v/
- Adobe đang kêu gọi cung cấp hơn 100 video ngắn về người thực hiện các hành động, thể hiện cảm xúc, cũng như hình ảnh giải phẫu đơn giản của bàn chân, bàn tay, mắt.
- Công ty cũng tìm kiếm video về người tương tác với các vật dụng như điện thoại thông minh, thiết bị thể dục.
- Adobe khuyến cáo không gửi tài liệu có bản quyền, khỏa thân hoặc nội dung phản cảm.
- Mức thanh toán trung bình cho một phút video là khoảng 2.62 USD, có thể lên tới 7.25 USD/phút.
- Adobe đang nhắm tới mạng lưới nhiếp ảnh gia và nghệ sĩ, trả 120 USD cho mỗi bài nộp, nhằm tích lũy tài sản để đào tạo AI.
- Trong năm qua, Adobe tập trung tích hợp các tính năng AI tạo sinh vào bộ phần mềm như Photoshop, Illustrator. Công ty đã ra mắt công cụ chuyển văn bản thành hình ảnh, minh họa, được sử dụng hàng tỷ lần.
- Việc OpenAI giới thiệu mô hình tạo video Sora làm dấy lên lo ngại về khả năng Adobe bị công nghệ mới gây xáo trộn. Adobe thừa nhận đang phát triển công nghệ tạo video, dự kiến công bố chi tiết vào cuối năm nay.
📌 Adobe đang tích cực thu mua video với mức giá 2,62 - 7,25 USD/phút từ mạng lưới nhiếp ảnh gia, nghệ sĩ để phát triển công cụ AI tạo video từ văn bản. Động thái này nhằm bắt kịp các đối thủ như OpenAI, vốn gây lo ngại về khả năng gây xáo trộn thị trường với công nghệ tương tự.
Citations:
[1] Adobe Is Buying Videos for $3 Per Minute to Build AI Model https://finance.yahoo.com/news/adobe-buying-videos-3-per-213215719.html
- Trí tuệ nhân tạo (AI) đang định hình lại nhiều ngành công nghiệp, bao gồm cả ngành công nghiệp khiêu dâm với sự phát triển của các trang web về khiêu dâm do AI tạo ra.
- Hiện có hơn 50 trang web miễn phí cung cấp nội dung khiêu dâm do AI tạo ra, cho phép người dùng tạo ra các nhân vật và hình ảnh theo sở thích cá nhân.
- Ngoài hình ảnh, một số trang web còn cung cấp tùy chọn tạo video ngắn lặp lại. Công nghệ AI tiên tiến hơn trong tương lai sẽ cho phép tạo ra các video khiêu dâm dài, phức tạp và hoàn toàn có thể tùy chỉnh.
- Người dùng cũng có thể tương tác với chatbot tình dục để trò chuyện, tùy chỉnh tính cách, ngoại hình và sở thích của chatbot.
- Sự xuất hiện của khiêu dâm do AI tạo ra đặt ra nhiều mối lo ngại như tăng cường hành vi cưỡng chế, rủi ro về deepfake, sản xuất nội dung bất hợp pháp và ảnh hưởng đến sinh kế của người lao động tình dục.
- Mặt khác, khiêu dâm do AI tạo ra cũng có thể được sử dụng để nâng cao khoái cảm tình dục, nghiên cứu tình dục, giáo dục, trị liệu và hỗ trợ người sáng tạo nội dung người lớn.
- Cần có luật dựa trên bằng chứng để giảm thiểu rủi ro, giáo dục người dùng và người sáng tạo, cũng như nghiên cứu thêm để hiểu rõ ảnh hưởng của công nghệ này.
📌 Khiêu dâm do AI tạo ra sẽ thay đổi ngành công nghiệp người lớn với hơn 50 trang web miễn phí, cung cấp nội dung đa dạng và tùy chỉnh. Tuy nhiên, nó cũng đặt ra nhiều mối lo ngại về đạo đức như deepfake, nội dung bất hợp pháp, tác động đến người lao động tình dục. Dù vậy, công nghệ này cũng mang lại lợi ích cho giáo dục, nghiên cứu và trị liệu tình dục.
Citations:
[1]https://theconversation.com/ai-generated-pornography-will-disrupt-the-adult-content-industry-and-raise-new-ethical-concerns-226683
- OpenAI đã công bố GPT-4 Turbo với khả năng thị giác có sẵn thông qua API của họ.
- GPT-4 Turbo được giới thiệu từ tháng 11/2023, hứa hẹn cải thiện tốc độ, tăng kích thước ngữ cảnh đầu vào (lên đến 128.000 token) và giá thành hợp lý hơn.
- Các yêu cầu sử dụng khả năng nhận dạng và phân tích hình ảnh của mô hình giờ đây có thể được thực hiện thông qua định dạng văn bản JSON và gọi hàm.
- Thay đổi này giúp hợp lý hóa quy trình làm việc cho các nhà phát triển và tạo ra các ứng dụng hiệu quả hơn.
- Một số khách hàng đã sử dụng GPT-4 Turbo với thị giác như: Cognition (tạo mã tự động), Healthify (phân tích dinh dưỡng từ ảnh bữa ăn), TLDraw (chuyển bản vẽ thành website).
- Mặc dù GPT-4 Turbo thua kém trong các bài kiểm tra chuẩn so với các mô hình mới hơn như Claude 3 Opus của Anthropic hay Gemini Advanced của Google, bước đi này sẽ giúp các mô hình của OpenAI tiếp tục hấp dẫn với khách hàng doanh nghiệp và nhà phát triển.
📌 OpenAI đã mang GPT-4 Turbo với khả năng thị giác đến với nhiều khách hàng doanh nghiệp và nhà phát triển tiềm năng thông qua API. Bước tiến này mở ra nhiều khả năng mới cho AI tạo sinh, cho phép tích hợp nhận dạng và phân tích hình ảnh vào các ứng dụng, đồng thời giúp các mô hình của OpenAI vẫn hấp dẫn trong khi thế giới chờ đợi sự ra mắt của mô hình ngôn ngữ lớn tiếp theo.
https://venturebeat.com/ai/openai-makes-gpt-4-turbo-with-vision-generally-available-through-its-api/
- Google ra mắt Imagen 2, một họ các mô hình AI có thể tạo và chỉnh sửa ảnh từ lệnh văn bản, tích hợp trong nền tảng Vertex AI.
- Imagen 2 hiện đã hỗ trợ tạo video clip ngắn 4 giây từ lệnh văn bản, tính năng được gọi là "text-to-live images", nhắm đến đối tượng marketer và người sáng tạo nội dung.
- Tuy nhiên, độ phân giải video tạo ra còn thấp (360x640 pixel). Google hứa sẽ cải thiện điều này trong tương lai.
- Để giải quyết lo ngại về deepfake, Google sẽ áp dụng watermark ẩn SynthID lên video, nhưng công cụ phát hiện watermark này chỉ Google nắm giữ.
- So với các công cụ tạo video AI khác như Runway, Stable Video Diffusion hay Sora của OpenAI, Imagen 2 vẫn thua kém về độ phân giải, độ dài video và tính tùy biến.
- Google sở hữu các công nghệ tạo video ấn tượng hơn như Imagen Video và Phenaki, nhưng dường như chưa tận dụng hết tiềm năng.
- Thông tin về dữ liệu huấn luyện Imagen 2 khá mơ hồ, chủ yếu lấy từ web công khai. Chưa có cơ chế cho tác giả loại trừ tác phẩm khỏi quá trình huấn luyện hay đền bù bản quyền.
- Tính năng text-to-live images chưa nằm trong chính sách bảo vệ bản quyền của Google dành cho khách hàng, do còn trong giai đoạn preview.
📌 Imagen 2 của Google tích hợp khả năng tạo video clip 4 giây từ lệnh văn bản, nhưng vẫn thua kém đối thủ về chất lượng, tính năng. Thông tin dữ liệu huấn luyện và chính sách bản quyền chưa rõ ràng. Google dường như chưa phát huy hết năng lực công nghệ tạo video AI mình sở hữu. Để giải quyết lo ngại về deepfake, Google sẽ áp dụng watermark ẩn SynthID lên video, nhưng công cụ phát hiện watermark này chỉ Google nắm giữ.
https://techcrunch.com/2024/04/09/google-releases-imagen-2-a-video-clip-generator/
- Công cụ AI như Suno.ai cho phép bất kỳ chuỗi từ nào trở thành lời bài hát, kể cả những câu nói đùa bên trong.
- Một bài hát được tạo ra bởi AI của Suno với lời nhạc là văn bản giấy phép MIT đã lan truyền rộng rãi trong cộng đồng AI trực tuyến.
- Suno được thành lập năm 2023 tại Cambridge, Massachusetts bởi các cựu nhân viên từ Meta và TikTok. Microsoft đã tích hợp phiên bản trước của Suno vào Bing Chat.
- Suno v3 có thể tạo ra các bài hát dài 2 phút với nhiều thể loại khác nhau. Dịch vụ này kết hợp giữa ChatGPT để viết lời và mô hình tạo nhạc của Suno.
- Hơn 200 nghệ sĩ âm nhạc đã ký thư ngỏ yêu cầu các công ty công nghệ ngừng sử dụng công cụ AI để tạo ra âm nhạc có thể thay thế nghệ sĩ.
- Văn phòng Bản quyền Hoa Kỳ cho rằng nghệ thuật do AI tạo ra hoàn toàn không thể được bảo hộ bản quyền. Điều này có thể trở thành chính sách pháp lý chính thức đối với âm nhạc do AI tạo ra.
- Suno có thể dễ dàng tạo ra lời bài hát độc đáo dựa trên lời nhắc và phối chúng theo các thể loại âm nhạc được tạo kiểu dựa trên tập dữ liệu huấn luyện.
- Sản phẩm của Suno chưa thể phân biệt được với âm nhạc chất lượng cao do con người tạo ra, nhưng điều đó có thể thay đổi trong năm tới.
📌 Suno.ai đánh dấu một cột mốc trong công cụ tạo nhạc AI, cho phép tạo bài hát từ bất kỳ văn bản nào. Một bài hát được tạo ra bởi AI của Suno với lời nhạc là văn bản giấy phép MIT đã lan truyền rộng rãi trong cộng đồng AI trực tuyến. Tuy nhiên, nó cũng gây ra những vấn đề đạo đức chưa được giải quyết liên quan đến việc sử dụng tác phẩm âm nhạc mà không có sự cho phép của nghệ sĩ và khả năng thay thế nhạc sĩ con người. Hơn 200 nghệ sĩ âm nhạc đã ký thư ngỏ yêu cầu các công ty công nghệ ngừng sử dụng công cụ AI để tạo ra âm nhạc có thể thay thế nghệ sĩ. Văn phòng Bản quyền Hoa Kỳ cho rằng tác phẩm thuần túy do AI tạo ra không thể được bảo hộ bản quyền.
https://arstechnica.com/information-technology/2024/04/mit-license-text-becomes-viral-sad-girl-piano-ballad-generated-by-ai/
- Âm nhạc và công nghệ đã cùng tồn tại từ lâu. Trong vài thập kỷ qua, ngành công nghiệp âm nhạc đã phải tự cải tiến để bắt kịp với sự phát triển của công nghệ. Xu hướng này có thể tiếp tục trong kỷ nguyên AI tạo sinh (GenAI).
- Các công ty đang huấn luyện các mô hình ngôn ngữ lớn (LLM) trên dữ liệu mà họ có thể không nên sử dụng. Điều này đặt ra thách thức cho các công ty muốn có trách nhiệm và công bằng với dữ liệu huấn luyện của họ.
- Cần có sự hỗ trợ từ cơ sở và giúp thúc đẩy nhu cầu cập nhật luật bản quyền. Trọng tâm nên là đảm bảo GenAI và âm nhạc có thể tiếp tục cùng tồn tại hài hòa.
- GenAI có thể mang lại lợi ích cho cả nhạc sĩ và công chúng. Nhạc sĩ không còn bị giới hạn bởi nhạc cụ họ có thể chơi hay quy trình ghi âm họ biết. Người mới bắt đầu có thể dễ dàng học một nhạc cụ mới với xử lý ngôn ngữ tự nhiên.
- Roland hy vọng tạo nền tảng cho một môi trường do AI điều khiển, trong đó người sáng tạo âm nhạc sẽ được công nhận và bồi thường công bằng cho tác phẩm của họ. Công ty đã hợp tác với Universal Music Group để đưa ra "Nguyên tắc sáng tạo âm nhạc với AI".
- Các nguyên tắc này bao gồm niềm tin rằng AI sẽ khuếch đại sự sáng tạo của con người và tính minh bạch là điều cần thiết để thiết lập AI đáng tin cậy. Sử dụng tác phẩm có bản quyền và tên, hình ảnh, giọng nói của nghệ sĩ âm nhạc cần được ủy quyền trước khi sử dụng. Nghệ sĩ phải được bồi thường.
- Hơn 60 công ty toàn cầu đã bày tỏ sự quan tâm đến việc cam kết ủng hộ cho mục đích này. Việc áp dụng các nguyên tắc là tự nguyện và sẽ không bị giám sát để thực thi. Mục tiêu chính là thúc đẩy một phong trào AI có trách nhiệm trong ngành.
- Roland và Universal cũng đã thành lập một cơ sở nghiên cứu và phát triển chung để phát triển "các phương pháp xác nhận nguồn gốc và quyền sở hữu âm nhạc". Họ sẽ tìm cách tích hợp các sản phẩm và dịch vụ của Roland trong một số cơ sở sản xuất âm nhạc thuộc sở hữu của Universal trên toàn thế giới.
📌 Ngành công nghiệp âm nhạc cần tìm cách hòa hợp với AI tạo sinh bằng cách đưa ra các nguyên tắc bao gồm niềm tin rằng AI sẽ khuếch đại sự sáng tạo của con người và tính minh bạch là điều cần thiết để thiết lập AI đáng tin cậy. Sử dụng tác phẩm có bản quyền và tên, hình ảnh, giọng nói của nghệ sĩ âm nhạc cần được ủy quyền trước khi sử dụng. Nghệ sĩ phải được bồi thường. Hơn 60 công ty toàn cầu đã bày tỏ sự quan tâm đến việc cam kết ủng hộ cho mục đích này.
https://www.zdnet.com/article/the-music-industry-must-find-a-way-to-stay-in-tune-with-genai/
- Neal Mohan, CEO của YouTube, tuyên bố rằng việc OpenAI sử dụng video trên nền tảng của họ để huấn luyện công cụ tạo video từ văn bản Sora là không thể chấp nhận được.
- Mohan cho rằng các nhà sáng tạo khi tải video lên YouTube kỳ vọng điều khoản dịch vụ sẽ được tuân thủ, trong đó không cho phép tải xuống và sử dụng nội dung.
- Tác giả bài viết chỉ ra sự mâu thuẫn khi Google sử dụng dữ liệu từ báo chí để huấn luyện công cụ tìm kiếm và AI của mình, trong khi cảnh báo OpenAI không được làm điều tương tự với dữ liệu YouTube.
- OpenAI bị cho là đã xây dựng các hệ thống của mình dựa trên sáng tạo và tài năng của những người khác mà không hề hay biết.
- Video do AI tạo ra như của Sora không cần sự tham gia của con người, khác với phim hoạt hình của Pixar vốn được các nghệ sĩ đưa yếu tố nhân văn vào.
- Tác giả cho rằng OpenAI đang cố gắng đẩy giới hạn công nghệ để tìm cách thay thế con người.
📌 OpenAI bị cáo buộc sử dụng trái phép video YouTube để huấn luyện AI tạo video Sora. CEO YouTube Neal Mohan khẳng định đây là vi phạm nghiêm trọng điều khoản dịch vụ. Bài viết cũng chỉ ra sự mâu thuẫn khi Google dùng dữ liệu của báo chí cho AI của mình. Tác giả cho rằng OpenAI đang cố gắng thay thế con người bằng cách đẩy giới hạn công nghệ.
https://bgr.com/tech/youtube-ceo-to-openai-dont-you-dare-use-our-videos-to-train-sora/
- OpenAI vừa cập nhật công nghệ tạo ảnh DALL-E, cho phép người dùng chỉnh sửa ảnh được tạo ra
- Tính năng mới cũng đưa ra các gợi ý phong cách để hỗ trợ quá trình chỉnh sửa ảnh
- Khả năng này đã có sẵn cho người dùng web, iOS và Android
- Các công cụ tạo ảnh AI như DALL-E của OpenAI và Image Creator của Microsoft rất ấn tượng, có thể khiến nhiều nhà thiết kế đồ họa và kiến trúc sư mất việc trong tương lai
- Tuy nhiên, gần đây các công cụ này gặp khó khăn trong việc thực hiện các tác vụ đơn giản như tạo ảnh trắng
- OpenAI giờ đây cung cấp cho người dùng quyền kiểm soát tốt hơn đối với kết quả cuối cùng được tạo bởi DALL-E
- Khi tạo ảnh bằng DALL-E trong ChatGPT, người dùng sẽ thấy các công cụ chỉnh sửa mới cho phép tinh chỉnh kết quả
- Microsoft nhận được nhiều phàn nàn từ người dùng rằng ChatGPT tốt hơn Copilot AI
- Microsoft cho rằng nguyên nhân chính là do người dùng ngại chuyển sang phiên bản mới hơn và thiếu kiến thức về kỹ thuật nhập câu lệnh
- Microsoft đã giới thiệu các công cụ mới để ngăn chặn các cuộc tấn công bằng cách nhập sai câu lệnh nhằm đánh lừa Copilot AI
- Microsoft cũng dự định dùng video để trang bị kỹ năng nhập câu lệnh cho người dùng
📌 OpenAI đã nâng cấp DALL-E, cho phép chỉnh sửa ảnh AI và đưa ra gợi ý phong cách, giúp người dùng dễ dàng tạo ra ảnh chính xác hơn. Tuy công nghệ AI tạo ảnh đang phát triển mạnh mẽ, nhưng việc thiếu kỹ năng nhập câu lệnh vẫn là rào cản lớn đối với người dùng trong việc tận dụng tối đa tiềm năng của các công cụ này.
https://www.windowscentral.com/software-apps/openai-dall-e-finally-supports-ai-image-editing
- OpenAI vừa phát hành một video âm nhạc được tạo ra bởi Sora, một AI tạo sinh video có khả năng tạo ra các đoạn clip dài hơn một phút chỉ từ một đầu vào văn bản.
- Video này là sản phẩm hợp tác với nghệ sĩ âm nhạc August Kamp, người được truy cập sớm vào Sora và mô tả nó là "một bước ngoặt" cho các nghệ sĩ.
- Video âm nhạc "Worldweight" mang đến một trải nghiệm như trong cơn mơ, đưa người xem đi qua một tâm trí đầy mưa.
- Âm nhạc mang đến cảm giác đứng dưới một nhà chờ xe buýt vào một buổi tối đìu hiu trên một con đường vắng trong khi mưa đổ xuống.
- Không có chi tiết cụ thể về các đầu vào văn bản được sử dụng để tạo ra video hoặc số lượng clip cần thiết để tạo ra đoạn video 2 phút 19 giây.
- Các nền tảng video khác chỉ tạo ra tối đa 12 giây với các phần mở rộng, nhưng gặp khó khăn trong việc duy trì nhất quán sau 5 giây đầu tiên.
- Sora có khả năng tạo ra các clip dài hơn và thường có nhiều cảnh quay nhất quán trong mỗi clip.
- Kamp nói rằng có thể xây dựng và lặp lại các hình ảnh điện ảnh một cách trực quan như vậy đã mở ra những lối đi nghệ thuật mới.
- OpenAI đang làm việc về các vấn đề bảo mật và sẽ từ từ phát hành Sora trong năm nay, có thể bắt đầu với các nhà sáng tạo hàng đầu.
- Tuy nhiên, việc phát hành có thể bị trì hoãn nếu OpenAI không thể giải quyết được các rủi ro về thông tin sai lệch trước cuộc bầu cử toàn cầu vào cuối năm nay.
📌OpenAI phát hành video âm nhạc "Worldweight" được tạo bởi AI Sora, mang đến trải nghiệm như trong cơn mơ. Video dài 2 phút 19 giây, tạo ra từ đầu vào văn bản, cho thấy tiềm năng của công nghệ AI tạo sinh video mới.
https://www.tomsguide.com/ai/chatgpt/openai-just-released-a-sora-generated-music-video-and-its-like-something-out-of-a-fever-dream
- Phiên bản mới Stable Audio 2.0 của Stability AI cho phép người dùng tải lên mẫu âm thanh và biến đổi chúng thành bài hát dài 3 phút bằng cách sử dụng các gợi ý văn bản.
- Tuy nhiên, chất lượng của các bài hát AI tạo sinh vẫn chưa đạt đến mức có thể giành giải Grammy.
- Phiên bản đầu tiên của Stable Audio chỉ cho phép tạo ra các đoạn âm thanh ngắn lên đến 90 giây.
- Khác với mô hình tạo sinh âm thanh Voice Engine của OpenAI chỉ dành cho một số người dùng được lựa chọn, Stable Audio miễn phí và công khai trên trang web và API của Stability AI.
- Một tính năng mới của Stable Audio 2.0 là khả năng tạo ra các bài hát hoàn chỉnh với phần mở đầu, phần chính và phần kết.
- Tuy nhiên, khi thử nghiệm với gợi ý "bài hát folk pop với phong cách Mỹ", bài hát AI tạo sinh vẫn nghe khá kỳ lạ và thiếu linh hồn.
- Người dùng có thể tùy chỉnh bài hát bằng cách điều chỉnh mức độ tuân thủ gợi ý và lượng âm thanh gốc được sửa đổi, cũng như thêm hiệu ứng âm thanh.
- Dù vậy, vấn đề chính của các bài hát AI tạo sinh hiện nay là thiếu đi cảm xúc và linh hồn của con người.
- Stability AI cho biết Stable Audio được đào tạo trên dữ liệu từ AudioSparx với hơn 800.000 tệp âm thanh, và họ đã hợp tác với Audible Magic để ngăn chặn việc sử dụng tài liệu bản quyền.
📌Mặc dù Stable Audio 2.0 đã cải thiện khả năng tạo ra các bài hát dài hơn tới 3 phút, nhưng chất lượng vẫn chưa thực sự tốt, với âm thanh thiếu linh hồn và kỳ lạ như tiếng cá voi hát.
https://www.theverge.com/2024/4/3/24119438/stability-ai-audio-generation-whale-sounds
- Hơn 200 nghệ sĩ âm nhạc nổi tiếng đã ký một lá thư ngỏ kêu gọi các nhà phát triển AI, công ty công nghệ và nền tảng kỹ thuật số ngừng sử dụng AI để xâm phạm và hạ giá trị quyền của các nghệ sĩ.
- Đây là một trong những lập trường mạnh mẽ nhất mà ngành công nghiệp âm nhạc đã cùng nhau thực hiện để bảo vệ quyền lợi của nghệ sĩ trong kỷ nguyên AI.
- Lá thư đề cập đến các mối quan ngại của nghệ sĩ âm nhạc như sao chép giọng nói của nghệ sĩ, sử dụng tác phẩm của họ để huấn luyện mô hình AI mà không có thù lao và làm loãng quỹ tiền bản quyền được trả cho nghệ sĩ.
- Jen Jacobsen, giám đốc điều hành của The Artist Rights Alliance (ARA), cho biết họ không nghĩ đến việc lập pháp mà kêu gọi các đối tác công nghệ và kỹ thuật số hợp tác để tạo ra một thị trường có trách nhiệm, duy trì chất lượng âm nhạc và không thay thế nghệ sĩ.
- Lá thư kêu gọi các nhà phát triển AI, công ty công nghệ, nền tảng và dịch vụ âm nhạc kỹ thuật số cam kết không phát triển hoặc triển khai công nghệ, nội dung hoặc công cụ tạo nhạc AI làm suy yếu hoặc thay thế nghệ thuật của nhạc sĩ và nghệ sĩ hoặc từ chối trả công bằng cho tác phẩm của họ.
- Lá thư thừa nhận rằng AI, khi được sử dụng một cách có trách nhiệm, có thể thúc đẩy sáng tạo của con người. Tuy nhiên, nó lập luận rằng một số nền tảng và nhà phát triển AI đang sử dụng công nghệ này để phá hoại sự sáng tạo và làm suy yếu nghệ sĩ, nhạc sĩ và chủ sở hữu quyền.
- Ngành công nghiệp âm nhạc đang bắt đầu ủng hộ các dự luật bảo vệ tác phẩm của họ khỏi các vấn đề bản quyền liên quan đến AI, nhưng những nỗ lực này chủ yếu nhắm vào các nhà lập pháp.
📌 Hơn 200 nghệ sĩ âm nhạc nổi tiếng đã ký thư ngỏ kêu gọi các công ty công nghệ và nhà phát triển AI ngừng sử dụng AI để xâm phạm quyền của nghệ sĩ. Lá thư nhấn mạnh các mối quan ngại như sao chép giọng nói, sử dụng tác phẩm để huấn luyện AI mà không trả thù lao và làm giảm quỹ tiền bản quyền. Ngành công nghiệp âm nhạc cũng bắt đầu ủng hộ các dự luật bảo vệ tác phẩm trước các vấn đề bản quyền liên quan đến AI.
https://www.axios.com/2024/04/02/musicians-letter-ai-replace-artists
- Các nghệ sĩ và phòng trưng bày nghệ thuật có phản ứng trái chiều về AI tạo sinh, vừa lo ngại vừa hào hứng với tiềm năng của nó.
- Nghệ sĩ Rubem Robierb "sốc" khi thấy khả năng của AI tạo sinh. Ông cho rằng cần có giới hạn pháp lý để bảo vệ sở hữu trí tuệ.
- Phòng trưng bày Serpentine ở London đã phát triển các dự án AI với nghệ sĩ từ năm 2014. Triển lãm hiện tại của Refik Anadol sử dụng 135 triệu ảnh san hô để tạo ra tác phẩm nghệ thuật quy mô lớn.
- Phòng trưng bày 37xDubai ở UAE đang trưng bày nghệ thuật tạo sinh, với các tác phẩm đòi hỏi nhiều giờ lao động và kỹ năng lập trình.
- Nghệ sĩ Shane Guffogg mô tả AI là một "công cụ", vừa đáng sợ vừa thú vị. Ông từ chối đề xuất thay thế yếu tố con người bằng AI trong quá trình sáng tác.
- Guffogg hợp tác với lập trình viên AI và nghệ sĩ dương cầm để tạo ra triển lãm "Âm thanh của màu sắc", chuyển hóa tranh của ông thành âm nhạc.
- Nghệ sĩ Robierb cho rằng tác phẩm gốc chỉ đến từ con người, và có thể cần dán nhãn cho các tác phẩm do AI tạo ra trong tương lai.
📌 AI tạo sinh đang tạo ra cả sự lo ngại và hào hứng trong giới nghệ thuật. Một số nghệ sĩ như Rubem Robierb và Shane Guffogg bày tỏ quan ngại về sở hữu trí tuệ và việc thay thế yếu tố con người, trong khi các phòng trưng bày như Serpentine và 37xDubai đang khám phá tiềm năng của công nghệ này thông qua các triển lãm sử dụng hàng triệu hình ảnh và kỹ năng lập trình để tạo ra nghệ thuật tạo sinh.
Citations:
[1] https://www.cnbc.com/2024/04/01/generative-ai-in-art-how-artists-are-using-it-or-not.html
- Sam Altman, CEO của OpenAI, đã tổ chức một loạt cuộc họp với các giám đốc điều hành Hollywood về công cụ tạo video Sora.
- Sora, được ra mắt vào tháng 2, có thể tạo ra video thực tế dài đến một phút dựa trên lời nhắc của người dùng, bao gồm các cảnh phức tạp với nhiều nhân vật, chuyển động cụ thể và chi tiết chính xác.
- Trong các cuộc họp, OpenAI đã yêu cầu các giám đốc studio giúp đỡ trong việc triển khai Sora. Một số studio tỏ ra cởi mở với việc sử dụng công cụ này trong sản xuất, gợi ý rằng nó có thể tiết kiệm thời gian và chi phí.
- Sản xuất phim và truyền hình đã bị gián đoạn vào năm ngoái do các cuộc đình công của diễn viên và biên kịch, một phần do lo ngại rằng một số công việc sẽ bị mất vì AI.
- Đạo diễn Tyler Perry đã bày tỏ lo ngại về tác động của AI đối với các ngành công nghiệp sáng tạo và đã dừng kế hoạch mở rộng studio sản xuất của mình vì Sora.
- Sora đã phát hành các video đầu tiên do bên thứ ba sản xuất bằng công cụ này vào thứ Hai, bao gồm lợn bay và một buổi trình diễn thời trang dưới nước.
- Ngoài Sora, các công cụ chuyển đổi văn bản thành video khác cũng đang được phát triển bởi startup Runway được Google hậu thuẫn, Emu Video của Meta và Lumiere của Google.
📌 Sam Altman đang nỗ lực thuyết phục các nhà sản xuất phim Hollywood rằng công cụ AI tạo sinh video Sora của OpenAI sẽ không phá hủy ngành công nghiệp điện ảnh. Mặc dù một số studio tỏ ra cởi mở với việc sử dụng Sora để tiết kiệm thời gian và chi phí sản xuất, nhưng vẫn có những lo ngại về tác động của AI đối với việc làm trong ngành. Bên cạnh Sora, các công ty công nghệ khác như Google và Meta cũng đang phát triển các công cụ tương tự.
https://www.businessinsider.com/sam-altman-openai-convince-sora-wont-destroy-hollywood-2024-3
- OpenAI giới thiệu công cụ giọng nói AI mới có thể tạo giọng nói tổng hợp chỉ từ mẫu âm thanh 15 giây, bao gồm cả ngữ điệu và giọng địa phương đặc trưng.
- Công cụ này mở ra nhiều ứng dụng mới như hỗ trợ giáo dục (đọc sách cho trẻ em, phản hồi học tập cá nhân hóa), dịch và bản địa hóa nội dung đa ngôn ngữ, hỗ trợ giao tiếp cho người khiếm khuyết, cung cấp dịch vụ ở vùng sâu vùng xa, tạo avatar và lồng tiếng nội dung, nâng cao khả năng tiếp cận.
- Tuy nhiên, cũng có lo ngại về khả năng sử dụng sai mục đích công nghệ này như mạo danh, gian lận, đặc biệt trong các thời điểm nhạy cảm như bầu cử.
- OpenAI nhấn mạnh tầm quan trọng của sự đồng ý và tuân thủ khuôn khổ pháp lý khi sử dụng công cụ này. Cần có các biện pháp xác thực giọng nói mạnh mẽ và danh sách các giọng nói không được phép sao chép.
- Giải pháp tiềm năng là sử dụng thủy vân trong âm thanh do AI tạo ra, giúp người nghe nhận biết nội dung là do AI tạo ra, tăng cường niềm tin vào tính xác thực của thông tin.
📌 Công cụ giọng nói AI mới của OpenAI mở ra nhiều ứng dụng đột phá trong giáo dục, y tế, truyền thông, tiếp cận, nhưng cũng đặt ra thách thức về đạo đức và nguy cơ lạm dụng. Cần có các biện pháp xác thực giọng nói mạnh mẽ và danh sách các giọng nói không được phép sao chép, sử dụng thủy vân trong âm thanh do AI tạo ra, giúp người nghe nhận biết nội dung là do AI tạo ra, tăng cường niềm tin vào tính xác thực của thông tin.
https://www.geeky-gadgets.com/openai-ai-speech-engine/
- Khi OpenAI công bố mô hình video tạo sinh Sora vào tháng trước, nó đã mời một số nhà làm phim thử nghiệm và công bố 7 phim ngắn siêu thực, cho thấy tương lai của video tạo sinh đang đến rất nhanh.
- Các mô hình đầu tiên có thể biến văn bản thành video xuất hiện vào cuối năm 2022 từ các công ty như Meta, Google và startup Runway, nhưng kết quả vẫn còn thô và chỉ vài giây.
- Chỉ 18 tháng sau, đầu ra HD, photorealistic tốt nhất của Sora đã đạt đến mức đáng kinh ngạc, khiến một số người dự đoán sự sụp đổ của Hollywood.
- Nhiều công ty đang chạy đua tạo ra mô hình kinh doanh dựa trên những bước đột phá này, hầu hết đều đang tìm hiểu mô hình kinh doanh trong quá trình đi.
- Sora của OpenAI hiện vượt trội so với đối thủ cạnh tranh, nhưng các công ty khác như Haiper, Irreverent Labs cũng đang nỗ lực bắt kịp.
- Video sẽ xuất hiện ở mọi nơi có video, từ YouTube, TikTok, tin tức đến quảng cáo. Ngành quảng cáo là một trong những người áp dụng sớm nhất công nghệ tạo sinh.
- Tuy nhiên, kiểm soát đầu ra vẫn là một thách thức lớn với công nghệ video tạo sinh hiện tại.
- Tin giả, tuyên truyền và nội dung phi đạo đức là mối lo ngại lớn với khả năng tạo video giả dễ dàng hơn bao giờ hết.
- Các nền tảng trực tuyến lớn có hồ sơ kém trong việc kiểm duyệt, và không có công cụ phát hiện video giả đáng tin cậy.
- Giáo dục công chúng về nguy cơ của công nghệ này có thể là giải pháp tốt nhất hiện nay.
📌 Sora của OpenAI đã nâng tầm video tạo sinh, nhưng cũng đặt ra nhiều thách thức về kiểm soát, tin giả và nội dung phi đạo đức. Giáo dục công chúng có thể là giải pháp tốt nhất trước khi công nghệ này trở nên phổ biến.
Citations:
[1] https://www.technologyreview.com/2024/03/28/1090252/whats-next-for-generative-video/
#MIT
- Ideogram là một công cụ tạo tranh AI nổi bật với khả năng tạo ra hình ảnh có chứa văn bản rõ ràng trong hầu hết các lần thử.
- Người dùng có thể đăng ký miễn phí và nhận 25 lượt nhập mỗi ngày. Nếu muốn có thêm lượt và các tính năng nâng cao, có thể đăng ký gói trả phí.
- Ideogram cho phép tùy chỉnh phông chữ, màu sắc, kết cấu và kiểu dáng của văn bản ngay trong lời nhắc.
- Để bắt đầu, người dùng chỉ cần đăng ký tài khoản Gmail, đồng ý với điều khoản và tạo tên người dùng. Sau đó có thể ngay lập tức bắt đầu nhập lời nhắc để tạo tranh.
- Không cần tham số đặc biệt nào để tạo văn bản, AI của Ideogram sẽ tự hiểu nội dung miễn là bạn chỉ rõ phần nào trong lời nhắc cần được tạo dưới dạng văn bản.
- Ideogram rất hữu ích trong việc tạo logo. Mặc dù đôi khi vẫn có một vài điểm chưa chính xác, nhưng người dùng có thể dễ dàng chỉnh sửa tranh AI sau đó.
📌 Ideogram là công cụ tạo tranh AI chuyên biệt cho việc tạo văn bản rõ ràng trong ảnh. Với 25 lượt miễn phí mỗi ngày và khả năng tùy chỉnh linh hoạt, Ideogram giúp người dùng dễ dàng tạo ra các hình ảnh chứa chữ, logo ấn tượng chỉ trong vài thao tác đơn giản.
Citations:
[1] https://www.makeuseof.com/ideogram-ai-art-generator-legible-text/
- Nvidia giới thiệu Latte3D, mô hình AI tạo sinh văn bản thành 3D có thể tạo ra hình dạng 3D chất lượng cao chỉ trong vài mili giây.
- Latte3D do nhóm phòng thí nghiệm AI của Nvidia tại Toronto phát triển, mang lại khả năng tạo sinh gần thời gian thực các vật thể và động vật 3D từ các lệnh văn bản đơn giản.
- Sanja Fidler, Phó Chủ tịch Nghiên cứu AI tại Nvidia, cho rằng Latte3D là một bước đột phá cho các nhà sáng tạo trên nhiều lĩnh vực.
- Latte3D có thể biến đổi các lệnh văn bản thành các hình dạng 3D chi tiết, tương tự như máy in 3D ảo, chỉ cần sử dụng một GPU như Nvidia RTX A6000.
- Thay vì thiết kế vật thể từ đầu hay tìm kiếm trong thư viện tài sản 3D, các nhà sáng tạo giờ đây có thể dựa vào Latte3D để hiện thực hóa ý tưởng một cách nhanh chóng và hiệu quả.
- Latte3D cung cấp nhiều tùy chọn hình dạng dựa trên mỗi đầu vào văn bản, cho phép người dùng chọn thiết kế phù hợp nhất.
- Tính linh hoạt của Latte3D vượt ra ngoài tập dữ liệu huấn luyện ban đầu, bao gồm động vật và các vật dụng hàng ngày. Các nhà phát triển có thể huấn luyện mô hình trên các loại dữ liệu khác nhau, cho phép ứng dụng trong nhiều lĩnh vực như thiết kế cảnh quan và robotics.
- Latte3D được hỗ trợ bởi GPU Nvidia A100 Tensor Core và được huấn luyện trên các lệnh văn bản đa dạng được tạo ra bằng ChatGPT.
- Latte3D thể hiện cam kết của Nvidia trong việc thúc đẩy các công cụ tạo nội dung dựa trên AI, xử lý nhiều loại mô tả văn bản, đảm bảo tạo hình dạng chính xác và phù hợp với nhu cầu người dùng.
📌 Latte3D của Nvidia là một bước tiến quan trọng trong lĩnh vực AI, mang lại khả năng tạo sinh gần thời gian thực các hình dạng 3D từ văn bản chỉ trong vài mili giây. Mô hình này hứa hẹn cách mạng hóa quy trình sáng tạo nội dung trên nhiều lĩnh vực, từ thiết kế cảnh quan đến robotics, giúp các nhà sáng tạo hiện thực hóa ý tưởng nhanh chóng và hiệu quả hơn bao giờ hết.
https://venturebeat.com/ai/nvidia-unveils-latte3d-to-instantly-generate-3d-shapes-from-text/
- OpenAI giới thiệu Sora, phần mềm trí tuệ nhân tạo mới có thể biến lời nhắc văn bản thành video trông thực tế đáng kinh ngạc.
- Các công ty khởi nghiệp AI khác như Runway AI, Haiper, Pika và Stability AI đã phát hành phần mềm tạo video AI mà bất kỳ ai cũng có thể sử dụng với giá rẻ hoặc miễn phí.
- Công cụ này đã phát triển nhanh hơn mong đợi, đủ nhanh để gây lo ngại cho những người lo lắng về kinh tế của việc tạo video hoặc sự lan truyền của thông tin sai lệch tinh vi.
- Giám đốc Pika Demi Guo cho rằng demo Sora cho thấy tiềm năng của công nghệ và đang giúp công ty thu hút nhiều nhân viên tiềm năng hơn.
- Đạo diễn Paul Trillo đã tích hợp trình tạo hình ảnh và video AI vào quy trình sáng tạo của mình, cho phép anh khám phá nhiều khái niệm và hiệu ứng đặc biệt hơn.
- Giada Pistilli, chuyên gia đạo đức tại Hugging Face, cho rằng công nghệ này có thể giúp các nhà làm phim ngân sách thấp dễ dàng thêm hiệu ứng đặc biệt, nhưng nhược điểm như dễ dàng lan truyền thông tin sai lệch và khiêu dâm do AI tạo ra lớn hơn ưu điểm.
- Kiểm tra phần mềm video-to-text từ Pika, Haiper, Runway's Gen-2 và Stability AI's Stable Video cho thấy các hệ thống này thường không tạo ra video tuân theo lời nhắc văn bản đơn giản.
- Tạo video bằng AI đòi hỏi nhiều tính toán hơn so với chatbot hoặc trình tạo ảnh tĩnh, khiến nó đắt tiền và chậm hơn.
- Giá cả có thể giảm xuống theo thời gian khi phần cứng và phần mềm được cải thiện. Valenzuela dự đoán ai đó sẽ làm một bộ phim dài ít nhất 60 phút vào cuối năm nay mà mọi cảnh đều sử dụng trình tạo video AI.
📌 Công nghệ tạo video AI đang phát triển nhanh chóng với sự cạnh tranh giữa OpenAI và các startup. Mặc dù vẫn còn hạn chế, công cụ này hứa hẹn làm thay đổi ngành công nghiệp video với chi phí thấp hơn nhiều so với kỹ thuật truyền thống. Tuy nhiên, nó cũng đặt ra những lo ngại về thông tin sai lệch. Các chuyên gia dự đoán phim dài đầu tiên sử dụng AI có thể ra mắt ngay trong năm nay.
https://www.bloomberg.com/news/articles/2024-03-20/open-ai-s-sora-video-tool-tries-to-keep-up-with-runway
- Nvidia công bố mô hình AI đa phương thức Edify giờ đây có thể tạo ra nội dung 3D và hợp tác với Shutterstock, Getty Images về các công cụ được cung cấp bởi Edify.
- Shutterstock cung cấp quyền truy cập sớm vào API dựa trên Edify để tạo các đối tượng 3D cho cảnh ảo từ lời nhắc văn bản và hình ảnh, giúp giảm đáng kể thời gian cần thiết để tạo nguyên mẫu.
- Getty bổ sung khả năng tinh chỉnh tùy chỉnh vào dịch vụ AI tạo sinh, cho phép khách hàng doanh nghiệp tạo hình ảnh tuân theo hướng dẫn và phong cách thương hiệu.
- Các nhà phát triển sẽ sớm có thể kiểm tra các mô hình này thông qua Nvidia NIM - bộ sưu tập các microservice suy luận mới.
- Getty cung cấp dịch vụ cho phép các thương hiệu tinh chỉnh Edify theo thương hiệu và phong cách cụ thể của họ thông qua phương pháp tự phục vụ không cần mã.
- Các công ty hàng đầu như Dentsu, McCann, WPP đang sử dụng công cụ AI tạo sinh của Getty cho các thương hiệu như Sam's Club, Mucinex, Coca-Cola.
- Shutterstock và HP đang hợp tác về in 3D tùy chỉnh, cho phép các nhà thiết kế tạo nội dung kỹ thuật số mà HP có thể chuyển đổi thành mô hình in 3D.
- Các công ty như Dassault Systèmes, Katana, Accenture Song cũng đang tận dụng công cụ 3D và microservice Edify của Shutterstock.
📌 Nvidia đang mở rộng sang lĩnh vực nội dung 3D với sự hợp tác của Shutterstock và Getty Images. Các công cụ mới dựa trên AI Edify có thể tạo đối tượng 3D từ lời nhắc, giúp đẩy nhanh quá trình thiết kế và tiết kiệm thời gian đáng kể. Nhiều thương hiệu và công ty hàng đầu đã bắt đầu tận dụng công nghệ này cho các dự án sáng tạo và quảng cáo.
https://venturebeat.com/ai/nvidia-partners-with-shutterstock-getty-images-on-ai-generated-3d-content/
- VLOGGER là một hệ thống AI mới do các nhà nghiên cứu Google phát triển, có thể tạo ra video giống như thật về người nói, cử chỉ và di chuyển chỉ từ một bức ảnh tĩnh.
- Công nghệ này dựa trên các mô hình học máy tiên tiến gọi là mô hình khuếch tán để tổng hợp cảnh quay thực tế đáng kinh ngạc.
- VLOGGER sử dụng một tập dữ liệu mới khổng lồ có tên MENTOR, chứa hơn 800.000 danh tính đa dạng và 2.200 giờ video, cho phép nó học cách tạo video về người với các sắc tộc, độ tuổi, trang phục, tư thế và môi trường xung quanh khác nhau mà không bị sai lệch.
- Công nghệ này mở ra nhiều trường hợp sử dụng hấp dẫn như tự động lồng tiếng video sang ngôn ngữ khác, chỉnh sửa liền mạch và điền vào các khung hình bị thiếu trong video, tạo ra video đầy đủ của một người từ một bức ảnh duy nhất.
- VLOGGER có thể được sử dụng để tạo ra các diễn viên ảo chân thực cho thực tế ảo và trò chơi, cũng như các trợ lý ảo và chatbot hấp dẫn và sinh động hơn.
- Tuy nhiên, công nghệ này cũng có khả năng bị lạm dụng, chẳng hạn như tạo ra deepfake, gây ra thách thức về thông tin sai lệch và giả mạo kỹ thuật số.
- Mặc dù ấn tượng, VLOGGER vẫn có những hạn chế như video được tạo ra tương đối ngắn, có nền tĩnh, cá nhân không di chuyển trong môi trường 3D và cử chỉ, giọng nói chưa hoàn toàn giống người thật.
- VLOGGER đại diện cho một bước tiến đáng kể và cho thấy sự tiến bộ nhanh chóng đang diễn ra trong lĩnh vực trí tuệ nhân tạo.
📌 VLOGGER của Google có thể tạo ra video chân thực về người nói và cử chỉ chỉ từ một bức ảnh tĩnh, dựa trên mô hình khuếch tán và tập dữ liệu khổng lồ MENTOR với hơn 800.000 danh tính và 2.200 giờ video. Công nghệ này mở ra nhiều ứng dụng tiềm năng nhưng cũng đặt ra thách thức về deepfake và thông tin sai lệch trong tương lai.
https://venturebeat.com/ai/google-researchers-unveil-vlogger-an-ai-that-can-bring-still-photos-to-life/
- Haiper AI là công cụ tạo video AI đột phá, miễn phí, do 2 cựu nhân viên DeepMind phát triển
- Công ty đã huy động được 13 triệu USD vốn hạt giống, cho thấy tiềm năng to lớn
- Giao diện thân thiện, quy trình tạo video đơn giản chỉ cần nhập lệnh văn bản ngắn gọn
- Lệnh nên bao gồm 3 yếu tố: chủ thể, chuyển động, phong cách để đạt kết quả tốt nhất
- Cung cấp nhiều thẻ phong cách như phim cũ, màu nước, cyberpunk, bí ẩn, Lego, hậu cảnh mờ
- Tạo video HD dọc 720x1088, ngang 1280x720. Hiện giới hạn 2 giây, sẽ mở rộng sau
- Có cài đặt riêng tư cho video công khai hoặc cá nhân
- Tính năng "Animate Your Image" để tạo hoạt ảnh từ ảnh tĩnh
- Đang phát triển công cụ "Video to Video" để sửa đổi yếu tố trong video sẵn có
- Chất lượng video ngang ngửa với các công cụ AI khác như Sora
- Cho phép tải xuống video đầu ra
- Tiềm năng tạo ra cả thế giới, câu chuyện, phim ảnh chỉ từ lệnh văn bản
- Tương lai có thể tích hợp đầu vào AI đa phương thức (cốt truyện, hội thoại, âm nhạc, giọng nói)
- Ứng dụng trong nhiều lĩnh vực như giải trí, quảng cáo
- Công nghệ liên tục phát triển và cải tiến
📌 Haiper AI đang dẫn đầu cuộc cách mạng video AI với nền tảng thân thiện, dễ tiếp cận và chất lượng đầu ra ấn tượng không kém Sora. Công ty đang không ngừng hoàn thiện công nghệ, mở rộng dịch vụ, hứa hẹn tác động lớn đến lĩnh vực sáng tạo nội dung video trong tương lai gần.
https://www.geeky-gadgets.com/haiper-ai-video-generator/
• Suno là một startup mới thành lập cách đây 2 năm, đang phát triển AI có thể tạo ra các bài hát hoàn chỉnh chỉ từ các lệnh văn bản đơn giản.
• Mô hình V3 mới nhất của Suno có thể tạo ra một bài blues acoustic chân thực và cảm động chỉ trong 15 giây từ lệnh "solo acoustic Mississippi Delta blues about a sad AI".
• Các nhà đồng sáng lập Suno đều là chuyên gia machine learning, có tham vọng dân chủ hóa việc sáng tác nhạc, hướng tới 1 tỷ người dùng trả 10 USD/tháng.
• Suno sử dụng cách tiếp cận tương tự như các mô hình ngôn ngữ lớn như ChatGPT, nhưng âm thanh và nhạc phức tạp hơn nhiều so với ngôn ngữ.
• Suno đang giao tiếp với các hãng thu âm lớn và tôn trọng quyền sở hữu trí tuệ, công cụ của họ không cho phép bắt chước phong cách của nghệ sĩ cụ thể.
• Các nhà sáng lập Suno cho rằng họ không cố gắng thay thế nghệ sĩ mà muốn thu hút nhiều người tham gia sáng tác nhạc hơn.
• Suno có thể gây đảo lộn thị trường nhạc quảng cáo, phim ảnh và cho phép người dùng tràn ngập các dịch vụ stream nhạc bằng sáng tác AI.
• Đối thủ tiềm năng lớn nhất của Suno là Dream Track của Google, nhưng chất lượng chưa bằng Suno và mới chỉ thử nghiệm với một số ít người dùng.
📌 Suno đang thay đổi cuộc chơi với AI tạo nhạc, hướng tới dân chủ hóa sáng tác cho hàng tỷ người với chi phí chỉ 10 USD/tháng. Mô hình V3 mới nhất có thể tạo bài hát hoàn chỉnh trong 15 giây từ lệnh văn bản đơn giản. Tuy nhiên, điều này cũng đặt ra nhiều câu hỏi về tác động tới nghệ sĩ và ngành công nghiệp âm nhạc.
Citations:
[1]https://www.rollingstone.com/music/music-features/suno-ai-chatgpt-for-music-1234982307/
• SIMA là khung AI đột phá của Google DeepMind và Đại học British Columbia, được đào tạo trong nhiều môi trường ảo 3D khác nhau.
• Nó có khả năng hiểu và hành động theo hướng dẫn bằng ngôn ngữ tự nhiên trong bất kỳ môi trường ảo nào, từ phòng thí nghiệm đến thế giới game thương mại.
• Công nghệ của SIMA cho phép nó dịch hướng dẫn bằng lời thành hành động vật lý, mở ra tương lai mới cho tương tác giữa con người và AI trong không gian ảo.
• Tuy nhiên, thách thức để hoàn toàn làm chủ phức tạp của môi trường và ngôn ngữ hướng dẫn vẫn còn tồn tại, đòi hỏi nghiên cứu và hoàn thiện thêm.
📌 SIMA đạt được bước tiến lớn trong khả năng tương tác của AI với môi trường 3D, nhưng vẫn cần nỗ lực nghiên cứu thêm để hoàn thiện hơn nữa khả năng hiểu ngôn ngữ tự nhiên và hành động trong thế giới ảo phức tạp.
https://www.marktechpost.com/2024/03/16/google-deepmind-introduces-sima-the-first-generalist-artificial-intelligence-ai-agent-to-follow-natural-language-instructions-in-a-broad-range-of-3d-virtual-environments-and-video-games/
- Midjourney thay đổi nhỏ trong điều khoản dịch vụ liên quan đến chính sách tranh chấp sở hữu trí tuệ, cho thấy sự tự tin của công ty rằng các nhà cung cấp AI sẽ chiến thắng trong các trận chiến pháp lý với các nhà sáng tạo.
- Các mô hình AI tạo sinh được huấn luyện trên một lượng lớn dữ liệu, thường được lấy từ các trang web và kho lưu trữ công khai. Các nhà cung cấp khẳng định rằng việc sử dụng hợp lý bảo vệ họ, nhưng không phải tất cả các nhà sáng tạo đều đồng ý.
- Midjourney đã khá táo bạo trong việc sử dụng các tác phẩm có bản quyền, từng duy trì danh sách hàng nghìn nghệ sĩ mà tác phẩm của họ đã hoặc sẽ được sử dụng để huấn luyện mô hình.
- Anthropic ra mắt dòng mô hình mới Claude 3, tuyên bố ngang tầm với GPT-4 của OpenAI. Tuy nhiên, mô hình vẫn còn thiếu sót ở một số lĩnh vực như sự kiện hiện tại.
- OpenAI tuyên bố sẽ bác bỏ tất cả các cáo buộc của Elon Musk trong vụ kiện gần đây, và cho rằng tỷ phú này không thực sự có nhiều tác động đến sự phát triển và thành công của OpenAI.
- Amazon ra mắt chatbot Rufus được hỗ trợ bởi AI trong ứng dụng Amazon Shopping, nhưng gây thất vọng do thiếu các tính năng hữu ích.
📌 Tuần qua chứng kiến nhiều diễn biến đáng chú ý trong lĩnh vực AI, từ việc Midjourney thay đổi chính sách bản quyền một cách táo bạo, Anthropic ra mắt dòng mô hình Claude 3 đầy tham vọng, cho đến cuộc chiến pháp lý giữa OpenAI và Elon Musk. Bên cạnh đó, các nghiên cứu mới cũng cho thấy tiềm năng và thách thức của AI trong việc dự đoán cấu trúc phân tử, phát hiện biến thể COVID-19, và phân tích dữ liệu vệ tinh.
Citations:
[1] https://techcrunch.com/2024/03/16/this-week-in-ai-midjourney-bets-it-can-beat-the-copyright-police/
- Zhipu AI, công ty tiên phong trong lĩnh vực mô hình ngôn ngữ lớn (LLM) của Trung Quốc, cho biết họ đang phát triển công nghệ tương tự như Sora của OpenAI, nhằm đạt được trí tuệ nhân tạo tổng quát (AGI).
- Sora, công cụ tạo video từ văn bản của OpenAI, sẽ ra mắt công chúng vào cuối năm nay, nhưng không có mặt tại Trung Quốc. Điều này thúc đẩy nhiều công ty Trung Quốc tăng tốc để bắt kịp tiến bộ gần đây của Mỹ.
- Zhang Peng, CEO của Zhipu AI, khen ngợi khả năng đa phương thức của Sora là "rất tiên tiến", đồng thời thừa nhận khoảng cách công nghệ hiện tại giữa Sora và các nỗ lực tương tự của Trung Quốc.
- Zhipu là một trong những công ty đầu tiên của Trung Quốc khám phá phát triển LLM, được thành lập vào tháng 6/2019 bởi các nghiên cứu viên khoa học máy tính tại Đại học Thanh Hoa.
- Công ty đã huy động được tổng cộng 2,5 tỷ nhân dân tệ (342 triệu USD), được hậu thuẫn bởi các công ty công nghệ lớn và quỹ đầu tư mạo hiểm của Trung Quốc như Alibaba, Tencent, Meituan và Xiaomi.
- ChatGLM, chatbot của Zhipu ra mắt vào tháng 3 năm ngoái, nằm trong nhóm dịch vụ AI tạo sinh đầu tiên được chính phủ Trung Quốc phê duyệt.
- Bắc Kinh kiểm soát chặt chẽ các dịch vụ AI tạo sinh, yêu cầu tất cả dịch vụ trong nước phải xin giấy phép trước khi phát hành công khai và hạn chế sử dụng chatbot nước ngoài.
- Zhang hy vọng về sự hợp tác trong tương lai với các công ty nước ngoài về công nghệ AI và đang nhắm tới thị trường nước ngoài.
📌 Zhipu AI đang nỗ lực phát triển công nghệ tương tự Sora của OpenAI để hướng tới AGI. Công ty đã huy động được 342 triệu USD, được chính phủ cấp phép cho chatbot ChatGLM, và đang tìm cách hợp tác với nước ngoài cũng như mở rộng ra thị trường quốc tế.
https://www.scmp.com/tech/article/3255604/chinas-zhipu-ai-says-it-developing-sora-technology-path-artificial-general-intelligence
- Theo Tomi Huttula, đồng sáng lập Cosmic Lounge, studio của ông đã phát triển một công cụ AI tạo sinh có thể tạo ra nguyên mẫu game chỉ trong "5 đến 6 giờ".
- Công cụ Puzzle Engine của Cosmic Lounge sử dụng menu thả xuống và lời nhắc để tạo ra nhiều yếu tố game từ cơ chế câu đố, logic game đến nghệ thuật và cấp độ.
- Puzzle Engine giúp các nhà thiết kế dễ dàng tạo ra nguyên mẫu mà không cần sự trợ giúp của họa sĩ hay kỹ sư.
- Công nghệ của Cosmic Lounge có thể tạo ra số lượng lớn cấp độ, chơi thử và đưa ra phản hồi về độ khó, điểm rời bỏ tiềm năng và cơ hội kiếm tiền. Nhà thiết kế có thể chỉnh sửa dựa trên phản hồi của AI.
- Tuy nhiên, tuyên bố của Huttula rằng "AI không thay thế công việc của bất kỳ ai" gây tranh cãi trong bối cảnh ngành game chứng kiến nhiều đợt sa thải bất chấp lợi nhuận tăng vọt.
- Ngành công nghiệp game đang đối mặt với câu hỏi làm thế nào AI tạo sinh sẽ ảnh hưởng đến nó. Nhiều lãnh đạo công ty lớn như Square Enix và EA đang lên tàu AI.
- Valve đã giới thiệu quy trình mới yêu cầu các nhà phát triển tiết lộ cách sử dụng AI trong game. Nhiều người dùng bày tỏ sự lo lắng và tuyên bố sẽ không chạm vào bất kỳ trò chơi nào được tạo bằng AI tạo sinh.
📌 Cosmic Lounge tuyên bố công cụ AI tạo sinh Puzzle Engine có thể phát triển nguyên mẫu game chỉ trong 5-6 giờ, đơn giản hóa quá trình sáng tạo cho các nhà thiết kế. Tuy nhiên, điều này gây ra nhiều lo ngại trong bối cảnh ngành game sa thải hàng loạt.
https://readwrite.com/generative-ai-is-making-games-in-six-hours-claims-cosmic-lounge/
- OpenAI sẽ ra mắt công cụ tạo video từ văn bản Sora vào cuối năm 2024, tuy nhiên quá trình triển khai sẽ diễn ra chậm rãi.
- Hiện tại, Sora chỉ có thể tạo ra các clip dài tối đa 60 giây, không có giọng nói hoặc âm thanh. Tuy nhiên, OpenAI có kế hoạch bổ sung âm thanh vào công nghệ Sora.
- Sora có thể khiến một số người ở Hollywood lo lắng về triển vọng việc làm trong tương lai. Tuy nhiên, Sora vẫn mắc phải một số lỗi như hiểu sai lời nhắc của người dùng hoặc gặp khó khăn trong việc mô phỏng chân thực bàn tay của con người hoặc chuyển động của xe cộ đi qua.
- Để giải quyết mối lo ngại về việc sử dụng sai mục đích, OpenAI sẽ thêm thủy vân và siêu dữ liệu vào tất cả các clip video do Sora tạo ra, giúp công chúng dễ dàng nhận biết được đoạn video do AI tạo ra.
- Sora sẽ bị cấm tạo hình ảnh của các nhân vật công chúng, hạn chế khả năng tạo deepfake của các chính trị gia và người nổi tiếng.
- Sora cũng có thể phải đối mặt với những thách thức pháp lý, một vấn đề mà OpenAI đang trải qua với ChatGPT.
- OpenAI đã sử dụng các video công khai và dữ liệu được cấp phép, bao gồm nội dung từ nhà cung cấp hình ảnh Shutterstock, để đào tạo chương trình tạo ra video giống như thật.
📌 OpenAI sẽ ra mắt Sora, công cụ tạo video từ văn bản vào cuối năm 2024 với quá trình triển khai chậm rãi do lo ngại về việc làm và thông tin sai lệch. Hiện tại, Sora chỉ tạo được clip 60 giây không âm thanh, nhưng sẽ được bổ sung tính năng này. OpenAI sẽ thêm thủy vân, siêu dữ liệu và hạn chế tạo hình ảnh người nổi tiếng để tránh sử dụng sai mục đích.
https://www.pcmag.com/news/openais-sora-text-to-video-generator-to-launch-later-this-year
Meta description: ElevenLabs đã ra mắt công cụ tạo hiệu ứng âm thanh AI đột phá, mở ra nhiều khả năng mới cho việc sáng tạo nội dung đa phương tiện, nâng tầm trải nghiệm kể chuyện và thúc đẩy sự phát triển của công nghệ âm thanh.
Meta keywords: ElevenLabs, AI tạo hiệu ứng âm thanh, nội dung đa phương tiện, trải nghiệm kể chuyện, công nghệ âm thanh, tạo âm thanh tổng hợp, giao diện thân thiện, ứng dụng đa dạng, tích hợp linh hoạt
SEO title: Cuộc cách mạng âm thanh của ElevenLabs: AI đang định hình lại thế giới nội dung audio
Tóm tắt chi tiết:
- ElevenLabs ra mắt công cụ tạo hiệu ứng âm thanh AI, cho phép người dùng dễ dàng tạo ra nhiều hiệu ứng âm thanh phức tạp cho các ứng dụng như thuyết trình, phim ảnh, podcast.
- Sử dụng thuật toán AI tiên tiến, nền tảng cung cấp nhiều âm thanh tổng hợp ấn tượng, dựa trên bộ dữ liệu các đối tượng và kịch bản thực tế.
- Công cụ có giao diện trực quan, thân thiện. Chỉ với một lời nhắc đơn giản, người dùng có thể tạo ra 5 biến thể khác nhau của hiệu ứng âm thanh yêu cầu.
- Ứng dụng đa dạng từ nâng cao thuyết trình đa phương tiện đến làm phong phú trải nghiệm kể chuyện trong podcast. Mở ra nhiều khả năng mới cho người sáng tạo nội dung.
- Tích hợp linh hoạt vào các dự án đa phương tiện, cho phép kết hợp nhiều âm thanh để tạo ra các tác phẩm âm thanh mong muốn.
- Công nghệ tạo âm thanh do AI điều khiển mở ra những con đường mới cho sự tự thể hiện và khám phá nghệ thuật.
- Đại diện cho bước chuyển mình trong lĩnh vực sáng tạo nội dung, hứa hẹn cách mạng hóa cách tạo và sử dụng hiệu ứng âm thanh trên nhiều nền tảng đa phương tiện.
📌 Công cụ tạo hiệu ứng âm thanh AI của ElevenLabs đánh dấu bước tiến quan trọng trong công nghệ âm thanh, mang đến khả năng tùy chỉnh vô hạn và tiềm năng đột phá cho việc sản xuất âm thanh sáng tạo. Khi ranh giới của AI tiếp tục được mở rộng, tương lai của việc tạo âm thanh tổng hợp sẽ ngày càng phát triển mạnh mẽ.
https://www.cryptopolitan.com/elevenlabs-reshaping-the-of-audio-content/
- Tavus, startup AI tạo sinh 4 tuổi, xác nhận gọi vốn thành công 18 triệu USD và mở nền tảng cho bên thứ ba tích hợp công nghệ của họ.
- Vòng gọi vốn Series A do Scale Venture Partners dẫn đầu, Sequoia, Y Combinator và HubSpot cũng tham gia.
- Tavus giúp các công ty tạo "bản sao kỹ thuật số" của cá nhân để tự động hóa các chiến dịch video cá nhân hóa.
- Khách hàng lớn của Tavus gồm Meta, Salesforce, sử dụng nền tảng này để bán thêm cho khách hàng B2B thông qua video demo cá nhân hóa.
- Tavus giới thiệu phiên bản công nghệ mới cùng bộ API cho phép bên thứ ba tích hợp vào ứng dụng riêng.
- API đầu tiên là "replica API", tạo bản sao kỹ thuật số chân thực dựa trên mô hình độc quyền "Phoenix" của Tavus.
- Các API khác đang phát triển gồm lip-syncing, lồng tiếng và chiến dịch video cá nhân hóa quy mô lớn.
- Tavus có các biện pháp xác minh để ngăn chặn lạm dụng công nghệ tạo deepfake.
📌 Tavus, startup AI tạo sinh 4 tuổi, gọi vốn thành công 18 triệu USD từ các quỹ lớn như Sequoia, Scale, Y Combinator để phát triển công nghệ nhân bản khuôn mặt, giọng nói. Với khách hàng như Meta, Salesforce, Tavus giới thiệu bộ API mới cho phép tích hợp vào ứng dụng của bên thứ ba, hứa hẹn mở rộng khả năng ứng dụng AI trong video.
Citations:
[1] https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/131695/efd524df-a434-4dc5-9091-49ab531e11ab/paste.txt
https://techcrunch.com/2024/03/12/generative-ai-video-startup-tavus-raises-18m-to-bring-face-and-voice-cloning-to-any-app/
- Pika vừa bổ sung tính năng tự động tạo hiệu ứng âm thanh cho video AI được tạo trên nền tảng web pika.art
- Tính năng mới hứa hẹn mang lại chiều sâu mới cho video AI, vốn trước đây chủ yếu không có âm thanh
- Kết hợp với khả năng đồng bộ môi và lồng tiếng AI, Pika trở thành một trong những nền tảng tạo video AI "all-in-one" đầu tiên
- Pika cung cấp 2 cách tạo âm thanh: tự động dựa trên ngữ cảnh video và thêm âm thanh cụ thể theo yêu cầu người dùng
- Tính năng mới hiện chỉ có sẵn cho người dùng trong chương trình super-collaborators hoặc đăng ký Pro với giá $58/tháng
- Pika không phải là công ty duy nhất nghiên cứu công nghệ tạo âm thanh từ văn bản. ElevenLabs và Meta cũng có sản phẩm tương tự là AudioGen.
- Kể từ khi ra mắt vào tháng 12/2023, Pika liên tục cải tiến sản phẩm để cạnh tranh với các đối thủ như OpenAI, Adobe, Runwa, Stability AI.
📌 Pika vừa ra mắt tính năng tự động tạo hiệu ứng âm thanh AI cho video, giúp người dùng tạo nội dung hoàn chỉnh chỉ với vài thao tác đơn giản. Bổ sung vào khả năng lồng tiếng và đồng bộ môi AI, Pika đang dần trở thành nền tảng tạo video AI toàn diện, cạnh tranh trực tiếp với các ông lớn như OpenAI, Adobe hay Stability AI.
https://venturebeat.com/ai/pika-adds-generative-ai-sound-effects-to-its-video-maker/
- Midjourney giới thiệu tính năng "Character Reference" cho phép tạo ra các nhân vật nhất quán qua nhiều ảnh tham chiếu.
- Người dùng thêm "–cref URL" vào sau prompt với URL ảnh nhân vật.
- Có thể điều chỉnh "độ mạnh" tham chiếu bằng "–cw" từ 100 đến 0. Mặc định 100 xét khuôn mặt, tóc và quần áo. 0 chỉ tập trung vào khuôn mặt.
- Trộn thông tin từ nhiều ảnh bằng "–cref URL1 URL2".
- Lấy hoặc tạo URL ảnh nhân vật qua Midjourney, dùng "–cref" kèm URL để tạo nhân vật trong các bối cảnh khác nhau.
- Điều chỉnh mức độ biến thể ảnh bằng "–cw" từ 1 đến 100. Số thấp cho nhiều biến thể hơn, số cao bám sát ảnh gốc hơn.
- Có thể dùng nhiều thẻ "–cref" với các URL tương ứng để trộn thông tin từ nhiều ảnh.
- Trong phiên bản web alpha, người dùng có thể kéo hoặc dán ảnh, chọn làm prompt, tham chiếu phong cách hoặc tham chiếu nhân vật.
- Nhiều người dùng trên mạng xã hội đánh giá cao tính năng mới này.
📌 Tính năng "Character Reference" mới của Midjourney giúp tạo nhân vật nhất quán qua nhiều ảnh tham chiếu, với khả năng điều chỉnh mức độ tương đồng từ 0-100. Người dùng có thể trộn thông tin từ nhiều ảnh và tạo nhân vật trong các bối cảnh khác nhau. Tính năng này nhận được nhiều phản hồi tích cực.
https://analyticsindiamag.com/midjourney-unveils-new-feature-to-create-consistent-characters/
- Startup AIsphere có trụ sở tại Bắc Kinh vừa huy động hơn 100 triệu nhân dân tệ (14 triệu USD) trong vòng gọi vốn do quỹ đầu tư mạo hiểm Fortune Capital dẫn đầu.
- AIsphere do Wang Changhu, cựu trưởng bộ phận công nghệ thị giác tại ByteDance, sáng lập vào tháng 4/2023.
- Công ty ra mắt công cụ tạo video PixVerse cho thị trường nước ngoài vào tháng 1 và phiên bản beta cho người dùng Trung Quốc vào thứ Hai.
- AIsphere tự quảng cáo có "gene ByteDance", giải quyết nhiều vấn đề cấp thế giới trong lĩnh vực thị giác máy tính và hỗ trợ xây dựng các sản phẩm video nổi tiếng như Douyin, TikTok.
- Công ty thu hút nhân tài từ Tencent, Kuaishou, Microsoft Research để hình thành đội ngũ công nghệ.
- Wang Changhu tuyên bố AIsphere sẽ vượt qua khả năng hiện tại của Sora trong 3-6 tháng tới.
- Một số chuyên gia công nghệ và kinh doanh Trung Quốc đã giảm lạc quan với AI tạo sinh nội địa trước sự tiến bộ của đối thủ nước ngoài.
📌 AIsphere, startup AI tạo sinh Trung Quốc do cựu giám đốc ByteDance sáng lập, vừa huy động 14 triệu USD và tuyên bố sẽ đuổi kịp Sora của OpenAI trong 3-6 tháng. Tuy nhiên, một số chuyên gia đã giảm lạc quan với AI tạo sinh nội địa trước sự cạnh tranh từ nước ngoài.
https://www.scmp.com/tech/tech-trends/article/3255033/chinese-generative-ai-start-touting-itself-rival-openais-sora-raises-us14-million
- CEO EA Andrew Wilson nhấn mạnh tác động của AI trong phát triển game, cho rằng 60% quy trình có thể được hưởng lợi từ tích hợp AI.
- AI giúp tạo nội dung nhanh chóng, phù hợp với nhu cầu người dùng, rút ngắn thời gian từ ý tưởng đến thị trường.
- AI thúc đẩy sáng tạo, cho phép nhà phát triển tập trung cải tiến trải nghiệm gameplay và cung cấp nội dung chất lượng cao.
- Wilson ám chỉ tiềm năng doanh thu khổng lồ liên quan đến tích hợp AI, mở ra cơ hội sinh lời hàng tỷ đô la cho EA.
- Mặc dù hứa hẹn, Wilson thừa nhận tầm quan trọng của việc khuyến khích nhân viên chấp nhận và thích nghi với công nghệ AI.
- EA đang định hướng tương lai, với AI đóng vai trò trung tâm trong định hình sự phát triển của ngành game.
📌 CEO EA Andrew Wilson tin rằng AI có thể cách mạng hóa 60% quy trình phát triển game, tăng tốc độ sáng tạo nội dung, mở ra cơ hội doanh thu hàng tỷ đô la. Mặc dù có thách thức, EA cam kết tận dụng AI để đổi mới và duy trì vị thế cạnh tranh trong ngành công nghiệp game đang phát triển không ngừng.
https://www.cryptopolitan.com/wilson-discusses-role-of-ai-in-video-game/
- Midjourney 6 Turbo đã ra mắt với tốc độ nhanh hơn 3,5 lần so với phiên bản trước, tuy nhiên chi phí sử dụng cũng tăng gấp đôi.
- Nhiều tính năng mới đang được phát triển cho Midjourney 6 như:
+ Tính năng xã hội sẽ có bản cập nhật lớn trong khoảng 2 tuần tới.
+ Chế độ "turbo" hứa hẹn tốc độ nhanh gấp 3 lần nhưng chi phí cao hơn.
+ Tính năng "mô tả" đang được phát triển nhưng gặp một số vấn đề triển khai.
+ Cải tiến tốc độ cho phiên bản mặc định 6 trong tương lai.
+ Tính năng tham chiếu nhân vật cho phép tập trung vào các khía cạnh khác nhau như tóc, quần áo hoặc chỉ khuôn mặt, ban đầu giới hạn 1 nhân vật.
+ Cập nhật tham chiếu phong cách, bao gồm công cụ ngẫu nhiên hóa và khám phá phong cách.
- Nỗ lực tối ưu hóa máy chủ đang diễn ra để giải quyết các vấn đề gần đây và thời gian chờ đợi cao.
- Sự cố bảo mật liên quan đến việc tấn công website bởi đối thủ Stability AI dẫn đến quyết định cấm tất cả nhân viên của họ.
- Tiếp tục đào tạo các mô hình video phiên bản 7 và phát triển giao diện vẽ.
📌 Midjourney 6 Turbo mang đến tốc độ nhanh hơn 3,5 lần với chi phí gấp đôi. Nhiều tính năng mới đang được phát triển như chế độ turbo, mô tả, tham chiếu nhân vật và phong cách, tối ưu máy chủ. Bản cập nhật lớn về tính năng xã hội sẽ ra mắt trong 2 tuần tới. Midjourney cũng đang đào tạo các mô hình video cho phiên bản 7.
https://www.geeky-gadgets.com/midjourney-6-turbo/
- Đồng sáng lập Google Sergey Brin thừa nhận công ty "đã mắc sai lầm" với việc triển khai mô hình AI Gemini.
- Gemini tạo ra nhiều hình ảnh gây tranh cãi, mô tả các nhân vật lịch sử như giáo hoàng, lãnh đạo Mỹ, binh lính Đức thời chiến tranh thế giới thứ 2 thành người da màu.
- CEO Sundar Pichai gọi một số kết quả của Gemini là "hoàn toàn không thể chấp nhận được".
- Gemini được hướng dẫn đa dạng hóa hình ảnh người theo giới tính và sắc tộc, nhưng đã thực hiện quá mức dẫn đến kết quả sai lệch.
- Google đang chịu áp lực cạnh tranh từ thành công của OpenAI với ChatGPT và Dall-E, nên đã vội vàng tung ra Gemini mà chưa thử nghiệm kỹ.
- Sự cố cho thấy công nghệ AI tạo sinh còn non trẻ, đòi hỏi nhiều hơn khả năng hiện tại như sáng tạo nhưng vẫn chính xác, phản ánh chuẩn mực xã hội.
- Một số ý kiến cho rằng vị trí CEO của Pichai có thể bị đe dọa, nhưng nhà đầu tư kỳ vọng Google thành công với khoản đầu tư hàng tỷ USD vào AI.
📌 Sự cố triển khai vội vàng mô hình AI Gemini cho thấy Google đang chịu áp lực cạnh tranh gay gắt từ OpenAI. Việc tạo ra các hình ảnh lịch sử gây tranh cãi phơi bày những hạn chế của công nghệ AI tạo sinh khi đòi hỏi vượt quá khả năng hiện tại. Dù chưa đe dọa trực tiếp vị trí của CEO Sundar Pichai, sự cố là "vết đen" đối với Google trong cuộc đua phát triển AI.
https://www.theguardian.com/technology/2024/mar/08/we-definitely-messed-up-why-did-google-ai-tool-make-offensive-historical-images
- Lore Machine, một nền tảng AI tạo sinh, có khả năng biến văn bản thành hình ảnh truyện tranh.
- Quá trình phân tích và tạo hình ảnh mất khoảng 2 phút để xác định cảnh, địa điểm, nhân vật và không khí câu chuyện.
- Dịch vụ công khai với giá 10 đô la mỗi tháng cho phép tải lên tới 100.000 từ và tạo ra 80 hình ảnh.
- Có các gói dịch vụ cho người dùng cấp cao, bao gồm gói doanh nghiệp với giá 160 đô la mỗi tháng cho 2,24 triệu từ và 1.792 hình ảnh.
- Hình ảnh được tạo ra với nhiều phong cách khác nhau, từ manga đến nước màu đến phong cách chương trình TV những năm 80.
- Zac Ryder, người sáng lập Modern Arts, đã sử dụng phiên bản truy cập sớm và chuyển một kịch bản phim ngắn thành truyện tranh 16 trang qua một đêm.
- Lore Machine sử dụng mô hình ngôn ngữ lớn để quét văn bản và mô hình Stable Diffusion để tạo hình ảnh.
- Thobey Campion, người sáng lập Lore Machine, đã chuyển hướng từ dự án blockchain sang mô hình AI tạo sinh sau khi thấy sự quan tâm của mọi người.
- Công nghệ đằng sau Lore Machine có thể tạo ra nội dung độc hại nếu được yêu cầu, nhưng đã được hạn chế tạo hình ảnh bạo lực hoặc kỳ thị.
📌 Lore Machine là một công cụ AI tạo sinh hình ảnh từ văn bản, cho phép người dùng biến câu chuyện thành truyện tranh một cách nhanh chóng và dễ dàng. Với giá 10 đô la mỗi tháng, người dùng có thể tải lên tới 100.000 từ và tạo ra 80 hình ảnh. Công cụ này đặc biệt hữu ích cho các công ty sáng tạo và đã được Modern Arts sử dụng để phát triển một vũ trụ hư cấu cho loạt manga dựa trên văn bản của người sáng tạo Netflix's Love, Death & Robots. Lore Machine cung cấp một trải nghiệm người dùng thân thiện và đơn giản, mặc dù vẫn còn một số hạn chế về việc duy trì nhất quán hình ảnh và phong cách.
https://www.technologyreview.com/2024/03/05/1089458/generative-ai-turn-my-story-into-comic-images-lore-machine/
- Các trình tạo hình ảnh AI thường gặp khó khăn trong việc tạo ra văn bản một cách chính xác do chúng vẽ chữ cái thay vì gõ chúng như con người.
- Giáo sư Peter Bentley từ University College London giải thích rằng AI không hiểu về thế giới của chúng ta, không nhận thức được vật thể 3D hoặc văn bản trong hình ảnh.
- Các chương trình như DALL-E và Midjourney được xây dựng trên mạng lưới thần kinh nhân tạo, học hỏi mối liên kết giữa từ ngữ và hình ảnh.
- Trong bài báo về DALLE-2, các tác giả nói rằng mô hình không "mã hóa chính xác thông tin chính tả của văn bản được hiển thị", tức là mô hình đang đoán cách một từ nên được đọc.
- Một bài báo nghiên cứu từ Google gợi ý rằng việc thêm nhiều tham số có thể cải thiện đáng kể việc hiển thị văn bản.
- AI gặp khó khăn trong việc khái niệm hóa hình học 3D của một từ và cuối cùng tất cả đều phụ thuộc vào dữ liệu đào tạo.
- Các trình tạo hình ảnh AI được đào tạo trên nhiều hình ảnh khuôn mặt người hơn là văn bản trong hình ảnh, do đó chúng tạo hình ảnh khuôn mặt người tốt hơn là văn bản trong hình ảnh.
📌 Các trình tạo hình ảnh AI hiện nay vẫn gặp khó khăn trong việc tạo ra văn bản chính xác do chúng xem văn bản như một phần của hình ảnh chứ không phải là đối tượng cần được hiểu và xử lý riêng biệt. Vấn đề này phản ánh sự hạn chế trong cách AI hiểu và tái tạo văn bản, dẫn đến những lỗi chính tả và hiển thị văn bản không chính xác. Cải thiện việc hiển thị văn bản trong hình ảnh AI đòi hỏi sự đổi mới trong cách thức đào tạo và phát triển các mô hình AI.
https://petapixel.com/2024/03/06/why-ai-image-generators-struggle-to-get-text-right/
- Yishu Miao và Ziyu Wang, cựu thành viên của DeepMind, đã công bố công cụ tạo video AI của họ, Haiper, với mô hình AI độc quyền.
- Miao từng làm việc tại TikTok trong nhóm Global Trust & Safety, và Wang có kinh nghiệm làm nhà khoa học nghiên cứu tại DeepMind và Google.
- Cả hai bắt đầu nghiên cứu về công ty từ năm 2021 và chính thức thành lập vào năm 2022, tập trung vào vấn đề tái tạo 3D bằng mạng nơ-ron.
- Haiper đã chuyển hướng sang tạo video khoảng sáu tháng trước sau khi nhận ra đây là vấn đề hấp dẫn hơn tái tạo 3D.
- Haiper đã huy động được 13,8 triệu USD trong vòng gọi vốn hạt giống do Octopus Ventures dẫn đầu, với sự tham gia từ 5Y Capital và các nhà đầu tư thiên thần.
- Haiper hiện tập trung vào trang web hướng đến người tiêu dùng nhưng cũng muốn xây dựng mô hình tạo video cốt lõi có thể cung cấp cho các bên khác.
- Sora của OpenAI là đối thủ nổi tiếng nhất của Haiper hiện nay, nhưng cũng có các đối thủ khác như Runway được Google và Nvidia hỗ trợ, cũng như các mô hình tạo video của Google và Meta.
- Stability AI cũng đã công bố mô hình Stable Diffusion Video trong bản xem trước nghiên cứu vào năm trước.
📌 Haiper, công cụ tạo video AI mới của hai cựu thành viên DeepMind, Yishu Miao và Ziyu Wang, đã thu hút 13,8 triệu USD đầu tư và đang cạnh tranh trong thị trường tạo video AI nóng bỏng, với mục tiêu phát triển mô hình tạo video cốt lõi và mở rộng ứng dụng.
Citations:
[1] https://techcrunch.com/2024/03/05/competition-in-ai-video-generation-heats-up-as-deepmind-alums-unveil-haiper/
• TripoSR, phát triển bởi Stability AI và Tripo AI, cho phép tạo mô hình 3D chi tiết từ một hình ảnh đơn trong chưa đầy một giây.
• Mô hình này hoạt động tốt ngay cả trên hệ thống không có GPU, mở ra khả năng tiếp cận cho nhiều người dùng và ứng dụng khác nhau.
• Các trọng số mô hình và mã nguồn được cung cấp dưới giấy phép MIT, cho phép sử dụng thương mại, cá nhân và nghiên cứu.
• TripoSR được thiết kế để đáp ứng nhu cầu ngày càng tăng của các chuyên gia trong lĩnh vực giải trí, trò chơi, thiết kế công nghiệp và kiến trúc, với khả năng hiển thị chi tiết các đối tượng 3D.
• Khi thử nghiệm trên Nvidia A100, TripoSR tạo ra đầu ra 3D chất lượng nháp (mesh có kết cấu) trong khoảng 0.5 giây, nhanh hơn các mô hình chuyển đổi hình ảnh sang 3D mở khác như OpenLRM.
• Mô hình này không chỉ nhanh chóng mà còn dễ tiếp cận với người dùng có hoặc không có GPU.
📌 TripoSR tạo mô hình 3D chi tiết từ hình ảnh đơn, trong chưa đầy 1 giây. Với khả năng tạo ra đầu ra 3D chất lượng nháp chỉ trong khoảng 0,5 giây trên Nvidia A100, TripoSR không chỉ nhanh chóng mà còn hiệu quả, đặt ra một tiêu chuẩn mới cho công nghệ tạo mô hình 3D.
Citations:
[1] https://stability.ai/news/triposr-3d-generation
- Ideogram AI, startup được thành lập bởi cựu kỹ sư Google và các thành viên từ UC Berkeley, Carnegie Mellon, và Đại học Toronto, công bố phiên bản đầu tiên của trình tạo hình ảnh AI của mình.
- Phiên bản Ideogram 1.0 được huấn luyện từ đầu, cung cấp khả năng hiển thị văn bản tiên tiến, chưa từng có độ chân thực về hình ảnh, và tuân thủ lệnh nhanh chóng cùng tính năng mới Magic Prompt.
- Ideogram đã huy động được 80 triệu USD trong vòng gọi vốn Series A do Andreessen Horowitz dẫn đầu.
- So sánh trực tiếp cho thấy Ideogram vượt trội so với các phiên bản trước của mình và các đối thủ như Dall-E 3 và MidJourney về chất lượng hình ảnh, khả năng tạo văn bản, và tuân thủ lệnh.
- Ideogram không phải là nguồn mở và không có bài nghiên cứu để đánh giá, nhưng kết quả thu được đã nói lên chất lượng của nó.
- Trình tạo hình ảnh mới này có khả năng tạo ra chuỗi văn bản dài với ít lỗi hơn so với Dall-E 3 hoặc MidJourney và cung cấp một gói miễn phí có lợi thế so với các đối thủ.
- Ideogram cũng cung cấp hai gói trả phí là 7 và 15 USD mỗi tháng, cho phép truy cập vào hơn 400 lần tạo hình ảnh mỗi ngày cùng các lợi ích khác như trình chỉnh sửa hình ảnh, tải xuống chất lượng cao hơn, img2img, và tạo hình ảnh riêng tư.
- Ideogram có khả năng hiểu các lệnh dài, cạnh tranh với Stable Diffusion 3 và vượt trội so với tất cả các trình tạo hình ảnh khác trong lĩnh vực này.
- Một trong những tính năng nổi bật của Ideogram là "Prompt Magic", giúp tạo ra hình ảnh chất lượng cao hơn bằng cách phân tích và cải thiện lệnh.
- Ideogram ít bị kiểm duyệt mạnh tay hơn MidJourney và Dall-E 3, có khả năng tạo hình ảnh của người nổi tiếng, logo công ty, và phong cách nghệ thuật mà không bị hạn chế nhiều.
📌Ideogram AI đã thiết lập một tiêu chuẩn mới trong lĩnh vực trình tạo hình ảnh AI với việc ra mắt phiên bản 1.0, chứng minh khả năng vượt trội so với các đối thủ như Dall-E 3 và MidJourney. Với khả năng hiểu lệnh tự nhiên, khả năng không gian xuất sắc, và tuân thủ lệnh nhanh chóng, cùng với việc ít bị kiểm duyệt, Ideogram không chỉ là công cụ tạo hình ảnh AI mạnh mẽ nhất hiện nay mà còn là lựa chọn hàng đầu cho những người tìm kiếm sự sáng tạo và chất lượng trong hình ảnh. Với các gói dịch vụ linh hoạt, từ miễn phí đến trả phí, Ideogram mở ra cơ hội cho mọi người trải nghiệm và tận dụng công nghệ AI tiên tiến trong việc tạo ra hình ảnh độc đáo và sáng tạo, đặt ra một chuẩn mực mới cho ngành công nghiệp trình tạo hình ảnh AI.
Citations:
[1] https://decrypt.co/219776/ideogram-is-a-new-ai-image-generator-that-obliterates-the-competition-outperforming-midjourney-and-dall-e-3
- Deepdub, công ty có trụ sở tại Tel Aviv, Israel, đã giới thiệu công nghệ Accent Control, sử dụng AI tạo sinh độc quyền để cho phép người tạo nội dung kiểm soát chính xác giọng điệu của nhân vật khi lồng tiếng nội dung sang ngôn ngữ khác.
- Công nghệ này mở ra kỷ nguyên mới về tính xác thực cho nội dung lồng tiếng bằng AI, giúp giữ nguyên giọng điệu đặc trưng của nhân vật hoặc thích ứng chúng để phù hợp với văn hóa của khán giả mục tiêu.
- Trong quá trình lồng tiếng truyền thống, đạo diễn phải đối mặt với quyết định giữ nguyên giọng điệu gốc cho tính xác thực hoặc điều chỉnh chúng để phù hợp với nét văn hóa của khán giả mục tiêu.
- Công nghệ Accent Control của Deepdub cho phép kiểm soát chính xác giọng điệu qua 130+ ngôn ngữ và đang được mở rộng để hỗ trợ giọng địa phương, cho phép việc micro-localization.
- Công nghệ này được truy cập thông qua nền tảng Deepdub Go, một nền tảng lồng tiếng AI ảo.
📌 Deepdub đã giới thiệu công nghệ Accent Control, đánh dấu một bước tiến quan trọng trong lĩnh vực lồng tiếng bằng AI, với khả năng kiểm soát chính xác giọng điệu của nhân vật, từ đó nâng cao tính xác thực của nội dung lồng tiếng. Công nghệ này không chỉ giữ nguyên được giọng điệu đặc trưng của nhân vật mà còn có thể thích ứng chúng để phù hợp với văn hóa của khán giả mục tiêu, qua đó giải quyết thách thức lâu đời trong quá trình lồng tiếng truyền thống. Với khả năng kiểm soát giọng điệu qua 130+ ngôn ngữ và hỗ trợ giọng địa phương, công nghệ này mở ra cơ hội cho việc micro-localization, làm phong phú thêm trải nghiệm của khán giả và tạo điều kiện cho người tạo nội dung đa dạng hóa cách thể hiện nội dung của mình.
Citations:
[1] https://venturebeat.com/games/deepdub-adds-ai-dubbing-tech-that-can-change-a-speakers-accent/
- Alibaba muốn người dùng so sánh trình tạo video AI mới của họ với Sora của OpenAI bằng cách sử dụng nó để khiến nhân vật nổi tiếng của Sora hát ca khúc của Dua Lipa.
- Viện Tính toán Thông minh thuộc Alibaba đã phát hành một bài báo về trình tạo video AI mới có tên là EMO, viết tắt từ "Emotive Portrait Alive".
- EMO có khả năng biến hình ảnh tĩnh của khuôn mặt thành diễn viên và ca sĩ có khả năng diễn xuất và hát mô phỏng.
- Alibaba đã đăng tải video demo trên GitHub để trình diễn khung làm việc tạo video mới này, bao gồm video của nhân vật Sora lady nổi tiếng.
- Cần lưu ý rằng, giống như Sora, đánh giá về khung làm việc AI này dựa trên demo do người tạo ra cung cấp, và chưa có phiên bản sử dụng thực tế để kiểm tra.
📌 Alibaba đã tạo ra một bước tiến mới trong lĩnh vực AI với trình tạo video AI EMO, có khả năng biến hình ảnh tĩnh thành diễn viên và ca sĩ ảo. EMO mở ra một tương lai nơi các nhân vật trong video AI có thể nói và hát, thay vì chỉ là những hình ảnh đẹp mắt không có tiếng nói. Dù chưa có phiên bản thử nghiệm thực tế, nhưng video demo đã cho thấy khả năng tạo ra các biểu cảm khuôn mặt con người một cách thuyết phục dựa trên âm thanh. Điều này không chỉ là một thách thức đối với Sora của OpenAI mà còn là một minh chứng cho sự tiến bộ không ngừng của công nghệ AI trong việc tạo ra các trải nghiệm sống động và chân thực hơn.
Citations:
[1] Alibaba's AI video generator just dunked on Sora by making the Sora lady sing https://sea.mashable.com/tech/31479/alibabas-ai-video-generator-just-dunked-on-sora-by-making-the-sora-lady-sing
### SEO Contents
- Adobe đã công bố Project Music GenAI Control tại Hội nghị Hot Pod Summit ở Brooklyn, một nền tảng có khả năng tạo ra âm thanh từ mô tả văn bản hoặc giai điệu tham khảo.
- Người dùng có thể điều chỉnh các yếu tố như tempo, cường độ, mẫu lặp lại và cấu trúc, hoặc mở rộng độ dài của một bản nhạc, remix hoặc tạo vòng lặp vô tận.
- Dự án được phát triển cùng với các nhà nghiên cứu từ Đại học California và Carnegie Mellon, và hiện tại vẫn đang ở giai đoạn nghiên cứu, chưa có giao diện người dùng.
- Gautham Mysore, người đứng đầu nghiên cứu AI âm thanh và video tại Adobe, nhấn mạnh rằng công cụ này cho phép người dùng không cần là nhạc sĩ cũng có thể thể hiện ý tưởng âm nhạc của mình.
- Adobe đang phát triển công nghệ thủy vân để giúp xác định âm thanh do Project Music GenAI Control tạo ra, nhưng công nghệ này vẫn đang được hoàn thiện.
- Adobe tuân thủ nguyên tắc phát triển công cụ AI tạo sinh dựa trên dữ liệu có bản quyền hoặc thuộc phạm vi công cộng để tránh vi phạm vấn đề sở hữu trí tuệ.
📌 Adobe đang tiên phong trong việc phát triển công cụ AI tạo sinh cho âm nhạc với Project Music GenAI Control, một nền tảng đầy tiềm năng cho phép người dùng không chỉ tạo ra âm nhạc từ mô tả văn bản mà còn tùy chỉnh nó một cách linh hoạt. Dự án này không chỉ mở ra cánh cửa mới cho việc sáng tạo âm nhạc mà còn đặt ra những câu hỏi về đạo đức và pháp lý trong thời đại AI. Với việc hợp tác cùng các nhà nghiên cứu hàng đầu và cam kết phát triển công nghệ thủy vân, Adobe đang thể hiện trách nhiệm của mình trong việc định hình tương lai của ngành công nghiệp âm nhạc và công nghệ AI.
Citations:
[1] https://techcrunch.com/2024/02/28/adobe-reveals-a-genai-tool-for-music/
- Công cụ AI mới có tên "KOALA" được phát triển bởi các nhà khoa học Hàn Quốc, có khả năng tạo hình ảnh trong vòng dưới 2 giây mà không cần phần cứng đắt tiền.
- Sử dụng kỹ thuật "knowledge distillation" để nén kích thước của mô hình tạo hình ảnh nguồn mở Stable Diffusion XL từ 2.56 tỷ tham số xuống còn 700 triệu tham số.
- KOALA có thể chạy trên GPU giá rẻ và chỉ cần khoảng 8GB RAM để xử lý yêu cầu, so với các mô hình lớn hơn cần GPU công nghiệp cao cấp.
- Viện Nghiên cứu Điện tử và Viễn thông Hàn Quốc (ETRI) đã phát triển 5 phiên bản của mô hình, bao gồm 3 phiên bản của KOALA và 2 phiên bản của "Ko-LLaVA" - có khả năng trả lời câu hỏi bằng hình ảnh hoặc video dựa trên văn bản đầu vào.
- Trong thử nghiệm, KOALA tạo ra hình ảnh từ mô tả "một bức ảnh của một phi hành gia đang đọc sách dưới ánh trăng trên sao Hỏa" chỉ trong 1.6 giây, nhanh hơn đáng kể so với DALL·E 2 và DALL·E 3 của OpenAI, lần lượt là 12.3 và 13.7 giây.
- Các nhà khoa học dự định tiếp tục phát triển công cụ này và đã công bố kết quả nghiên cứu trên cơ sở dữ liệu trước in arXiv vào ngày 7 tháng 12 năm 2023, đồng thời cung cấp công trình của họ thông qua kho nguồn mở AI Hugging Face.
📌Công cụ AI mới "KOALA" của Viện Nghiên cứu Điện tử và Viễn thông Hàn Quốc (ETRI) đánh dấu một bước tiến quan trọng trong lĩnh vực tạo hình ảnh bằng AI, với khả năng tạo hình ảnh nhanh gấp 8 lần so với công cụ hàng đầu của OpenAI, chạy trên GPU giá rẻ và chỉ cần khoảng 8GB RAM, làm cho công nghệ này trở nên tiếp cận được với nhiều người hơn. Các nhà khoa học dự định tiếp tục phát triển công cụ này và đã công bố kết quả nghiên cứu trên cơ sở dữ liệu trước in arXiv vào ngày 7 tháng 12 năm 2023, đồng thời cung cấp công trình của họ thông qua kho nguồn mở AI Hugging Face.
Citations:
[1] https://www.livescience.com/technology/artificial-intelligence/new-ai-image-generator-koala-is-8-times-faster-than-openais-best-tool-and-can-run-on-cheap-computers
- Perplexity, đối thủ mới của Google Search dựa trên AI, đã gây dựng được sự chú ý mạnh mẽ.
- Công ty đã huy động được hơn 70 triệu USD từ các nhà đầu tư hàng đầu, bao gồm cả Jeff Bezos vào tháng 1.
- Kể từ khi ra mắt năm ngoái, Perplexity đã thu hút hơn 10 triệu người dùng hoạt động hàng tháng nhờ trải nghiệm tìm kiếm nhanh chóng, sạch sẽ và không quảng cáo.
- Perplexity vừa mới ra mắt Discover Daily - một podcast tin tức hàng ngày 100% được tạo sinh bởi AI, đã lọt vào top 200 podcast tin tức của Apple trong tuần đầu tiên.
- Podcast có các tập không quá bốn phút, sử dụng giọng nói tổng hợp nhưng dễ chịu, nhắc nhở về một người dẫn chương trình của BBC, nhờ công nghệ nhân bản giọng nói AI có thể tùy chỉnh của ElevenLabs.
- Tóm tắt tin tức được rút ra từ nguồn cấp dữ liệu "Discover" được Perplexity biên soạn, trình bày danh sách các tiêu đề quan trọng trong ngày.
- Perplexity không cần phải tấn công trực diện Google hay thách thức thị phần của họ để thành công, theo CEO Aravind Srinivas.
- Sự chú ý dành cho công ty tiếp tục tăng lên, với các nhà đầu tư có liên kết với Google như Susan Wojcicki, cựu CEO của YouTube, và Jeff Dean, Chủ tịch Khoa học của Google, tập trung vào tiến bộ AI cho Google DeepMind và Google Research.
📌 Perplexity đã chứng tỏ sức hút mạnh mẽ trong ngành công nghệ thông tin với việc ra mắt podcast tin tức hàng ngày Discover Daily, được tạo sinh hoàn toàn bởi AI và nhanh chóng chiếm lĩnh vị trí trong top 200 podcast tin tức của Apple chỉ sau một tuần. Sự thành công này không chỉ phản ánh khả năng tài chính mạnh mẽ với việc huy động được hơn 70 triệu USD từ các nhà đầu tư nổi tiếng như Jeff Bezos mà còn cho thấy sự chấp nhận rộng rãi từ hơn 10 triệu người dùng hoạt động hàng tháng. Điều này khiến Perplexity như một đối thủ tiềm năng trong lĩnh vực tìm kiếm và AI, mở ra một phân khúc mới cho các trợ lý AI mà tại đó Google không có quyền độc quyền.
Citations:
[1] https://bgr.com/business/ai-powered-search-engine-perplexity-launches-an-ai-generated-daily-news-podcast/
- OpenAI giới thiệu Sora vào ngày 16 tháng 2, đánh dấu một bước tiến mới trong lĩnh vực tạo sinh video, gây áp lực lên ngành công nghiệp AI của Trung Quốc.
- Trung Quốc từng kỳ vọng sẽ dẫn đầu cuộc đua AI toàn cầu nhờ vào lượng dữ liệu khổng lồ, nhưng hiện tại, dữ liệu đào tạo chất lượng lại trở nên quan trọng hơn.
- Sự xuất hiện của Sora khiến Trung Quốc phải đối mặt với thách thức lớn trong việc bắt kịp công nghệ mới nhất, đặc biệt là trong bối cảnh căng thẳng với các biện pháp trừng phạt của Mỹ.
- Zhou Hongyi, người sáng lập công ty an ninh mạng Trung Quốc 360 Security Technology, nhận xét rằng Sora giống như "một thùng nước lạnh" đổ lên đầu Trung Quốc, buộc họ phải nhìn nhận lại khoảng cách với các quốc gia dẫn đầu.
- Đội VBench, bao gồm các nhà nghiên cứu từ Đại học Công nghệ Nanyang ở Singapore và Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải tại Trung Quốc, đã phát hiện ra rằng Sora vượt trội về chất lượng video tổng thể so với các mô hình khác.
- Xu, một doanh nhân tại Hàng Châu, cho biết sẽ có cơ hội cho thị trường Trung Quốc sau khi báo cáo kỹ thuật về Sora được công bố và các mô hình video nguồn mở sắp tới.
📌 Sự ra đời của Sora từ OpenAI không chỉ là một bước tiến trong lĩnh vực AI tạo sinh video mà còn là một thách thức đối với ngành công nghiệp AI của Trung Quốc, buộc họ phải đối mặt với sự thật rằng họ đang tụt hậu so với các công nghệ mới nhất. Trong bối cảnh căng thẳng với Mỹ và nhu cầu về dữ liệu đào tạo chất lượng, Trung Quốc cần phải nhanh chóng thích nghi và tìm kiếm cơ hội từ các mô hình video nguồn mở sắp tới để không bị bỏ lại phía sau trong cuộc đua AI toàn cầu.
Citations:
[1] OpenAI’s Sora pours ‘cold water’ on China’s AI dreams https://www.scmp.com/tech/big-tech/article/3253034/openais-sora-pours-cold-water-chinas-ai-dreams-text-video-advancements-prompt-more-soul-searching
- Stability AI đang chuẩn bị ra mắt Stable Diffusion 3, phiên bản mới nhất và tiên tiến nhất của mô hình tạo ảnh AI.
- Công ty đã mở danh sách chờ cho bản xem trước của Stable Diffusion 3 để thu thập thông tin và cải thiện mô hình trước khi phát hành rộng rãi.
- Trước Stable Diffusion 3, Stability đã phát triển khoảng bảy phiên bản của mô hình tạo ảnh, bao gồm 1.4, 1.5, 2.0, 2.1, XL và XL Turbo.
- Stable Diffusion 3 được đánh giá ngang ngửa hoặc tốt hơn so với các mô hình tạo ảnh nổi tiếng như DALL-E 3 và Midjourney, dựa trên một số mẫu ảnh được cung cấp trên trang web.
- Mô hình mới nhất của Stability có nhiều cải tiến đáng kể trong việc xử lý các yêu cầu về nhiều chủ đề, chất lượng ảnh và khả năng đánh vần từ ngữ.
- Stable Diffusion 3 sẽ được phát hành với nhiều kích thước tham số khác nhau, từ 800 triệu đến 8 tỷ, điều này ảnh hưởng trực tiếp đến độ phức tạp của mô hình.
📌 Stability AI đang tiến gần đến việc phát hành Stable Diffusion 3, một bước tiến đáng kể trong lĩnh vực tạo ảnh AI. Với việc mở danh sách chờ cho bản xem trước, công ty đang tìm cách thu thập phản hồi để cải thiện mô hình. Stable Diffusion 3 không chỉ cải thiện về chất lượng ảnh và khả năng xử lý đa chủ đề mà còn về khả năng đánh vần từ ngữ, một lĩnh vực mà các đối thủ như Midjourney vẫn còn gặp khó khăn. Với các kích thước tham số từ 800M đến 8B, Stable Diffusion 3 hứa hẹn sẽ mang lại khả năng nắm bắt các mẫu phức tạp và thực hiện các nhiệm vụ cụ thể một cách tốt hơn,
Citations:
[1] https://www.cryptopolitan.com/stable-diffusion-3-midjourney-dall-3/
- AI có khả năng thay đổi đáng kể đời sống âm nhạc, đặc biệt là trong việc thực hiện các nhiệm vụ sáng tác cấp thấp như nhạc nền cho video game hay nhạc club đơn giản.
- Có khả năng AI sẽ khiến các nhạc sĩ trung bình phải nỗ lực sáng tạo hơn hoặc có thể mất việc làm.
- Những yếu tố quan trọng bán được âm nhạc như trí tưởng tượng phi thường, quy mô, sức hút, sâu sắc, linh hồn và tâm linh, cũng như các buổi biểu diễn trực tiếp, vẫn là lĩnh vực mà AI không thể thách thức con người.
- Mặc dù có những lo ngại về AI như một mối đe dọa tồn tại, nhưng các nghệ sĩ luôn tìm cách thích nghi và tồn tại qua mỗi thời kỳ công nghệ mới, từ gramophone đến streaming.
- Tác giả bài viết khuyên rằng chúng ta nên tận hưởng lợi ích từ AI và không nên hoảng sợ trước những cảnh báo về ngày tận thế.
📌 Tác động của AI đối với âm nhạc có thể là đáng kể, nhưng không phải là một mối đe dọa tồn tại. AI có thể thực hiện các công việc sáng tác đơn giản, nhưng những yếu tố quan trọng nhất trong âm nhạc vẫn cần đến con người. Các nghệ sĩ luôn thích nghi với công nghệ mới và sẽ tiếp tục làm vậy. Tác giả khuyến khích chúng ta hãy tận hưởng những lợi ích mà AI mang lại và không cần phải lo lắng quá mức về những thay đổi mà nó có thể gây ra.
Citations:
[1] https://www.classical-music.com/features/science-of-music/how-will-ai-affect-music-for-the-better-or-worse
- OpenAI Sora đã tạo ấn tượng mạnh mẽ với khả năng của mình, nhưng các video do AI tạo ra cho thấy mô hình này vẫn cần cải thiện nhiều.
- Một số video mẫu cho thấy Sora gặp vấn đề khi mô phỏng chuyển động, ví dụ như mèo mọc thêm chân hoặc tay người bị biến dạng.
- Trong một video khác, một chiếc ghế tự đào mình lên và kéo mình ra khỏi hiện trường khảo cổ trong khi các nhà khảo cổ chỉ đứng nhìn.
- OpenAI thừa nhận rằng Sora có "hạn chế" trong việc mô phỏng chính xác vật lý của một cảnh phức tạp hoặc hiểu mối quan hệ giữa nguyên nhân và kết quả.
- Một ví dụ về hạn chế này là khi một người cắn một chiếc bánh quy nhưng sau đó chiếc bánh không hề có dấu vết của việc bị cắn.
- Có lo ngại về việc Sora có thể bị lạm dụng, đặc biệt là trong bối cảnh năm 2024 sẽ diễn ra nhiều cuộc bầu cử trên toàn thế giới.
- Tuy nhiên, sự không hoàn hảo của Sora cũng có thể giúp phân biệt video do AI tạo ra với video thực tế.
📌 Mặc dù OpenAI Sora đã tạo ra sự chú ý lớn với khả năng tạo video của mình, những hạn chế rõ ràng trong các mẫu video được tạo ra đã chỉ ra rằng công nghệ này vẫn còn nhiều điểm cần được cải thiện. Các vấn đề về mô phỏng vật lý và hiểu biết về mối quan hệ nguyên nhân và kết quả là những thách thức mà OpenAI cần giải quyết. Trong khi đó, những lo ngại về khả năng lạm dụng Sora trong các sự kiện quan trọng như bầu cử toàn cầu cũng đang được đặt ra. Tuy nhiên, những thiếu sót này cũng có thể là yếu tố giúp người xem phân biệt giữa nội dung do AI tạo và nội dung thực tế, qua đó giảm bớt nguy cơ nhầm lẫn và lạm dụng.
Citations:
[1] https://www.benzinga.com/news/24/02/37209690/openai-soras-weaknesses-exposed-shortly-after-high-profile-debut-cat-sprouts-extra-leg-humans-arm-go
- Sora, mô hình tạo video đầu tiên của OpenAI, có khả năng tạo ra video chất lượng cao dựa trên hướng dẫn văn bản, mở ra khả năng tạo ra cảnh quan phức tạp với nhiều nhân vật và chi tiết đối tượng cũng như nền cảnh chính xác.
- Sora có thể tạo ra nhiều cảnh quay trong một video duy nhất, dựa trên sự hiểu biết sâu sắc về ngôn ngữ để giải thích chính xác các từ khóa, giữ nguyên nhân vật và phong cách hình ảnh.
- Các nhân vật do Sora tạo ra có thể biểu đạt cảm xúc phong phú, đến mức gần như hoàn hảo, vượt qua giới hạn của việc mô phỏng thế giới thực trong không gian 2D.
- Sora hiện tại vẫn gặp khó khăn trong việc mô phỏng chính xác các nguyên lý vật lý của cảnh quan phức tạp và có thể không hiểu được nguyên nhân và kết quả, cũng như gặp khó khăn trong việc mô tả chính xác các sự kiện xảy ra theo thời gian.
- Sự ra đời của Sora có thể làm cho việc phân biệt thông tin thật và giả trở nên khó khăn hơn, tạo ra nhiều vấn đề đạo đức và pháp lý mới trong xã hội thông tin.
- Sora không chỉ là một bước tiến trong việc tạo ra nội dung video phức tạp dựa trên hiểu biết ngôn ngữ tự nhiên mà còn mở ra khả năng tạo ra các tác phẩm tinh tế và thực tế hơn trong tương lai với ứng dụng đa dạng trong nhiều lĩnh vực.
📌 Sora, sản phẩm mới nhất từ OpenAI, đánh dấu một bước tiến quan trọng trong lĩnh vực AI với khả năng tạo video chất lượng cao từ hướng dẫn văn bản. Sự phát triển này không chỉ mở ra cánh cửa cho việc tạo ra cảnh quan phức tạp và nhân vật chân thực mà còn đặt ra những thách thức mới về việc mô phỏng chính xác nguyên lý vật lý và hiểu biết về nguyên nhân và kết quả. Bên cạnh đó, sự xuất hiện của Sora cũng làm dấy lên lo ngại về khả năng phân biệt thông tin thật giả và các vấn đề đạo đức, pháp lý mới trong xã hội thông tin. Tuy nhiên, tiềm năng ứng dụng rộng lớn của Sora trong tương lai, từ việc tạo ra các tác phẩm tinh tế và thực tế hơn cho đến việc kết hợp với các công nghệ khác, hứa hẹn sẽ mang lại tác động sâu rộng đến nhiều ngành công nghiệp và lĩnh vực khác nhau, từ điện ảnh đến giáo dục và ngoài ra.
Citations:
[1] How OpenAI’s Sora Will Impact The World – Analysis – Eurasia Review
- Công cụ tạo video từ văn bản Sora của OpenAI đã tạo ra những làn sóng lớn trong cộng đồng công nghệ Trung Quốc, với cảm xúc trộn lẫn giữa sự ngưỡng mộ và lo ngại.
- Một doanh nhân Trung Quốc đã mô tả Sora như là một "khoảnh khắc Newton" trong lĩnh vực AI, theo báo cáo của South China Morning Post.
- Sora cho phép người dùng tạo ra các video chân thực và động từ những lời nhắn văn bản đơn giản, có khả năng làm thay đổi nhiều ngành nghề từ quảng cáo, giải trí đến giáo dục và y tế.
- Chuyên gia Trung Quốc đánh giá cao khả năng tạo ra hình ảnh tự nhiên và sự kết hợp mượt mà giữa tạo văn bản và tạo video của Sora.
- Zhou Hongyi, Chủ tịch và CEO của 360 Security Technology, bày tỏ lo ngại trên Weibo về khả năng khoảng cách phát triển AI giữa Trung Quốc và Mỹ có thể ngày càng mở rộng.
- Zhou chỉ ra rằng các mô hình ngôn ngữ lớn (LLMs) hàng đầu của Trung Quốc, như những công cụ AI sử dụng ChatGPT, gần đạt tới khả năng của GPT-3.5, nhưng vẫn còn khoảng cách khoảng 1.5 năm so với việc OpenAI phát hành GPT-4 vào tháng 3 năm 2023.
- Một số doanh nhân Trung Quốc tỏ ra thận trọng khi đánh giá quá cao khả năng của AI Trung Quốc, trong khi những người khác bày tỏ quan ngại về tiến bộ của Sora.
- Fang Han, CEO của nhà phát triển và xuất bản game Kunlun Tech, bày tỏ sự hoài nghi trong một cuộc phỏng vấn với Shang Securities News, cho rằng dựa trên các video demo của Sora, hệ thống này vẫn chưa có bước tiến đáng kể trong việc hiểu biết thế giới.
📌 Sự ra mắt của công cụ tạo video AI Sora của OpenAI đã gây ra nhiều phản ứng từ cộng đồng công nghệ Trung Quốc. Sự ngưỡng mộ đối với khả năng tạo hình ảnh tự nhiên và tích hợp văn bản-video của Sora đi đôi với lo ngại về sự chênh lệch trong phát triển AI giữa Trung Quốc và Mỹ. Mặc dù các mô hình ngôn ngữ lớn của Trung Quốc tiến gần tới khả năng của GPT-3.5, nhưng vẫn tồn tại khoảng cách thời gian so với GPT-4 của OpenAI.
Citations:
[1] https://timesofindia.indiatimes.com/gadgets-news/chinas-reaction-to-openais-ai-video-generating-tool-impressed-and-worried/articleshow/107848016.cms
- Báo cáo Berlin Film Festival đưa ra sự ảnh hưởng của AI trên ngành phim Hollywood[1].
- AI có thể đe dọa các công việc trong ngành, nhưng cũng mang lại tiềm năng sáng tạo và khởi nghiệp (innovation and creativity) [1].
- Sự kết hợp giữa AI và tạo hình thủ công sẽ định hình tương lai của việc kể câu chuyện trong Hollywood[1].
- Báo cáo Berlin Film Festival đề cập đến ảnh hưởng của AI trên ngành phim[1].
- AI được coi là mang lại sự biến đổi và tiềm năng sáng tạo[1].
- Sự kết hợp giữa AI và tạo hình thủ công được đánh giá là định hình tương lai của kể câu chuyện trong Hollywood[1].
📌AI đã và sẽ tiếp tục ảnh hưởng mạnh mẽ đến ngành phim Hollywood, đặc biệt là trong việc sản xuất và kể câu chuyện. Trong khi đó, AI cũng mang lại tiềm năng sáng tạo và khởi nghiệp mới, tạo ra cơ hội cho việc kết hợp giữa AI và tạo hình thủ công. Tuy nhiên, việc điều chỉnh và đào tạo lao động sẽ cần thiết để đảm bảo sự phát triển bền vững của ngành phim trong thời đại AI.
Citations:
[1] https://www.cryptopolitan.com/berlin-film-festival-ai-threatens-jobs/
- Có nhiều nỗ lực trong việc phát triển trợ lý giọng nói AI nguồn mở như Rhasspy, Mycroft và Jasper, với mục tiêu tạo ra trải nghiệm bảo mật, hoạt động ngoại tuyến mà không giảm chức năng.
- Phát triển trợ lý giọng nói nguồn mở gặp nhiều khó khăn do thách thức từ dự án nguồn mở và khó khăn trong việc lập trình trợ lý.
- Công nghệ trợ lý giọng nói như Google Assistant, Siri và Alexa có nhiều năm R&D và cơ sở hạ tầng lớn.
- LAION, tổ chức phi lợi nhuận Đức, chịu trách nhiệm duy trì một số bộ dữ liệu huấn luyện AI phổ biến nhất thế giới, đã công bố sáng kiến mới, BUD-E, nhằm xây dựng trợ lý giọng nói "hoàn toàn mở" có thể chạy trên phần cứng của người tiêu dùng.
- BUD-E được thiết kế để tận dụng công nghệ GenAI mới nổi, đặc biệt là các mô hình ngôn ngữ lớn (LLMs) như ChatGPT của OpenAI.
- BUD-E đã có thể tải xuống và cài đặt từ GitHub trên Ubuntu hoặc Windows PC (macOS sẽ sớm có), nhưng vẫn đang trong giai đoạn đầu.
📌 Tổ chức phi lợi nhuận LAION của Đức đang tiên phong trong việc phát triển một trợ lý giọng nói mở, BUD-E, nhằm mục tiêu tạo ra một giải pháp bảo mật và hoạt động ngoại tuyến mà không giảm chức năng. Dự án này đặc biệt quan trọng trong bối cảnh các công nghệ trợ lý giọng nói hiện tại như Google Assistant, Siri và Alexa đều yêu cầu cơ sở hạ tầng lớn và nhiều năm R&D. BUD-E không chỉ nhấn mạnh vào việc tạo ra một trợ lý giọng nói mở mà còn tận dụng các công nghệ AI tạo sinh mới nổi, mở ra khả năng tùy chỉnh và mở rộng không giới hạn cho người dùng và nhà phát triển.
Citations:
[1] https://techcrunch.com/2024/02/15/this-german-nonprofit-is-building-an-open-voice-assistant-that-anyone-can-use/
- Cảm giác không chắc chắn mà các nghệ sĩ và nhà thiết kế đồ họa cảm nhận khi DALL-E và các ứng dụng tương tự như Midjourney được phát hành đã trở lại, lần này ảnh hưởng đến YouTubers và người làm video.
- Sora, công cụ AI mới nhất từ nhà sản xuất ChatGPT, cho phép bất kỳ ai tạo video chỉ từ mô tả văn bản, đánh dấu một bước tiến đột phá trong việc tạo nội dung video.
- Chất lượng hình ảnh, đồ họa và nhân vật trong video tạo ra bằng công cụ này rất thuyết phục, đến mức nếu không được thông báo trước, người xem có thể tin rằng chúng thực sự tồn tại.
- Trên các nền tảng xã hội như X, đã bắt đầu xuất hiện nhiều câu hỏi về tương lai của YouTubers trong bối cảnh công nghệ mới này.
- Marques Brownlee (MKBHD), YouTuber công nghệ hàng đầu, đã đưa ra một ví dụ về những gì có thể xảy ra trong tương lai với Sora của OpenAI, cho thấy việc trở thành một YouTuber có thể bao gồm "Cấp độ 1: Ý tưởng/khái niệm," "Cấp độ 2: Hình ảnh lưu trữ," và cuối cùng là "Cấp độ 10: Người tạo nội dung YouTube," ám chỉ rằng mọi vai trò khác có thể sẽ bị AI thay thế.
📌 Sora của OpenAI đánh dấu một bước tiến lớn trong lĩnh vực tạo nội dung video, mang lại cơ hội và thách thức mới cho các YouTuber và người tạo video. Với khả năng tạo ra video chỉ từ mô tả văn bản, Sora không chỉ mở ra khả năng tạo nội dung video một cách dễ dàng và nhanh chóng mà còn đặt ra câu hỏi về tương lai của người tạo nội dung truyền thống. Các nền tảng xã hội và những người có ảnh hưởng trong cộng đồng công nghệ đã bắt đầu thảo luận về ảnh hưởng của công cụ này
Citations:
[1] https://www.cryptopolitan.com/can-youtubers-survive-openais-sora/
- Các nhà nghiên cứu tại Amazon đã huấn luyện thành công mô hình chuyển đổi văn bản thành giọng nói (text-to-speech) lớn nhất từ trước đến nay với 980 triệu tham số, có tên là Big Adaptive Streamable TTS with Emergent abilities (BASE TTS).
- Mô hình BASE TTS sử dụng 100.000 giờ giọng nói thuộc phạm vi công cộng, trong đó 90% là tiếng Anh và phần còn lại là tiếng Đức, Hà Lan và Tây Ban Nha.
- Mô hình này cho thấy những cải tiến đáng kể, giúp nó có khả năng nói một cách tự nhiên ngay cả với những câu phức tạp, có thể là bước đột phá giúp công nghệ vượt qua "thung lũng kỳ quái".
- Các mô hình ngôn ngữ lớn (LLMs) khi đạt đến một kích thước nhất định bắt đầu thể hiện sự mạnh mẽ và linh hoạt, có khả năng thực hiện các nhiệm vụ mà chúng không được huấn luyện trực tiếp.
- Nhóm nghiên cứu tại Amazon AGI (Artificial General Intelligence) tin rằng điều tương tự cũng xảy ra với mô hình text-to-speech khi chúng phát triển về kích thước.
- Mặc dù công nghệ này có tiềm năng lớn, đặc biệt là trong lĩnh vực tiếp cận, nhưng nhóm nghiên cứu đã quyết định không công bố mã nguồn và dữ liệu khác của mô hình do lo ngại rủi ro từ những kẻ xấu lợi dụng.
📌 Mô hình BASE TTS của Amazon đánh dấu một bước tiến quan trọng trong lĩnh vực AI chuyển đổi văn bản thành giọng nói, với 100.000 giờ giọng nói và khả năng "nổi bật" nâng cao. Sự phát triển này không chỉ giúp mô hình nói một cách tự nhiên hơn mà còn mở ra khả năng thực hiện các nhiệm vụ không được huấn luyện trước. Điều này cho thấy tiềm năng lớn trong việc cải thiện khả năng tiếp cận thông tin cho mọi người, đồng thời cũng nâng cao chất lượng tương tác giữa con người và máy móc. Tuy nhiên, việc không công bố mã nguồn để tránh rủi ro từ những kẻ xấu cũng là một quyết định cần thiết để đảm bảo an toàn cho công nghệ này.
Citations:
[1] https://techcrunch.com/2024/02/14/largest-text-to-speech-ai-model-yet-shows-emergent-abilities/
- OpenAI công bố mô hình mới tạo video từ văn bản có tên là Sora, có khả năng tạo ra các cảnh quay thực tế và sáng tạo từ chỉ dẫn văn bản.
- Sora cho phép người dùng tạo ra các video ảnh thực dài đến một phút, dựa trên các lời nhắc mà họ viết ra.
- Mô hình có thể tạo ra các cảnh phức tạp với nhiều nhân vật, các loại chuyển động cụ thể, và chi tiết chính xác về đối tượng và phông nền.
- Sora cũng có khả năng hiểu cách các đối tượng tồn tại trong thế giới vật lý, diễn giải chính xác các đạo cụ và tạo ra các nhân vật biểu cảm sống động.
- Mô hình cũng có thể tạo video dựa trên một hình ảnh tĩnh, điền vào các khung hình còn thiếu hoặc mở rộng video hiện có.
- Sora hiện chỉ mở cửa cho "red teamers" để đánh giá mô hình về các nguy cơ và rủi ro tiềm ẩn, cũng như một số họa sĩ, nhà thiết kế và nhà làm phim để nhận phản hồi.
- OpenAI cũng lưu ý rằng mô hình hiện tại có thể không mô phỏng chính xác vật lý của một cảnh phức tạp và có thể không diễn giải đúng một số trường hợp nguyên nhân và kết quả.
📌 OpenAI đã tiến một bước dài trong lĩnh vực AI với việc giới thiệu Sora, mô hình AI mới có khả năng chuyển đổi văn bản thành video một cách chi tiết và phức tạp. Sora không chỉ mở ra khả năng tạo ra các cảnh quay với nhiều nhân vật và chuyển động cụ thể mà còn có thể hiểu và mô phỏng thế giới vật lý, tạo ra các nhân vật với cảm xúc sống động. Mặc dù hiện tại chỉ có một số người dùng cụ thể có quyền truy cập để đánh giá và phản hồi, nhưng tiềm năng của Sora trong việc cải thiện và mở rộng khả năng sáng tạo trong lĩnh vực sản xuất video là rất lớn. Công nghệ này hứa hẹn sẽ mang lại những đổi mới đáng kể cho ngành công nghiệp nội dung số và cách chúng ta tương tác với các hình thức truyền thông mới.
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Sora (openai.com)
Citations:
[1] https://www.theverge.com/2024/2/15/24074151/openai-sora-text-to-video-ai
- Apple đã phát hành MGIE, một trình chỉnh sửa ảnh AI nguồn mở, hợp tác phát triển cùng các nhà nghiên cứu từ Đại học California, nhằm cung cấp một công cụ chỉnh sửa ảnh tiên tiến nhưng thân thiện với người dùng.
- MGIE sử dụng các mô hình ngôn ngữ lớn đa phương tiện (MLLMs) để chính xác giải thích các yêu cầu từ người dùng, cho phép thực hiện nhiều loại chỉnh sửa từ cải thiện ảnh tổng thể như điều chỉnh độ sáng, tương phản, đến các chỉnh sửa cục bộ và thay đổi kiểu Photoshop như cắt, thay đổi kích thước và thêm bộ lọc.
- MGIE không chỉ hỗ trợ chỉnh sửa ảnh cơ bản mà còn có khả năng hiểu và thực hiện các lệnh phức tạp như làm cho pizza trông khỏe mạnh hơn hoặc thay đổi điểm nhấn trong ảnh, nhờ vào khả năng suy luận thông thường và kỹ năng thao tác pixel cấp độ cao.
- Công cụ này đặc biệt nổi bật với khả năng suy luận thông thường, cho phép nó thực hiện các nhiệm vụ như thêm topping rau củ vào pizza để làm cho nó trông khỏe mạnh hơn hoặc tăng cường độ tương phản của ảnh để mô phỏng thêm ánh sáng.
📌 Apple đã phát hành MGIE, một trình chỉnh sửa ảnh AI nguồn mở, hợp tác phát triển cùng các nhà nghiên cứu từ Đại học California. MGIE đánh dấu một bước tiến quan trọng trong việc kết hợp giữa công nghệ AI và công cụ sáng tạo, mở ra những khả năng mới trong chỉnh sửa ảnh. Với việc sử dụng MLLMs để giải thích chính xác các yêu cầu từ người dùng, MGIE cho phép thực hiện từ các chỉnh sửa ảnh tổng thể như điều chỉnh độ sáng, tương phản đến các chỉnh sửa cụ thể và phức tạp như thêm bộ lọc, cắt, thay đổi kích thước. Khả năng suy luận thông thường và thao tác pixel cấp độ cao của MGIE mở ra cánh cửa cho việc chỉnh sửa ảnh sáng tạo và cá nhân hóa hơn, đẩy mạnh giới hạn của những gì có thể đạt được với công nghệ AI trong lĩnh vực này.
Citations:
[1] https://www.geeky-gadgets.com/apple-mgie-ai-image-editor/
- Video tạo sinh được kỳ vọng trở thành điểm nhấn tiếp theo trong cuộc đua AI sau sự bùng nổ của văn bản và hình ảnh tạo sinh.
- Các công ty khởi nghiệp và công ty công nghệ lớn ở Trung Quốc đang đầu tư mạnh mẽ vào lĩnh vực này, bao gồm Tencent, ByteDance (công ty mẹ của TikTok), Baidu và Alibaba.
- Cả ByteDance với MagicVideo và Baidu với UniVG đã đăng demo trên GitHub, tuy nhiên, hiện tại chưa có sản phẩm nào được công bố rộng rãi cho công chúng.
- Alibaba đã làm cho mô hình tạo video của mình, VGen, trở thành nguồn mở, một chiến lược ngày càng phổ biến giữa các công ty công nghệ Trung Quốc nhằm mục đích tiếp cận cộng đồng nhà phát triển toàn cầu.
📌 Cuộc đua phát triển video tạo sinh ở Trung Quốc đang trở nên sôi động với sự tham gia của các tên tuổi lớn trong ngành công nghệ như Tencent, ByteDance, Baidu và Alibaba. Mỗi công ty đều đã phát triển và giới thiệu mô hình phân tán video của riêng mình, với ByteDance và Baidu chia sẻ demo trên GitHub và Alibaba quyết định mở nguồn cho mô hình VGen của mình. Điều này không chỉ cho thấy sự cạnh tranh khốc liệt trong lĩnh vực AI tạo sinh tại Trung Quốc mà còn phản ánh xu hướng mở cửa và chia sẻ công nghệ với cộng đồng toàn cầu. Sự đầu tư mạnh mẽ vào video tạo sinh hứa hẹn sẽ mở ra những cơ hội mới và thúc đẩy sự phát triển của công nghệ AI tạo sinh trên toàn thế giới.
Citations:
[1] https://techcrunch.com/2024/02/05/chinas-generative-video-race-heats-up/
- Có một hiểu lầm rằng việc sử dụng AI là con đường dễ dàng và ít sáng tạo hơn. Nhóm này từ chối nó ngay lập tức và không muốn khám phá ý nghĩa sâu sắc hơn của nghệ thuật và sự tạo tác của nó.
- Có một nhóm khác thì trung lập và cởi mở hơn, tuy nhiên, họ cho rằng nhiếp ảnh là phương tiện duy nhất để ghi lại linh hồn của một người.
- Cũng có một nhóm thấy việc sử dụng AI trong nghệ thuật thú vị và hấp dẫn. Đó là một hành trình thú vị.
- Điều đáng chú ý là hiện nay hầu như mọi thứ đều có thể được tạo ra thông qua AI, tôi đang trừu tượng hóa và cô lập các đối tượng của mình để trở lại bản chất của một hình ảnh.
- Tôi nghĩ rằng việc giới thiệu AI có thể so sánh với việc giới thiệu nhiếp ảnh so với hội họa, và lần lượt, nhiếp ảnh số so với nhiếp ảnh phim.
📌 Trang web này khám phá hiểu lầm về việc sử dụng AI trong nghệ thuật, cho rằng nó ít sáng tạo hơn. Tuy nhiên, thông qua việc trừu tượng hóa và cô lập các đối tượng, AI có thể tạo ra hầu như mọi thứ và trở lại bản chất của một hình ảnh. Việc giới thiệu AI cũng được so sánh với sự chuyển giao từ hội họa sang nhiếp ảnh, và từ nhiếp ảnh phim sang nhiếp ảnh số. Điều này cho thấy AI không chỉ mang lại sự sáng tạo mà còn mở ra một hành trình thú vị trong việc khám phá nghệ thuật.
Citations:
[1] https://www.digitalcameraworld.com/features/theres-a-misconception-that-the-use-of-ai-is-less-creative-these-people-dont-want-to-explore-the-deeper-meaning-of-the-art
- Meta công bố chính sách mở rộng cho việc gắn nhãn hình ảnh được tạo sinh bởi AI.
- Phát ngôn viên của Meta, Kevin McAlister, nhận thức được nhu cầu về một cách tiếp cận rộng lớn hơn, cho biết: “Trong khi các công ty bắt đầu bao gồm các tín hiệu trong các công cụ tạo hình ảnh của họ, họ chưa bắt đầu bao gồm chúng trong các công cụ AI tạo ra âm thanh và video ở cùng quy mô.”
- Do đó, Meta đang làm việc để thêm một tính năng cho phép người dùng tiết lộ khi chia sẻ video hoặc âm thanh được tạo sinh bởi AI để có thể áp dụng nhãn phù hợp.
📌 Trong bối cảnh công nghệ AI ngày càng phát triển và ảnh hưởng sâu rộng đến mọi khía cạnh của đời sống, việc Meta mở rộng chính sách gắn nhãn cho hình ảnh, video và âm thanh được tạo sinh bởi AI là một bước tiến quan trọng. Điều này không chỉ giúp tăng cường minh bạch và trách nhiệm giải trình trong việc sử dụng công nghệ AI mà còn góp phần bảo vệ người dùng khỏi những thông tin sai lệch và giả mạo. Phát ngôn viên Kevin McAlister đã nhấn mạnh tầm quan trọng của việc tiếp cận rộng lớn hơn trong việc gắn nhãn, đặc biệt là trong lĩnh vực âm thanh và video, nơi mà việc áp dụng công nghệ AI chưa được thực hiện ở quy mô lớn như trong tạo hình ảnh.
Báo cáo của CVL Economics cảnh báo ngành phim và hoạt hình rằng AI tạo sinh sẽ gây ra nhiều mất mát việc làm hơn các ngành khác dựa trên cuộc khảo sát 300 nhà lãnh đạo ngành, bao gồm giám đốc điều hành cấp cao, giám đốc cấp trung và quản lý cấp trung vào cuối năm 2023. Nhà thiết kế âm thanh dưới áp lực với 55% nhà lãnh đạo doanh nghiệp dự đoán sẽ bị ảnh hưởng nhiều nhất bởi AI trong ba năm tới. Các vai trò khác cũng dễ bị tổn thương gồm biên tập viên âm nhạc, kỹ thuật viên âm thanh và kỹ sư âm thanh, với khoảng 40% người được hỏi bày tỏ lo ngại, trong khi khoảng 33% dự đoán thách thức đối với các nhạc sĩ, nhà soạn nhạc và kỹ sư phòng thu.
AI tạo sinh mở rộng tầm nhìn với gần một nửa (47%) các nhà lãnh đạo doanh nghiệp tin rằng trong ba năm tới, AI có thể tạo ra tài sản 3D và thiết kế âm thanh chân thực cho phim, truyền hình và video game. Ngoài ra, 44% kỳ vọng AI có thể sản xuất phụ đề ngoại ngữ thuyết phục cho đối thoại phim hoặc truyền hình, trong khi 39% dự đoán sự tham gia của AI trong việc tạo ra các bản nhạc mix và master vào năm 2026.
📌 Với 55% nhà lãnh đạo dự đoán nhà thiết kế âm thanh sẽ bị ảnh hưởng nhiều nhất bởi AI, ngành công nghiệp giải trí đang trên bờ vực của một cuộc cách mạng công nghệ. Biên tập viên âm nhạc và kỹ sư âm thanh cũng không nằm ngoài rủi ro, với khoảng 40% người được hỏi bày tỏ lo ngại. Khoảng 33% nhìn nhận sự thách thức đối với nhạc sĩ và kỹ sư phòng thu. Trong khi đó, gần một nửa (47%) tin rằng AI sẽ tạo ra tài sản 3D và thiết kế âm thanh trong ba năm tới, và 44% kỳ vọng AI sẽ sản xuất phụ đề ngoại ngữ thuyết phục. Điều này không chỉ mở ra các cơ hội mới mà còn đòi hỏi sự thích nghi và phát triển kỹ năng để đối mặt với sự thay đổi không thể tránh khỏi.
📌 Adobe Firefly AI cho Vision Pro là ứng dụng AI tạo sinh văn bản thành hình ảnh, tích hợp với visionOS, cho phép người dùng sáng tạo và hiện thực hóa tầm nhìn sáng tạo của họ. Người dùng có thể tạo và kết xuất tác phẩm nghệ thuật trên màn hình lớn, sắp xếp hình ảnh trong nhiều bối cảnh và tạo toàn cảnh 360 độ. Adobe Lightroom cũng có sẵn trên Vision Pro, mang đến trải nghiệm chỉnh sửa ảnh nhập vai. Fresco và Behance sẽ sớm ra mắt trên Vision Pro, mở ra những trải nghiệm sáng tạo mới.
📌 Google ra mắt ImageFX, công cụ tạo hình ảnh AI mới, với các tính năng an toàn và tích hợp vào nhiều sản phẩm khác của Google. ImageFX cho phép người dùng tạo và chỉnh sửa hình ảnh bằng mô tả văn bản, với tính năng "expressive chips" giúp khám phá các biến thể khác nhau của hình ảnh gốc. Google đã áp dụng các biện pháp an toàn để hạn chế nội dung có vấn đề, bao gồm bộ lọc nhắc nhở cho "named people" và đánh dấu hình ảnh bằng SynthID, một loại hình mờ kỹ thuật số.
📌 Cả Midjourney và DALL-E đều mang lại những lựa chọn mạnh mẽ cho việc tạo ảnh AI, tùy thuộc vào nhu cầu và mục đích sử dụng của người dùng. Midjourney thích hợp hơn cho những người dùng cần sự tùy chỉnh cao và chất lượng thiết kế, trong khi DALL-E cung cấp một lựa chọn dễ dàng hơn cho việc tạo ảnh đại chúng. Lựa chọn giữa hai công cụ này sẽ phụ thuộc vào yêu cầu cụ thể về chất lượng ảnh, tính năng chỉnh sửa và khả năng triển khai.
📌 Nghiên cứu cung cấp một cái nhìn toàn diện về lĩnh vực mô hình ngôn ngữ lớn đa phương thức (MM-LLM) từ cấu trúc mô hình đến hiệu suất thực tế. GPT-4 (Vision) và Gemini là ví dụ về những bước tiến gần đây trong lĩnh vực này, có khả năng hiểu và tạo ra nội dung đa phương tiện. Các mô hình như Flamingo, BLIP-2 và Kosmos-1 cũng được nghiên cứu về khả năng xử lý hình ảnh, âm thanh và thậm chí là video ngoài văn bản. Sự phát triển của MM-LLM mở ra khả năng mới trong việc xử lý và phân tích dữ liệu đa dạng, đồng thời nâng cao khả năng hiểu biết và tương tác của AI với thế giới thực.
📌 Bài viết hướng dẫn cách tạo kênh tin tức AI sử dụng VEED AI Avatars kết hợp với ChatGPT của OpenAI. VEED AI Avatars cho phép người dùng tạo avatar hoạt hình có thể biểu hiện cảm xúc và nói chuyện.
📌 Google đã phát triển thành công Lumiere, một mô hình tạo ra video từ văn bản dựa trên kiến trúc Space-Time U-Net, cho phép tạo ra các video chất lượng cao và phong cách hóa chỉ từ một hình ảnh tham chiếu. Mặc dù có những hạn chế nhất định, Lumiere hiện nổi bật hơn so với các mô hình của OpenAI, đặc biệt khi OpenAI vẫn chưa công bố mô hình tạo video nào. Lumiere mở ra những khả năng mới trong việc sáng tạo nội dung video thông qua AI, tuy nhiên, việc phát hành mô hình có thể còn phụ thuộc vào các quyết định chính sách.
📌 Suno mang lại trải nghiệm tạo nhạc AI độc đáo với khả năng sinh ra các bản nhạc ngắn từ 30 đến 60 giây chỉ trong vài giây. Với 50 "credits" mỗi ngày, người dùng có thể thực hiện tối đa năm yêu cầu tạo nhạc miễn phí. Tùy chọn "Custom Mode" cho phép tùy chỉnh lời bài hát, kiểu âm nhạc và tiêu đề, mở rộng cơ hội sáng tạo. Mặc dù người dùng có thể tải xuống và chia sẻ bản nhạc, nhưng Suno giữ quyền sở hữu toàn bộ nội dung sản xuất.
📌 Anthropic đang chứng tỏ sự cạnh tranh mạnh mẽ trong lĩnh vực trí tuệ nhân tạo với việc nâng cấp khả năng phân tích hình ảnh cho chatbot Claude của mình. Sự ra mắt tính năng mới này không chỉ làm tăng khả năng cạnh tranh với các sản phẩm AI của Google và OpenAI mà còn mở rộng khả năng ứng dụng của chatbot trong nhiều lĩnh vực khác nhau. Với mức đầu tư lớn từ các công ty công nghệ hàng đầu như Google và Amazon, Anthropic có thể sẽ tăng tốc độ phát triển và mở rộng thị phần, đặc biệt là khi công ty có kế hoạch huy động thêm 750 triệu USD và đạt định giá 18,4 tỷ USD.
📌 ChatGPT của OpenAI sẽ ra mắt công cụ tạo video trong vòng hai năm tới, mở ra cánh cửa mới cho người dùng trong việc tạo nội dung đa phương tiện. Tuy nhiên, điều này cũng đồng nghĩa với việc làm tăng nguy cơ lạm dụng công nghệ để tạo deepfakes, một vấn đề đã trở nên quen thuộc trên các nền tảng mạng xã hội. Với sự tiến bộ không ngừng của AI, deepfakes sẽ ngày càng khó nhận biết hơn, đặt ra yêu cầu cao hơn về kiến thức và sự cảnh giác của người dùng khi tiếp xúc với nội dung trực tuyến. Người dùng cần được trang bị kỹ năng để phân biệt thông tin chính xác, nhất là trong bối cảnh thông tin sai lệch có thể lan truyền nhanh chóng và rộng rãi trên internet.
📌 Getty Images đem đến thị trường công cụ Generative AI by iStock, với sự hỗ trợ từ Nvidia Picasso, nhằm giải quyết vấn đề vi phạm bản quyền trong lĩnh vực hình ảnh sáng tạo. Công cụ này không chỉ cung cấp nội dung hợp pháp 100% mà còn bảo hiểm pháp lý lên đến 10,000 USD cho mỗi hình ảnh, đặt ra một tiêu chuẩn mới cho ngành công nghiệp. Với khả năng tích hợp API, Generative AI by iStock mở ra cánh cửa cho các doanh nghiệp và người sáng tạo để tạo ra hình ảnh một cách an toàn và linh hoạt, đồng thời giúp họ tránh được rủi ro pháp lý. Sản phẩm này hiện đã sẵn sàng và hỗ trợ 75 ngôn ngữ, thể hiện sự tiếp cận rộng rãi và toàn cầu.
📌 Genie từ Luma Labs đánh dấu một bước tiến lớn trong lĩnh vực AI tạo sinh, mang lại khả năng chuyển đổi văn bản thành các mô hình 3D tương tác. Công cụ này, có khả năng tạo ra đối tượng trong vòng dưới 10 giây, không chỉ mở ra cánh cửa cho các ứng dụng sáng tạo trong không gian 3D mà còn đưa khả năng tạo mô hình của AI lên một tầm cao mới. Sự linh hoạt trong việc xuất khẩu mô hình sang các công cụ như Blender, Unity và Unreal làm tăng thêm giá trị ứng dụng của Genie trong nhiều lĩnh vực khác nhau, từ in 3D đến phát triển game.
📌 COSMO là một framework mới, giúp cải thiện khả năng xử lý dữ liệu đa phương tiện trong AI. COSMO không chỉ đánh dấu bước tiến trong việc xử lý dữ liệu đa phương tiện, mà còn phản ánh xu hướng mạnh mẽ hướng tới việc tạo ra các hệ thống AI phức tạp, có khả năng hiểu và xử lý thông tin theo cách công bằng và toàn diện. Kết quả cải thiện đáng kể trong việc căn chỉnh dữ liệu văn bản và hình ảnh từ 57,2% lên 65,1% trong nhiệm vụ chú thích ảnh Flickr chỉ ra khả năng tiềm tàng mà COSMO mang lại, mở ra khả năng áp dụng AI đa phương tiện trong nhiều lĩnh vực từ y tế đến giáo dục, và tiếp tục thách thức giới hạn hiện tại của AI.
📌 Adobe, trong cuộc phỏng vấn với Dana Rao, giám đốc pháp lý và đại diện tin cậy, đã đề cập đến những thách thức và cơ hội liên quan đến AI tạo sinh và bản quyền trong ngành công nghệ. Vấn đề bản quyền với AI tạo sinh đang phát triển nhanh chóng và gây ra nhiều câu hỏi pháp lý chưa có lời giải. Điểm nổi bật là việc Adobe đầu tư vào công cụ AI tạo sinh Firefly, đồng thời xem xét cẩn trọng mối quan hệ giữa AI và bản quyền. Sự kiện Adobe và Figma hủy bỏ thương vụ mua lại cũng phản ánh lo ngại về độc quyền và sự quản lý của cơ quan chức năng. Adobe đang xem xét các biện pháp bảo vệ phong cách nghệ sĩ và đã đề xuất dự luật chống giả mạo tại Quốc hội. Sự tham gia của Adobe trong cuộc tranh luận về AI sử dụng để lừa đảo, đặc biệt qua Sáng kiến Tính xác thực của Nội dung, cũng là một điểm quan trọng. Rao chia sẻ về việc quản lý sự cân bằng giữa đổi mới và tuân thủ pháp luật, cũng như cách tiếp cận của Adobe trong việc phát triển công nghệ AI một cách có trách nhiệm.
📌 Sự xuất hiện của AI tạo sinh như DALL-E, với khả năng tạo ra 2 triệu hình ảnh mỗi ngày, đã minh chứng rằng AI không chỉ là công cụ hỗ trợ mà còn là đối tác sáng tạo mạnh mẽ. Tính đến năm 2023, ngành kinh tế sáng tạo đã đạt giá trị đáng kể lên tới 21,1 tỷ đô la, một phần nhờ vào sự góp sức của AI trong việc tự động hóa công việc và phát triển ý tưởng. Dù vậy, con người vẫn giữ vai trò quan trọng trong việc định hình và tinh chỉnh sản phẩm cuối cùng của AI, bảo đảm rằng sự sáng tạo vẫn mang đậm dấu ấn cá nhân. Các tiến bộ trong AI không chỉ mở ra cơ hội mới mà còn thúc đẩy cuộc tranh luận về tương lai của sự sáng tạo.
📌 MoonShot của Salesforce không chỉ là một bước đột phá trong việc tạo video bằng AI mà còn là một mô hình đa năng và mạnh mẽ nhờ vào khả năng điều kiện hóa đồng thời cả hình ảnh và văn bản. Với MVB, lớp cross-attention đa phương tiện tách biệt và lớp U-Net không gian-thời gian, MoonShot không chỉ cải thiện độ chính xác mà còn cho thấy kết quả xuất sắc trong đa dạng nhiệm vụ tạo video. MoonShot đặt ra tiêu chuẩn mới trong ngành công nghiệp với khả năng tạo video tùy biến theo chủ đề, hoạt hình hình ảnh và chỉnh sửa video.
📌 Sự nổi tiếng của Emily Pellegrini trên Instagram, với gần 150.000 người theo dõi chỉ sau bốn tháng, cùng với "chị gái" Fiona có 30.000 người theo dõi, cho thấy sức hút mạnh mẽ của các nhân vật số được tạo ra bởi AI trong thế giới truyền thông và mạng xã hội hiện đại. Sự tương tác và thu nhập ấn tượng - khoảng 10.000 đô la từ các nền tảng như Instagram và Fanvue - không chỉ phản ánh khả năng sáng tạo và kỹ thuật của người tạo ra, mà còn mở ra một hướng đi mới trong cách chúng ta tiếp nhận và tương tác với nhân vật số. Đồng thời, kế hoạch mở rộng với việc ra mắt thêm các nhân vật mới cho thấy tiềm năng tăng trưởng cũng như những thách thức về quản lý và bảo mật trong tương lai của ngành công nghiệp nội dung số.
📌 VideoPoet của Google là minh chứng cho bước tiến vượt bậc của AI trong lĩnh vực sản xuất video đa phương tiện. Được trang bị công nghệ MAGVIT-2 và mô hình ngôn ngữ tự động hồi quy, nó mở ra cánh cửa cho những phong cách video mới và tính năng chỉnh sửa động tương tác. Mặc dù chưa được công bố rộng rãi, nhưng với trang web demo đã ra mắt, VideoPoet hứa hẹn sẽ là công cụ mạnh mẽ cho nhà sản xuất nội dung và những người yêu thích AI, khi nó chính thức được phát hành.
📌 Các nhà nghiên cứu từ Viện Nghiên cứu Máy tính Thông minh và Tập đoàn Alibaba giới thiệu Make-A-Character (Mach), một hệ thống sáng tạo giúp đơn giản hóa việc tạo mô hình con người số 3D. Các nhà nghiên cứu chứng minh hiệu quả của phương pháp của họ thông qua kết quả trực quan, thể hiện các hoạt ảnh biểu cảm đạt được thông qua điều khiển cơ mặt. Mô hình Lan truyền Ổn định, LLM và ControlNet cho phép tạo ra các đặc điểm khuôn mặt chi tiết.
📌 ControlRoom3D đánh dấu một bước tiến quan trọng trong việc tạo ra môi trường 3D. Bằng cách cho phép người dùng kiểm soát quá trình tạo lưới, phương pháp này dân chủ hóa việc tạo ra các phòng 3D, làm cho nó trở nên dễ tiếp cận đối với những người không có kiến thức chuyên môn trong mô hình hóa 3D. Khả năng tạo ra các lưới phòng 3D chất lượng cao, thực tế có ý nghĩa đối với ứng dụng AR và VR và một loạt lĩnh vực rộng lớn nơi mô hình hóa 3D đóng vai trò then chốt.
- Trong năm 2023, AI tạo sinh đã trở thành một phần không thể thiếu trong lĩnh vực nhiếp ảnh. Adobe và các nhà cung cấp ảnh stock như Getty và Shutterstock đều tung ra công cụ chuyển đổi văn bản thành hình ảnh.
- Các mô hình như DALL-E 3, Midjourney V6 và Imagen 2 của Google đã tiến bộ đáng kể, tạo ra hình ảnh chân thực hơn với chi tiết như số lượng ngón tay chính xác, ánh sáng, cử chỉ và tóc.
- Ứng dụng Photo AI cho phép người dùng tải ảnh lên và tạo các mô hình AI để "thực hiện buổi chụp ảnh ở các tư thế, địa điểm và phong cách khác nhau".
- Adobe ra mắt Firefly và công cụ Generative Fill trong Photoshop, được huấn luyện hoàn toàn từ ảnh miễn phí và từ Adobe Stock, giúp các nhiếp ảnh gia tiết kiệm hàng giờ công sức.
- Getty Images phát triển công cụ tạo ảnh AI phối hợp với Nvidia, cho phép khách hàng chỉnh sửa ảnh stock bằng công nghệ AI.
- Các thương hiệu như Levi's và Amazon đã sử dụng AI để tạo hình ảnh cho sản phẩm, với Levi's tạo mô hình AI cho quần áo và Amazon tạo hình ảnh quảng cáo cho sản phẩm.
📌 Năm 2023 đã chứng kiến sự bùng nổ và tích hợp của AI tạo sinh trong nhiếp ảnh, với việc các công ty lớn như Adobe, Getty và Shutterstock tích hợp công nghệ này vào sản phẩm của họ. Công cụ như DALL-E 3 và Midjourney V6 đã tạo ra những bức ảnh chân thực đến mức khó phân biệt với thực tế. Công nghệ này không chỉ mang lại cơ hội mới mà còn đặt ra thách thức về bản quyền và thay đổi cách thức làm việc của các nhiếp ảnh gia, mở ra hướng đi mới cho ngành công nghiệp hình ảnh.
Adobe, Getty, và Shutterstock tích hợp AI tạo sinh: Bước tiến mới trong nhiếp ảnh.
Ảnh AI tạo sinh định hình ngành nhiếp ảnh trong năm 2023.
Sóng AI, AI tạo sinh, Nhiếp ảnh, Adobe Firefly, Photoshop, Getty Images, Stock ảnh, Photorealism, Generative Fill, Luminar Neo.
Ảnh AI Tạo Sinh: Xu Hướng Mới Của Nhiếp ảnh 2023.
📌 Sự ra mắt công cụ AI của Grimes, cho phép các nghệ sĩ sử dụng giọng hát của cô trong các bản nhạc mới, là một bước tiến đáng chú ý trong lĩnh vực âm nhạc và công nghệ. Các nghệ sĩ phải trả cho Grimes 50% tiền bản quyền từ bất kỳ bài hát nào sử dụng công nghệ này, Sự hợp tác giữa Grimes và TRINITI qua Elf.tech mở ra cơ hội cho các nghệ sĩ tạo ra tác phẩm âm nhạc mà không cần phòng thu, dù họ phải chia sẻ tiền bản quyền với Grimes. Điều này không chỉ phản ánh sự chấp nhận của Grimes đối với vai trò của AI trong nghệ thuật mà còn cho thấy sự linh hoạt và tiềm năng của công nghệ trong việc tạo ra các tác phẩm sáng tạo mới.
📌 Nghiên cứu này mở đường cho việc đánh giá sâu rộng về khả năng của LLMs trong nhiệm vụ Video Grounding, đề cập đến việc cần có những phương pháp tiên tiến hơn trong huấn luyện mô hình và thiết kế câu hỏi. VidLLMs cần hiểu sâu hơn về yếu tố thời gian, trong khi việc tích hợp LLMs với mô hình hình ảnh mở ra hướng đi mới, là bước tiến quan trọng trong lĩnh vực này. Kết quả nghiên cứu không chỉ làm sáng tỏ tình trạng hiện tại của LLMs trong nhiệm vụ Video Grounding mà còn tạo đà cho những tiến bộ tương lai, có tiềm năng làm thay đổi cách phân tích và hiểu nội dung video.
📌 Dự án "Make-A-Character" của Alibaba mở ra một kỷ nguyên mới trong việc tạo ra các nhân vật AI sống động, có khả năng tương tác và phản ứng như con người, đánh dấu bước tiến mới trong công nghệ AI tạo sinh và ứng dụng của nó trong lĩnh vực giải trí và giáo dục.
📌 CogAgent, mô hình ngôn ngữ hình ảnh mới từ Đại học Tsinghua và Zhipu AI, mở ra hướng tiếp cận mới trong tương tác GUI, kết hợp hiệu quả giữa nhận dạng hình ảnh và xử lý ngôn ngữ tự nhiên. Mô hình này hứa hẹn sẽ nâng cao trải nghiệm người dùng trong các ứng dụng số và hỗ trợ tự động.
Bài viết đặt câu hỏi liệu AI có đe dọa tới tương lai của nhiếp ảnh hay không, khi AI có thể tạo ra hình ảnh giống thật mà không cần quay thực tế.
Tác giả phỏng vấn các nghệ sĩ sử dụng AI để tạo hình ảnh như Laurie Simmons, Alejandro Cartagena. Họ cho rằng AI không thay thế nhiếp ảnh mà là công cụ hữu ích, giúp mở rộng sáng tạo.
Hình ảnh từ AI khác với nhiếp ảnh ở chỗ không gắn với thực tế, nhưng cũng không hoàn toàn là giả mạo. Chúng nằm trong khoảng trống mà chưa có ngôn ngữ để định nghĩa.
Đối với một số người, AI đe dọa công việc của nhiếp ảnh gia, nhưng cũng mở ra cơ hội sáng tạo mới. Các cuộc tranh luận xung quanh AI tương tự với sự ra đời của nhiếp ảnh kỹ thuật số.
✂️ AI không đe dọa tới tồn tại của nhiếp ảnh mà có thể là công cụ hữu ích để mở rộng sáng tạo. Tranh luận xung quanh AI tương tự những bước nhảy vọt công nghệ trước đây.
Kỹ Thuật Hướng Dẫn Nâng Cao:
Cải Tiến Vẽ Chữ:
Tạo Hình Ảnh Siêu Thực:
Ứng Dụng và Sử Dụng Sáng Tạo của Midjourney V6:
📌 3 lý do quan trọng tại sao giai đoạn thử nghiệm alpha của Midjourney V6 lại trở thành một điểm nổi bật cho các nhà phát triển, người sáng tạo và người yêu thích công nghệ gồm: kỹ thuật hướng dẫn nâng cao, cải tiến đưa chữ vào ảnh, tạo ảnh siêu thực.
.
📌 Sự ra đời của I2VGen-XL, mô hình AI phân cấp tổng hợp video của Alibaba, không chỉ là bước đột phá trong việc tạo video từ ảnh tĩnh mà còn mở ra khả năng mới cho ngành công nghiệp sản xuất video, giảm thiểu chi phí và thời gian sản xuất.
📌 Sử dụng Stable Diffusion trong phát triển game mở ra những cơ hội mới để tạo ra trò chơi độc đáo và hấp dẫn, với quy trình sản xuất nhanh chóng, tiết kiệm chi phí và nâng cao trải nghiệm người chơi.
📌 Công nghệ AI của Alibaba Cloud mang lại khả năng chuyển đổi văn bản thành video một cách nhanh chóng và linh hoạt, mở ra cánh cửa mới cho các ứng dụng từ giáo dục đến giải trí, đồng thời nhấn mạnh sự cần thiết của sự tự động hóa trong sản xuất nội dung kỹ thuật số.
📌 Hợp tác giữa Microsoft và Inworld AI đánh dấu một bước tiến quan trọng trong ngành công nghiệp game, với việc tận dụng sức mạnh của AI để tạo ra những trải nghiệm chơi game nhập vai và cá nhân hóa. Những công cụ và công nghệ tiên tiến này không chỉ mở ra cánh cửa cho những khả năng kể chuyện không giới hạn mà còn nâng cao sự gắn bó của người chơi với trò chơi.
📌 Pika và Runway hiện đang trong giai đoạn đầu của việc phát triển công cụ tạo video bằng AI, với Pika 1.0 mới ra mắt cung cấp công cụ chỉnh sửa cơ bản và khả năng tạo video dựa trên lệnh văn bản. Tuy nhiên, chất lượng video sản xuất còn hạn chế và thường đòi hỏi nhiều công sức chỉnh sửa để có thể sử dụng, cho thấy rằng việc tạo video bằng AI vẫn còn là một thách thức lớn so với việc tạo văn bản hoặc hình ảnh.
📌 Bằng việc áp dụng công nghệ AI vào nghiên cứu nghệ thuật, thuật toán AI đã giúp làm sáng tỏ phần nào bức tranh Madonna della Rosa, khẳng định đa phần tác phẩm là của Raphael, mở ra hướng nghiên cứu mới cho việc xác định tác giả các tác phẩm nghệ thuật.
Các nhà nghiên cứu từ Apple và Đại học Washington giới thiệu DATACOMP, một bộ dữ liệu testbed đa phương tiện bao gồm 12.8 tỷ cặp dữ liệu ảnh và văn bản từ Common Crawl.
Công trình trước đây tập trung vào việc cải thiện hiệu suất mô hình thông qua việc làm sạch dữ liệu, loại bỏ ngoại lệ và chọn core set. DATACOMP giúp giải quyết thách thức từ tính chất độc quyền của các bộ dữ liệu đa phương tiện quy mô lớn, thúc đẩy nghiên cứu data-centric.
DATACOMP là một testbed cho thử nghiệm bộ dữ liệu đa phương tiện, cho phép thiết kế và đánh giá các kỹ thuật lọc mới, cải thiện thiết kế dữ liệu và hiệu suất mô hình đa phương tiện.
Bộ dữ liệu DATACOMP sử dụng mã huấn luyện CLIP chuẩn và thử nghiệm trên 38 tập dữ liệu phụ, cùng kiến trúc ViT được chọn vì xu hướng mở rộng CLIP thuận lợi hơn so với ResNets.
DATACOMP-1B đã cải thiện được 3.7 điểm phần trăm về độ chính xác zero-shot trên ImageNet so với CLIP ViT-L/14 của OpenAI (đạt 79.2%). Bộ dữ liệu và mã nguồn của DATACOMP được công bố để nghiên cứu và thử nghiệm rộng rãi.
📌 DATACOMP mở ra cơ hội mới cho nghiên cứu về bộ dữ liệu đa phương tiện, với 12.8 tỷ cặp ảnh-văn bản từ Common Crawl, cải thiện kỹ thuật lọc và đánh giá dữ liệu, và cung cấp hiểu biết sâu sắc hơn về thiết kế và hiệu suất mô hình đa phương tiện.
📌 Adobe Firefly dẫn đầu trong cuộc thử nghiệm tạo thiệp Giáng Sinh bằng công nghệ AI, với hình ảnh gấu trúc đáng yêu và không khí lễ hội, dù có một số nhỏ lỗi hình ảnh.
📌 Mô hình Stable Video Diffusion của Stability AI hiện có qua API, cho phép tích hợp tạo video AI vào sản phẩm. Dù có hiệu quả, SVD vẫn đối mặt tranh cãi về nguồn dữ liệu không an toàn và vấn đề bản quyền, nhưng Stability AI không ngừng nỗ lực phát triển công cụ này.
Giá cả:
Sử dụng:
Sức mạnh:
Sử dụng thương mại:
Nhược điểm:
📌Midjourney mạnh mẽ và linh hoạt hơn nhưng đi kèm với giá cao. DALL-E 3 dễ sử dụng hơn và có sẵn miễn phí ở một số nơi. Nếu mới làm quen với tạo hình ảnh AI, hãy thử DALL-E 3; nếu muốn tạo hình ảnh chất lượng cao với nhiều tự do, Midjourney là lựa chọn tốt nhất.
📌 Mối quan tâm về việc sử dụng AI trong ngành nhiếp ảnh được thể hiện qua lo lắng về việc thay thế nhiếp ảnh gia và ảnh hưởng đến tính sáng tạo, đòi hỏi cần cân nhắc kỹ lưỡng về việc sử dụng công nghệ này.
📌 Cuộc điều tra của SIO là hồi chuông cảnh tỉnh cho cộng đồng AI về tầm quan trọng của việc kiểm soát chặt chẽ nguồn dữ liệu huấn luyện. Việc hợp tác với các tổ chức bảo vệ trẻ em và áp dụng công nghệ phát hiện nâng cao là cần thiết để đảm bảo sự phát triển công nghệ AI không làm tổn hại đến xã hội.
📌 Apple HUGS là minh chứng cho sự đổi mới không ngừng nghỉ trong công nghệ AI tạo sinh, đánh dấu bước tiến lớn trong việc tạo avatar số và tương tác thực tế ảo, mặc dù vẫn trong giai đoạn nghiên cứu sơ khai.
📌 AI thất bại trong việc tạo hình ảnh người da màu một cách chân thực do thiếu dữ liệu huấn luyện đa dạng và hiện tượng này có nguy cơ làm tăng cường các định kiến xã hội và việc phát triển deepfakes, theo nghiên cứu của Amy Dawel.
📌 Dù AI mang đến nhiều tiện ích, "Chicken Run: Dawn of the Nugget" của Aardman khẳng định rằng nghệ thuật thủ công với những giới hạn và không hoàn hảo vẫn có giá trị riêng và không thể thay thế, đồng thời chứng minh rằng nghệ thuật sẽ tiếp tục tồn tại và phát triển cùng công nghệ.
📌 Phóng viên kỹ thuật Tom Acres từ Sky News đã phát hiện ra rằng AI hiện vẫn chưa thể thay thế hoàn toàn con người trong việc thiết kế thiệp Giáng sinh, viết bài hát mừng lễ hay tạo danh sách mua sắm tùy chỉnh. Công cụ AI như Stable Diffusion và DALL-E 3 cho thấy những hạn chế rõ ràng khi tạo ra các hình ảnh có nhiều sai sót. Mặc dù có khả năng truy cập thông tin từ internet, nhưng ChatGPT cũng không thể tạo ra một bài hát Giáng sinh thuyết phục, cho thấy AI vẫn còn xa mới có thể cạnh tranh với sự sáng tạo của con người.
🎶 Sự hợp tác giữa Microsoft Copilot và Suno AI mở ra cánh cửa mới cho việc sáng tạo âm nhạc dựa trên AI, nơi người dùng có thể tạo nên các bản nhạc độc đáo với sự hỗ trợ của công nghệ thú vị này, và khám phá thêm tiềm năng của AI trong lĩnh vực nghệ thuật.
📌 ChatGPT trở thành công cụ AI hàng đầu cho các nhạc sĩ, với khả năng hỗ trợ sáng tạo, giải quyết vấn đề kỹ thuật và tạo ra trải nghiệm sáng tạo tự nhiên, làm nó trở thành một công cụ quan trọng trong ngành công nghiệp âm nhạc.
🎥 VideoPoet của Google đánh dấu một bước tiến trong công nghệ AI tạo sinh, giúp biến văn bản thành video phong phú và chất lượng cao. Sự kết hợp giữa AI và multimodal sẽ mở ra không gian sáng tạo mới cho các nhà sản xuất nội dung, đặc biệt trong lĩnh vực quảng cáo và giáo dục.
Bài viết từ MarkTechPost mô tả StemGen của ByteDance AI Research, một mô hình học sâu tạo ra âm nhạc, có khả năng lắng nghe và phản hồi bối cảnh âm nhạc, hỗ trợ nghệ sĩ trong sáng tác và tự động hóa sản xuất âm nhạc, mặc dù vẫn tồn tại thách thức về bản quyền và sáng tạo.
Bài viết từ MarkTechPost giới thiệu PixelL-LM của Google AI, một mô hình ngôn ngữ hình ảnh tiên tiến với khả năng xác định vị trí và căn chỉnh ngôn ngữ-hình ảnh một cách tinh tế, mở ra nhiều ứng dụng tiềm năng trong các ngành như y tế và giáo dục.
Lili Ziren không chỉ là minh chứng cho sự tiến bộ kỹ thuật trong ngành công nghiệp giải trí Trung Quốc mà còn là biểu tượng của một thị trường AI đang nở rộ. Khả năng tạo ra các nhân vật hư cấu nhưng lại có sức hút mạnh mẽ trên mạng xã hội, cùng với việc tránh được rắc rối từ các bê bối cá nhân, cho thấy tiềm năng lớn trong việc ứng dụng AI vào lĩnh vực giải trí. Đồng thời, quy định và chính sách của Trung Quốc đối với việc quản lý AI cũng phản ánh nhu cầu cấp thiết về việc quản lý công nghệ này trên toàn cầu.
- Alibaba Cloud, một chi nhánh của tập đoàn Alibaba, đã công bố công cụ AI mới I2VGen-XL, có khả năng chuyển đổi văn bản thành video.
- Mô hình I2VGen-XL sử dụng kỹ thuật cascaded diffusion để tạo video có độ chính xác ngữ nghĩa cao và mạch lạc về mặt nội dung.
- Video được tạo ra ở độ phân giải lên đến 1280x720 pixels.
- Để đào tạo mô hình, Alibaba Cloud đã sử dụng 35 triệu cặp văn bản-video và 6 tỷ cặp văn bản-hình ảnh.
- Việc phát triển mô hình này diễn ra trong bối cảnh cạnh tranh công nghệ AI toàn cầu, đặc biệt giữa Mỹ và Trung Quốc, với các hạn chế thương mại và nỗ lực tự cường công nghệ.
Kết luận: Công cụ I2VGen-XL của Alibaba Cloud đánh dấu bước tiến quan trọng trong cuộc đua AI toàn cầu, với việc sử dụng dữ liệu lớn gồm 35 triệu cặp văn bản-video và 6 tỷ cặp văn bản-hình ảnh để tạo ra video có độ chính xác cao, góp phần cạnh tranh trong lĩnh vực AI giữa Mỹ và Trung Quốc.
- Midjourney là công cụ AI tạo sinh hỗ trợ thiết kế UI dành cho người mới.
- Tạo prototype UI nhanh chóng bằng cách mô tả chức năng và phong cách mong muốn để Midjourney tạo ra các biến thể.
- Tạo biến thể cho chế độ tối (Dark mode), điều chỉnh màu sắc và độ tương phản để đảm bảo độ đọc và hài hòa về mặt thị giác.
- Thử nghiệm tỉ lệ khung hình (Aspect ratio experimentation) để tối ưu hoá giao diện cho nhiều kích thước màn hình khác nhau.
- Sử dụng AI để tạo ra các hành trình người dùng cá nhân hoá, cải thiện sự tương tác và trải nghiệm người dùng.
- Công cụ này cũng hỗ trợ tạo ra các mô hình thực tế để xem trước giao diện trên các thiết bị cụ thể.
Kết luận: Bài viết trên AMBCrypto cung cấp một hướng dẫn chi tiết về cách thức sử dụng Midjourney để thiết kế giao diện người dùng. Các phương pháp bao gồm việc nhanh chóng tạo ra các prototype, điều chỉnh cho chế độ tối, thử nghiệm tỉ lệ khung hình để tối ưu hóa giao diện cho mọi thiết bị, và tạo ra các hành trình người dùng cá nhân hoá. Midjourney mang lại khả năng thực hiện nhiều quy trình thiết kế mà không cần mã nguồn mở hay kiến thức sâu về multimodal, giúp cho người mới có thể dễ dàng tiếp cận và sáng tạo giao diện hiệu quả.
- Meta đang tăng cường tích hợp công cụ AI vào nền tảng mạng xã hội, với tính năng mới trên Instagram cho phép tạo hình nền AI trong Stories.
- Tính năng mới hiện được triển khai ở Mỹ, chưa rõ ngày có mặt ở các quốc gia khác.
- Người dùng có thể tạo hình nền AI bằng cách nhập lệnh như "Surrounded by puppies" hoặc "On the edge of an erupting volcano".
- Khi chia sẻ sáng tạo AI, một thủy vân "Try it" sẽ xuất hiện trên Story, giúp người theo dõi dễ dàng thử nghiệm công cụ chỉnh sửa.
- Ngoài ra, Meta cũng đã giới thiệu Gen AI Personas, một loạt chatbots AI, trong đó có các nhân vật nổi tiếng như Kendall Jenner, Paris Hilton và cả nhân vật Bender từ Futurama.
Kết luận: Meta đang nỗ lực đưa công nghệ AI vào nền tảng của mình, với tính năng chỉnh sửa hình ảnh AI mới trên Instagram là một bước tiến đáng chú ý. Tính năng này hiện đã có mặt ở Mỹ và cho phép người dùng tạo hình nền độc đáo cho Stories của họ. Sự đổi mới này không chỉ mang lại trải nghiệm mới mẻ cho người dùng mà còn chứng minh sức mạnh của AI trong việc tạo sinh nội dung đa dạng và cá nhân hóa.
- Tóm tắt nội dung bài viết về các công cụ chỉnh sửa ảnh AI:
- Chỉnh sửa ảnh là công cụ hữu ích, AI giúp tăng khả năng chỉnh sửa ảnh.
- REMINI giúp làm mờ, làm sắc nét ảnh bị mờ. CUTOUT tô màu cho ảnh đen trắng.
- MEDIA.IO cải thiện chất lượng ảnh với AI. FOTOR khôi phục và tô màu ảnh cũ.
- PICWISH giúp làm mờ ảnh. VANCEAI khôi phục ảnh cũ bị hư hại.
- PICSART làm mờ và tăng độ phân giải ảnh. YOUCAM cho ảnh đen trắng hiệu ứng màu.
- BEFUNKY chỉnh sửa ảnh với AI. DEEPAI tô màu và hiện đại hóa ảnh cũ.
- Các công cụ này giúp chỉnh sửa ảnh dễ dàng cho mọi người.
- Tóm tắt nội dung bài viết về công cụ tạo ảnh AI Imagen 2 của Google:
- Imagen 2 là thế hệ thứ 2 của công cụ tạo ảnh AI của Google, cho chất lượng hình ảnh cao hơn.
- Có thể hiểu các câu lệnh dài và mô tả chi tiết hơn nhờ kỹ thuật huấn luyện và mô hình mới.
- Có khả năng tạo văn bản và logo trừu tượng, ghép chữ lên ảnh.
- Hỗ trợ nhiều ngôn ngữ: tiếng Trung, Hindi, Nhật, Hàn, Bồ Đào Nha, Tây Ban Nha.
- Có thể tạo ảnh chân thực với ánh sáng và bóng râm tốt hơn so với các công cụ khác.
- Sử dụng công nghệ SynthID để đánh dấu nước ảnh do Imagen 2 tạo ra.