- Meta đã phát triển một hệ thống có thể nhúng các tín hiệu ẩn, gọi là thủy vân, vào các đoạn âm thanh do AI tạo ra, giúp phát hiện nội dung AI trực tuyến.
- Công cụ này, AudioSeal, là công cụ đầu tiên có thể xác định chính xác các phần âm thanh nào trong một đoạn dài, ví dụ như một podcast dài một giờ, có thể do AI tạo ra.
- AudioSeal có thể giúp giải quyết vấn đề ngày càng gia tăng của việc sử dụng công cụ sao chép giọng nói để lừa đảo và phát tán thông tin sai lệch.
- Các diễn viên xấu đã sử dụng AI tạo sinh để tạo ra các đoạn âm thanh giả mạo của Tổng thống Joe Biden và các kẻ lừa đảo đã sử dụng các đoạn âm thanh giả mạo để tống tiền nạn nhân.
- Thủy vân có thể giúp các công ty truyền thông xã hội phát hiện và loại bỏ nội dung không mong muốn.
- Tuy nhiên, Meta chưa có kế hoạch áp dụng thủy vân cho các đoạn âm thanh do AI tạo ra bằng các công cụ của họ.
- Thủy vân âm thanh chưa được áp dụng rộng rãi và chưa có tiêu chuẩn công nghiệp chung cho chúng.
- Thủy vân cho nội dung AI thường dễ bị giả mạo hoặc loại bỏ.
- Đội ngũ của Meta đã đạt được độ chính xác từ 90% đến 100% trong việc phát hiện thủy vân, kết quả tốt hơn nhiều so với các nỗ lực trước đây.
- AudioSeal có sẵn trên GitHub miễn phí, bất kỳ ai cũng có thể tải xuống và sử dụng để thêm thủy vân vào các đoạn âm thanh do AI tạo ra.
- AudioSeal được tạo ra bằng cách sử dụng hai mạng neural. Một mạng tạo ra các tín hiệu thủy vân có thể nhúng vào các đoạn âm thanh, và mạng kia có thể phát hiện nhanh chóng các tín hiệu này.
- AudioSeal nhúng thủy vân vào từng phần của toàn bộ đoạn âm thanh, cho phép thủy vân được "định vị" và vẫn có thể phát hiện ngay cả khi âm thanh bị cắt hoặc chỉnh sửa.
- Ben Zhao, giáo sư khoa học máy tính tại Đại học Chicago, cho biết khả năng này và độ chính xác phát hiện gần như hoàn hảo khiến AudioSeal tốt hơn bất kỳ hệ thống thủy vân âm thanh nào trước đây.
- Claire Leibowicz, trưởng bộ phận AI và tính toàn vẹn truyền thông tại tổ chức phi lợi nhuận Partnership on AI, cho rằng việc cải thiện thủy vân, đặc biệt là trong các phương tiện như giọng nói, là rất ý nghĩa.
- Tuy nhiên, có những hạn chế cơ bản cần khắc phục trước khi các loại thủy vân âm thanh này có thể được áp dụng rộng rãi.
- Hệ thống yêu cầu người dùng tự nguyện thêm thủy vân vào các tệp âm thanh của họ.
- Nếu kẻ tấn công có quyền truy cập vào bộ phát hiện thủy vân, hệ thống sẽ trở nên dễ bị tổn thương.
- Claire Leibowicz vẫn hoài nghi rằng thủy vân sẽ thực sự tăng cường niềm tin của công chúng vào thông tin họ đang thấy hoặc nghe, vì chúng dễ bị lạm dụng.
📌 AudioSeal của Meta là một bước tiến quan trọng trong việc phát hiện nội dung âm thanh do AI tạo ra, với độ chính xác từ 90% đến 100%. Tuy nhiên, việc áp dụng rộng rãi vẫn gặp nhiều thách thức do dễ bị giả mạo và yêu cầu người dùng tự nguyện thêm thủy vân.
https://www.technologyreview.com/2024/06/18/1094009/meta-has-created-a-way-to-watermark-ai-generated-speech/
#MIT