Mô hình TTT - tương lai mới của AI tạo sinh với hiệu suất cao và tiết kiệm năng lượng

• Sau nhiều năm thống trị, mô hình transformer đang gặp phải những rào cản kỹ thuật, đặc biệt là vấn đề tính toán. Transformer không hiệu quả trong việc xử lý và phân tích lượng lớn dữ liệu trên phần cứng thông thường.

• Kiến trúc test-time training (TTT) được đề xuất gần đây bởi các nhà nghiên cứu từ Stanford, UC San Diego, UC Berkeley và Meta. Họ tuyên bố mô hình TTT có thể xử lý nhiều dữ liệu hơn transformer mà không tiêu tốn quá nhiều năng lượng tính toán.

• Thành phần cơ bản của transformer là "hidden state" - một danh sách dài dữ liệu. Khi xử lý, transformer thêm các mục vào hidden state để "ghi nhớ" những gì vừa xử lý. Tuy nhiên, điều này cũng làm hạn chế transformer.

Ý tưởng của TTT là thay thế hidden state bằng một mô hình machine learning. Mô hình nội bộ của TTT không phình to khi xử lý thêm dữ liệu, mà mã hóa dữ liệu thành các biến đại diện gọi là trọng số.

• Yu Sun, một trong những nhà nghiên cứu, tin rằng các mô hình TTT trong tương lai có thể xử lý hiệu quả hàng tỷ dữ liệu từ văn bản, hình ảnh, âm thanh đến video - vượt xa khả năng của các mô hình hiện tại.

Tuy nhiên, các mô hình TTT chưa thể thay thế hoàn toàn transformer. Các nhà nghiên cứu mới chỉ phát triển hai mô hình nhỏ để nghiên cứu, khó so sánh với các triển khai transformer lớn hơn.

• Một số chuyên gia như Mike Cook từ King's College London vẫn còn hoài nghi về hiệu quả của TTT so với kiến trúc hiện có.

• Ngoài TTT, các công ty AI cũng đang khám phá các giải pháp thay thế khác như state space models (SSMs). Mistral vừa phát hành mô hình Codestral Mamba dựa trên SSMs. AI21 Labs và Cartesia cũng đang nghiên cứu SSMs.

• Nếu thành công, những nỗ lực này có thể giúp AI tạo sinh trở nên phổ biến và dễ tiếp cận hơn nữa.

📌 Mô hình TTT và SSMs đang nổi lên như giải pháp thay thế tiềm năng cho transformer trong AI tạo sinh, hứa hẹn xử lý hiệu quả hơn hàng tỷ dữ liệu đa phương tiện. Tuy còn ở giai đoạn đầu, chúng có thể mở ra kỷ nguyên mới cho AI với hiệu suất cao và tiết kiệm năng lượng hơn.

https://techcrunch.com/2024/07/17/ttt-models-might-be-the-next-frontier-in-generative-ai/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo