Giới hạn của AI trong việc bắt chước Miyazaki

-  OpenAI vừa ra mắt GPT-4o, phiên bản mới nhất của ChatGPT có khả năng tạo hình ảnh chất lượng cao ngay trong cửa sổ chat.

-  Trong buổi demo ngày 25/3, nhân viên OpenAI đã yêu cầu công cụ chuyển ảnh selfie nhóm thành "khung anime", tạo ra cảnh hoạt hình chi tiết với đường nét chính xác.

-  Kỹ sư Grant Slatton đã đăng ảnh gia đình được "chuyển thành anime Studio Ghibli" lên X, thu hút gần 50 triệu lượt xem và khởi đầu trào lưu tạo hình ảnh phong cách Ghibli.

-  Xu hướng này lan rộng với nhiều hình ảnh không phù hợp phong cách Miyazaki như Donald Trump hay vụ khủng bố 11/9 được "Ghibli hóa".

-  Sam Altman, CEO OpenAI, cho biết việc sử dụng anime kiểu Ghibli trong demo là có chủ đích và tự hào về nhu cầu sử dụng GPT-4o cao đến mức "làm tan chảy" máy chủ.

-  Khác với các công cụ AI trước đây tạo ra hình ảnh glitch được yêu thích, GPT-4o tạo ra hình ảnh gần như hoàn hảo khiến người xem quên đi nguồn gốc máy móc.

-  Miyazaki, người sáng lập Studio Ghibli, từng gọi công cụ hoạt hình tự động là "sự xúc phạm đối với cuộc sống". Việc phong cách của ông bị AI bắt chước có thể vi phạm bản quyền.

-  OpenAI cho rằng sao chép phong cách của một hãng phim thay vì nghệ sĩ cá nhân là được phép, nhưng nhiều nghệ sĩ đã kiện công ty vì sử dụng tác phẩm của họ để huấn luyện AI.

-  Tác giả lo ngại khán giả có thể hài lòng với những bản sao nhạt nhòa thay vì tác phẩm gốc. Phim mới nhất của Miyazaki "The Boy and the Heron" được xem là phản ứng của nghệ thuật trước thách thức công nghệ.

📌 GPT-4o của OpenAI tạo ra cơn sốt hình ảnh phong cách Studio Ghibli trên mạng xã hội, thu hút 50 triệu lượt xem. Mặc dù gây tranh cãi về bản quyền, xu hướng này cho thấy khả năng bắt chước nghệ thuật đáng kinh ngạc của AI, đặt ra câu hỏi về tương lai của sáng tạo và thưởng thức nghệ thuật.

 

https://www.newyorker.com/culture/infinite-scroll/the-limits-of-ai-generated-miyazaki

 

Giới hạn của AI trong việc bắt chước Miyazaki

Việc ra mắt GPT-4o đã khơi mào làn sóng hình ảnh phong cách Studio Ghibli được tạo bởi AI. Điều này có thể báo hiệu điều tệ hại hơn cho khán giả so với cho các nghệ sĩ. Tác giả: Kyle Chayka Ngày 2 tháng 4 năm 2025 Minh họa về những xúc tu của máy móc trích xuất dữ liệu từ bàn tay của họa sĩ minh họa. Minh họa bởi Ariel Davis

Nếu được yêu cầu đưa ra một tác phẩm nghệ thuật "mang tính con người" điển hình, người ta có thể chọn một bộ phim của Studio Ghibli. Hãng phim hoạt hình Nhật Bản, được thành lập bởi đạo diễn huyền thoại Hayao Miyazaki 84 tuổi, nổi tiếng với hình ảnh vẽ tay, bảng màu hữu cơ phong phú, cốt truyện hoành tráng, và khả năng gợi lên những cảm xúc mơ hồ của tuổi thơ cùng con đường quanh co để trưởng thành. Thế hệ millennials Mỹ chúng tôi may mắn được xem những bộ phim này được dịch và phát hành bằng tiếng Anh đúng lúc chúng tôi đang lớn lên, vì vậy những bộ phim như "My Neighbor Totoro", "Princess Mononoke" và "Spirited Away" là những dấu ấn không thể thiếu trong tuổi trẻ của chúng tôi. Bất kỳ hình ảnh Ghibli nào cũng khiến chúng tôi cảm thấy sự hoài niệm dễ chịu và rùng mình đau buồn, gợi nhớ về những sinh vật rừng bị diệt vong, những bóng ma tham lam trong nhà tắm và những cuộc gặp gỡ lỡ hẹn xuất hiện trong cốt truyện điện ảnh của Miyazaki. Đáng tiếc là cảm giác xúc động đó nhanh chóng bị xói mòn khi bạn bị bủa vây bởi hàng nghìn hình ảnh sao chép phong cách Ghibli, như tất cả chúng ta đều thấy trên mạng tuần trước, nhờ phiên bản mới nhất của công cụ ChatGPT của OpenAI.

GPT-4o, tên gọi của phiên bản mới nhất này, có thể tạo ra hình ảnh với độ chân thực cao hơn nhiều so với các phiên bản trước đây, và có thể làm điều đó ngay trong cửa sổ trò chuyện của chương trình. (Công cụ này hiện chỉ có sẵn cho các tài khoản trả phí.) Năm ngoái, trên trình tạo hình ảnh DALL-E 3 của OpenAI, người dùng thường tạo ra các hình ảnh với bàn tay kỳ quặc và văn bản vô nghĩa; việc cố gắng lặp lại các hình ảnh tương tự cho kết quả không đáng tin cậy. Ngược lại, mô hình mới có thể tạo văn bản rõ ràng, duy trì nhân vật chính nhất quán qua nhiều hình ảnh, và sao chép trung thành các phong cách nghệ thuật từ vẽ tay đến hiện thực ảnh. Trong buổi trình diễn ra mắt vào ngày 25 tháng 3, nhân viên OpenAI, bao gồm CEO Sam Altman, đã yêu cầu công cụ này biến một bức ảnh selfie nhóm thành "một khung anime", tạo ra một cảnh hoạt hình, được vẽ bằng những đường nét chính xác, với bóng đổ đặc trưng và những cây lá đu đủ chi tiết ở nền. (Một nhân vật có 4 ngón tay, nhưng ai quan tâm chứ). Sau khi xem bản demo, kỹ sư Grant Slatton đã đăng một bức ảnh gia đình lên X mà anh đã "chuyển thành anime phong cách studio ghibli". Nó cho thấy anh và vợ với chú chó corgi trên bãi biển, với đôi mắt long lanh, mái tóc bồng bềnh, và quần áo nhăn nhẹ nhàng quen thuộc từ phim của Miyazaki. Hiệu ứng thuyết phục một cách kỳ lạ; mọi khiếm khuyết—như râu lởm chởm pixelated—chỉ lộ ra khi xem xét kỹ. Bài đăng của Slatton hiện có gần 50 triệu lượt xem và đã truyền cảm hứng cho hàng loạt cảnh Ghibli hóa khác, bao gồm những cảnh không phù hợp chút nào với vũ trụ điện ảnh Miyazaki—Donald Trump phong cách Ghibli giơ nắm đấm thách thức sau một vụ ám sát bất thành; một chiếc máy bay Ghibli đâm vào Tháp Đôi. Đáy kỳ quặc của xu hướng này có thể đã đạt đến đỉnh điểm vào hôm thứ Năm, khi tài khoản X chính thức của Nhà Trắng đăng một bức ảnh được lọc phong cách Ghibli của một kẻ buôn ma túy bị cáo buộc từ Cộng hòa Dominica đang khóc lóc khi bị bắt. (Tại sao chúng ta ngạc nhiên? Đây là cùng một Chính quyền đã từng đăng một video ASMR về những người bị trục xuất.)

Việc sử dụng anime kiểu Ghibli trong bản demo của OpenAI là có chủ đích; "Chúng tôi đã suy nghĩ rất nhiều về các ví dụ ban đầu chúng tôi hiển thị khi giới thiệu công nghệ mới", Altman sau đó đã đăng trên X. Kể từ đó, ông đã tự hào về việc máy chủ của công ty mình "tan chảy" do nhu cầu đặt lên GPT-4o. Thành công của meme Ghibli đánh dấu một chương mới trong sự phát triển của việc bắt chước AI. Các công cụ AI trước đây đã tạo ra các meme được tán dương vì tính lỗi kỳ lạ—một hình ảnh Midjourney năm 2023 của Giáo hoàng mặc áo khoác phồng sành điệu, hoặc một phiên bản giọng của Jay-Z được tạo bởi AI hát một bài rap hoài cổ. Trong những trường hợp đó, việc công nghệ không tạo ra sự chân thực hoàn hảo là một phần của sự quyến rũ. Với những hình ảnh Ghibli, người ta gần như có thể tận hưởng bảng màu và đường nét duyên dáng vì chính chúng, quên đi rằng chúng là những sáng tạo giả mạo của một cỗ máy.

Sức mạnh đó có liên quan nhiều đến khả năng của GPT-4o cũng như những nguyên mẫu không thể xóa nhòa mà Miyazaki đã tạo ra. Một bài đăng phổ biến trên X tuần trước đã reo hò, "Nghệ thuật vừa trở nên dễ tiếp cận", kèm theo một bức ảnh sáu người bạn nam, khung hình lần lượt được biến đổi thành ba phong cách hình ảnh khác nhau. Nhưng không phải nghệ thuật đang trở nên dễ tiếp cận; đó là một bản sao của nghệ thuật, một phiên bản cực đoan hơn của, chẳng hạn, một bức ảnh chụp một bức tranh. Một điều cay đắng của meme giả-Ghibli là Miyazaki là một người công khai ghét công nghệ AI. Trong một đoạn clip nổi tiếng từ năm 2016, ông mô tả một công cụ hoạt hình tự động là "một sự xúc phạm đối với chính cuộc sống". Việc tác phẩm cả đời của Miyazaki giờ đây trở thành nguyên liệu cho cối xay AI tạo sinh có thể không chỉ là một sự xúc phạm mà còn là vi phạm bản quyền. OpenAI lập luận rằng việc sao chép phong cách của một hãng phim, thay vì của một nghệ sĩ đang sống, là được phép. (Tôi nghĩ Disney sẽ không ủng hộ lập luận này.) Tuy nhiên, các nghệ sĩ khác ở Hoa Kỳ đã kiện OpenAI và các công ty AI khác vì đã huấn luyện các công cụ của họ dựa trên tác phẩm nghệ thuật của họ và xâm phạm phong cách của họ; những vụ kiện đó vẫn đang được đưa ra tòa án, và kết quả của chúng sẽ quyết định nhiều về cách thức xử lý hình ảnh do AI tạo ra trong tương lai. (Năm 2023, một vụ án đã tạo tiền lệ rằng nghệ thuật do AI tạo ra, tự nó, không thể được bảo vệ bản quyền.)

Tất nhiên, các nghệ sĩ đã đối mặt với sự sao chép nhiều lần trước đây. Hội họa đã sống sót sau sự ra đời của nghề in ấn, sau đó là sự ra đời của nhiếp ảnh. Phương tiện cũ hơn đã tồn tại vì một số hạt nhân của sự hiểu biết và biểu đạt không thể bị sao chép mất đi. Như Walter Benjamin đã viết trong bài luận năm 1933 "Tác phẩm nghệ thuật trong kỷ nguyên tái tạo cơ học", "Sự hiện diện của bản gốc là điều kiện tiên quyết cho khái niệm về tính xác thực". Bức ảnh về nhà thờ không có ý nghĩa gì nếu không có chính nhà thờ đó; việc sao chép phong cách của Studio Ghibli không có ý nghĩa gì nếu không có cảm giác tập thể mà chúng ta có đối với thẩm mỹ Miyazaki, lấy cảm hứng từ các bộ phim của ông. Trong thời điểm hiện tại, tôi lo lắng ít hơn nhiều cho các nghệ sĩ, những người thúc đẩy sáng tạo, mà lo lắng nhiều hơn cho khán giả, những người có thể hài lòng với rất nhiều bản sao nhạt nhòa. Bộ phim gần đây nhất của Miyazaki với Studio Ghibli, "The Boy and the Heron", là sự pha trộn độc đáo giữa tự truyện, lịch sử Nhật Bản, thuyết vạn vật hữu linh và chủ nghĩa siêu thực, khám phá chính khát vọng của nghệ sĩ để tạo ra điều gì đó sẽ tồn tại lâu hơn ông. Sự trừu tượng năng động của bộ phim—đẩy nhanh vào những phần sâu thẳm, không thể diễn tả của tâm hồn chúng ta—là một cách nghệ thuật có thể đáp ứng thách thức của công nghệ. Ngay cả khi phong cách của Miyazaki chứng minh tính meme trong thời điểm này, tác phẩm của ông cũng có thể dự báo tương lai của thẩm mỹ.

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo