- OpenAI đã cắt giảm mạnh thời gian và nguồn lực dành cho việc kiểm tra an toàn các mô hình AI mạnh mẽ của mình, gây lo ngại về việc công nghệ được phát hành quá nhanh mà thiếu các biện pháp bảo vệ.
- Nhân viên và các nhóm bên thứ ba gần đây chỉ được cấp vài ngày để tiến hành "đánh giá" cho các mô hình ngôn ngữ lớn mới nhất của OpenAI, so với vài tháng trước đây.
- Một người đang kiểm tra mô hình o3 sắp ra mắt cho biết: "Chúng tôi có kiểm tra an toàn kỹ lưỡng hơn khi công nghệ ít quan trọng hơn" và cảnh báo rằng đây là "công thức cho thảm họa".
- Áp lực thời gian đến từ "áp lực cạnh tranh" khi OpenAI đua với các tập đoàn công nghệ lớn như Meta, Google và các công ty khởi nghiệp như xAI của Elon Musk.
- OpenAI đang đẩy nhanh việc phát hành mô hình o3 mới vào tuần tới, chỉ cho một số người kiểm tra chưa đầy một tuần để kiểm tra an toàn, trong khi trước đây cho GPT-4, người kiểm tra có 6 tháng.
- Một người từng kiểm tra GPT-4 tiết lộ một số khả năng nguy hiểm chỉ được phát hiện sau 2 tháng kiểm tra.
- Hiện không có tiêu chuẩn toàn cầu cho kiểm tra an toàn AI, nhưng Đạo luật AI của EU sẽ buộc các công ty thực hiện kiểm tra an toàn đối với các mô hình mạnh nhất từ cuối năm nay.
- OpenAI trước đây đã cam kết xây dựng các phiên bản tùy chỉnh của mô hình để đánh giá khả năng sử dụng sai mục đích, nhưng công ty chỉ thực hiện điều này một cách hạn chế, chọn fine-tune mô hình cũ, ít mạnh hơn thay vì các mô hình tiên tiến hơn.
- Steven Adler, cựu nhà nghiên cứu an toàn tại OpenAI, cảnh báo: "Không thực hiện các bài kiểm tra như vậy có thể khiến OpenAI và các công ty AI khác đánh giá thấp những rủi ro tồi tệ nhất từ mô hình của họ."
- Một mối quan ngại khác là các bài kiểm tra an toàn thường không được thực hiện trên các mô hình cuối cùng phát hành cho công chúng, mà là trên các phiên bản trung gian "gần cuối" được cập nhật sau đó.
- OpenAI khẳng định đã cải thiện hiệu quả trong quy trình đánh giá, bao gồm các bài kiểm tra tự động, dẫn đến giảm khung thời gian và các phiên bản kiểm tra "về cơ bản giống hệt nhau" với bản cuối cùng.
📌 Áp lực cạnh tranh đã khiến OpenAI giảm thời gian kiểm tra an toàn từ 6 tháng xuống còn vài ngày. Các chuyên gia cảnh báo việc này có thể dẫn đến việc bỏ lỡ những rủi ro nghiêm trọng khi các mô hình AI trở nên mạnh mẽ hơn nhưng thiếu đánh giá kỹ lưỡng.
https://www.ft.com/content/8253b66e-ade7-4d1f-993b-2d0779c7e7d8
#FT
Các kiểm thử viên đã bày tỏ lo ngại rằng công nghệ của họ đang được tung ra mà không có đủ biện pháp bảo vệ
Cristina Criddle tại San Francisco
Công bố cách đây 6 giờ
OpenAI đã cắt giảm thời gian và nguồn lực dành cho việc kiểm tra an toàn của các mô hình trí tuệ nhân tạo mạnh mẽ của mình, làm dấy lên lo ngại rằng công nghệ của họ đang được tung ra mà không có đủ biện pháp bảo vệ.
Nhân viên và các nhóm bên thứ ba gần đây chỉ được cấp vài ngày để tiến hành "đánh giá", thuật ngữ dùng cho các bài kiểm tra để đánh giá rủi ro và hiệu suất của mô hình, đối với các mô hình ngôn ngữ lớn mới nhất của OpenAI, so với vài tháng trước đây.
Theo tám người quen thuộc với quy trình kiểm tra của OpenAI, các bài kiểm tra của công ty khởi nghiệp này đã trở nên ít kỹ lưỡng hơn, với thời gian và nguồn lực không đủ dành cho việc xác định và giảm thiểu rủi ro, khi công ty khởi nghiệp trị giá 300 tỷ đô la này chịu áp lực phải phát hành các mô hình mới nhanh chóng và duy trì lợi thế cạnh tranh.
"Chúng tôi đã có kiểm tra an toàn kỹ lưỡng hơn khi [công nghệ] ít quan trọng hơn," một người hiện đang kiểm tra mô hình o3 sắp ra mắt của OpenAI cho biết, mô hình này được thiết kế cho các nhiệm vụ phức tạp như giải quyết vấn đề và lập luận.
Họ nói thêm rằng khi các mô hình ngôn ngữ lớn (LLM) trở nên có khả năng hơn, "khả năng vũ khí hóa" tiềm tàng của công nghệ này tăng lên. "Nhưng vì có nhiều nhu cầu hơn cho nó, họ muốn phát hành nó nhanh hơn. Tôi hy vọng đó không phải là một sai lầm thảm khốc, nhưng nó thật liều lĩnh. Đây là công thức cho thảm họa."
Áp lực thời gian đã bị thúc đẩy bởi "áp lực cạnh tranh", theo những người quen thuộc với vấn đề này, khi OpenAI đua với các tập đoàn công nghệ lớn như Meta và Google cùng các công ty khởi nghiệp bao gồm xAI của Elon Musk để thu lợi từ công nghệ tiên tiến.
Không có tiêu chuẩn toàn cầu cho kiểm tra an toàn AI, nhưng từ cuối năm nay, Đạo luật AI của EU sẽ buộc các công ty phải tiến hành kiểm tra an toàn đối với các mô hình mạnh mẽ nhất của họ. Trước đây, các nhóm AI, bao gồm OpenAI, đã ký các cam kết tự nguyện với chính phủ ở Anh và Mỹ để cho phép các nhà nghiên cứu tại các viện an toàn AI kiểm tra mô hình.
OpenAI đã đang thúc đẩy phát hành mô hình mới o3 sớm nhất là vào tuần tới, cho một số kiểm thử viên chưa đầy một tuần cho việc kiểm tra an toàn của họ, theo những người quen thuộc với vấn đề này. Ngày phát hành này có thể thay đổi.
Trước đây, OpenAI đã cho phép vài tháng cho các kiểm tra an toàn. Đối với GPT-4, ra mắt vào năm 2023, các kiểm thử viên đã có sáu tháng để tiến hành đánh giá trước khi nó được phát hành, theo những người quen thuộc với vấn đề.
Một người đã kiểm tra GPT-4 cho biết một số khả năng nguy hiểm chỉ được phát hiện sau hai tháng kiểm tra. "Họ hoàn toàn không ưu tiên an toàn công cộng," họ nói về cách tiếp cận hiện tại của OpenAI.
"Không có quy định nào nói rằng [các công ty] phải thông báo cho công chúng về tất cả các khả năng đáng sợ... và họ cũng chịu nhiều áp lực để đua với nhau nên họ sẽ không ngừng làm cho chúng có khả năng hơn," Daniel Kokotajlo, một cựu nhà nghiên cứu OpenAI hiện lãnh đạo nhóm phi lợi nhuận AI Futures Project cho biết.
OpenAI trước đây đã cam kết xây dựng các phiên bản tùy chỉnh của các mô hình của mình để đánh giá khả năng sử dụng sai mục đích tiềm tàng, chẳng hạn như liệu công nghệ của họ có thể giúp làm cho virus sinh học dễ lây truyền hơn không.
Phương pháp này đòi hỏi nguồn lực đáng kể, như tập hợp các tập dữ liệu thông tin chuyên biệt như virus học và cung cấp cho mô hình để đào tạo nó bằng kỹ thuật gọi là điều chỉnh tinh chỉnh (fine-tuning).
Nhưng OpenAI chỉ làm điều này một cách hạn chế, chọn cách tinh chỉnh mô hình cũ, ít có khả năng hơn thay vì các mô hình mạnh mẽ và tiên tiến hơn.
Báo cáo an toàn và hiệu suất của công ty khởi nghiệp về o3-mini, mô hình nhỏ hơn được phát hành vào tháng 1, đề cập đến cách mô hình trước đó GPT-4o có thể thực hiện một nhiệm vụ sinh học nhất định chỉ khi được tinh chỉnh. Tuy nhiên, OpenAI chưa bao giờ báo cáo các mô hình mới hơn của họ, như o1 và o3-mini, sẽ đạt điểm như thế nào nếu được tinh chỉnh.
"Thật tuyệt khi OpenAI đặt ra tiêu chuẩn cao như vậy bằng cách cam kết kiểm tra các phiên bản tùy chỉnh của mô hình của họ. Nhưng nếu họ không thực hiện cam kết này, công chúng xứng đáng được biết," Steven Adler, một cựu nhà nghiên cứu an toàn tại OpenAI, người đã viết một blog về chủ đề này, cho biết.
"Không thực hiện các bài kiểm tra như vậy có thể có nghĩa là OpenAI và các công ty AI khác đang đánh giá thấp những rủi ro tồi tệ nhất của mô hình của họ," ông nói thêm.
Những người quen thuộc với các bài kiểm tra như vậy cho biết chúng mang lại chi phí nặng nề, như thuê các chuyên gia bên ngoài, tạo tập dữ liệu cụ thể, cũng như sử dụng kỹ sư nội bộ và sức mạnh tính toán.
OpenAI cho biết họ đã tạo ra hiệu quả trong quy trình đánh giá của mình, bao gồm các bài kiểm tra tự động, điều này đã dẫn đến việc giảm thời gian. Họ nói thêm rằng không có công thức thống nhất cho các phương pháp như tinh chỉnh, nhưng họ tin tưởng rằng phương pháp của họ là tốt nhất có thể và được làm minh bạch trong các báo cáo của họ.
Họ nói thêm rằng các mô hình, đặc biệt là cho các rủi ro thảm khốc, được kiểm tra kỹ lưỡng và giảm thiểu về mặt an toàn.
"Chúng tôi có sự cân bằng tốt giữa tốc độ di chuyển và sự kỹ lưỡng," Johannes Heidecke, người đứng đầu hệ thống an toàn, cho biết.
Một mối quan tâm khác được nêu ra là các bài kiểm tra an toàn thường không được thực hiện trên các mô hình cuối cùng phát hành cho công chúng. Thay vào đó, chúng được thực hiện trên các "điểm kiểm tra" (checkpoints) trước đó sau này được cập nhật để cải thiện hiệu suất và khả năng, với các phiên bản "gần cuối cùng" được tham chiếu trong báo cáo an toàn hệ thống của OpenAI.
"Việc phát hành một mô hình khác với mô hình bạn đã đánh giá là thực hành không tốt," một cựu nhân viên kỹ thuật của OpenAI cho biết.
OpenAI cho biết các điểm kiểm tra "về cơ bản giống hệt" với những gì được ra mắt cuối cùng.