- Tháng 5/2023, các CEO hàng đầu trong lĩnh vực AI như Sam Altman (OpenAI), Demis Hassabis (Google DeepMind) và Dario Amodei (Anthropic) đã gặp Thủ tướng Anh Rishi Sunak tại London để thảo luận về AI.
- Sunak đã thành công trong việc thuyết phục các công ty này cho phép chính phủ Anh tiếp cận trước các mô hình AI mới nhất để kiểm tra các mối nguy hiểm tiềm ẩn.
- Viện An toàn AI (AISI) của Anh được thành lập với ngân sách 100 triệu bảng (127 triệu USD), gấp khoảng 10 lần so với cơ quan tương tự của Mỹ.
- AISI đã tiến hành kiểm tra 16 mô hình AI, bao gồm ít nhất 3 mô hình tiên tiến trước khi ra mắt công chúng như Gemini Ultra của Google, o1 của OpenAI và Claude 3.5 Sonnet của Anthropic.
- Viện đã thu hút được các nhà nghiên cứu tên tuổi từ OpenAI và Google DeepMind.
- Tháng 5/2024, AISI ra mắt công cụ nguồn mở để kiểm tra khả năng của các hệ thống AI, được nhiều doanh nghiệp và chính phủ sử dụng.
- Tuy nhiên, AISI vẫn chưa chứng minh được khả năng thực sự làm cho các hệ thống AI an toàn hơn.
- Viện thường không công bố kết quả đánh giá hoặc thông tin về việc các công ty AI có hành động dựa trên những phát hiện của họ hay không, với lý do an ninh và sở hữu trí tuệ.
- Chính phủ Anh có động lực không đối đầu quá mức với các công ty AI lớn vì họ có khả năng phát triển hoặc rút lui khỏi ngành công nghiệp địa phương.
- AISI đã từ bỏ yêu cầu tiếp cận đầy đủ trọng số mô hình (model weights) sau khi các công ty AI phản đối mạnh mẽ.
- Viện tập trung vào việc kiểm tra các mô hình thông qua giao diện trò chuyện, không yêu cầu truy cập trực tiếp vào mã nguồn.
- AISI không thể chứng nhận các mô hình là an toàn, mà chỉ có thể xác định các mối nguy hiểm tiềm ẩn.
- Các nhà nghiên cứu AISI kiểm tra khả năng của AI trong việc hành động tự chủ, dễ dàng phá vỡ các tính năng an toàn và khả năng thao túng người dùng.
- Viện đang xây dựng một bộ "ngưỡng khả năng" để chỉ ra các rủi ro nghiêm trọng, có thể kích hoạt các quy định chặt chẽ hơn của chính phủ.
- Đảng Lao động mới lên nắm quyền ở Anh đã hứa hẹn sẽ ban hành "quy định ràng buộc đối với một số ít công ty đang phát triển các mô hình AI mạnh mẽ nhất".
- Các nhà lãnh đạo AISI tin rằng việc xây dựng năng lực AI trong chính phủ là cần thiết để có tiếng nói trong tương lai của công nghệ này.
📌 AISI của Anh đã trở thành chương trình tiên phong trong việc đánh giá rủi ro AI với ngân sách 127 triệu USD. Viện đã kiểm tra 16 mô hình, bao gồm Gemini Ultra và Claude 3.5 Sonnet. Tuy nhiên, AISI vẫn phải đối mặt với thách thức trong việc cân bằng giữa an toàn và sự phát triển của ngành công nghiệp AI trị giá 7,3 tỷ USD ở Anh.
#TIME
https://time.com/7204670/uk-ai-safety-institute/
Bên trong thí nghiệm táo bạo về an toàn AI của Vương quốc Anh
Thời gian đọc: 13 phút
Tác giả: Billy Perrigo
Ngày 16 tháng 1 năm 2025, 7:03 sáng theo giờ EST
Vào tháng 5 năm 2023, 3 CEO quan trọng nhất trong lĩnh vực trí tuệ nhân tạo đã bước qua cánh cửa đen mang tính biểu tượng của số 10 Downing Street, nơi ở chính thức của Thủ tướng Vương quốc Anh tại London. Sam Altman của OpenAI, Demis Hassabis của Google DeepMind và Dario Amodei của Anthropic có mặt để thảo luận về AI, sau khi ChatGPT ra mắt rầm rộ 6 tháng trước đó.
Sau khi chụp ảnh cùng Thủ tướng Rishi Sunak trong văn phòng riêng, họ tiến vào phòng họp nội các kế bên và ngồi vào bàn họp dài hình chữ nhật. Sunak và các quan chức chính phủ Anh ngồi một bên, trong khi 3 CEO cùng một số cố vấn của họ ngồi đối diện. Sau một cuộc thảo luận lịch sự về cách AI có thể mang lại cơ hội cho nền kinh tế Anh, Sunak khiến các vị khách bất ngờ khi cho biết ông muốn bàn về các rủi ro. Thủ tướng muốn biết thêm về lý do các CEO đã ký vào một tuyên bố mà ông thấy đáng lo ngại, tuyên bố rằng AI nguy hiểm ngang tầm với đại dịch hoặc chiến tranh hạt nhân, theo thông tin từ 2 người nắm rõ cuộc họp. Ông đã mời họ tham dự Hội nghị Thượng đỉnh An toàn AI đầu tiên trên thế giới, do Anh lên kế hoạch tổ chức vào tháng 11 năm đó. Đồng thời, ông cũng thuyết phục họ đồng ý cho chính phủ của mình quyền truy cập sớm vào các mô hình AI mới nhất của công ty họ, để một lực lượng đặc nhiệm của Anh – được thành lập một tháng trước đó và lấy cảm hứng từ đội ngũ vaccine COVID-19 của đất nước – có thể kiểm tra các nguy cơ tiềm ẩn.
Vương quốc Anh là quốc gia đầu tiên trên thế giới đạt được loại thỏa thuận này với các phòng thí nghiệm AI tiên tiến – những nhóm chịu trách nhiệm phát triển các mô hình AI hàng đầu thế giới. 6 tháng sau, Sunak đã chính thức hóa lực lượng đặc nhiệm này thành một cơ quan chính thức gọi là Viện An toàn AI (AI Safety Institute – AISI). Trong một năm kể từ đó, AISI đã trở thành chương trình tiên tiến nhất trong bất kỳ chính phủ nào để đánh giá các rủi ro của AI. Với ngân sách công là 100 triệu bảng Anh (127 triệu USD), cơ quan này có ngân sách gấp khoảng 10 lần so với Viện An toàn AI của chính phủ Mỹ, được thành lập cùng thời điểm.
Bên trong Viện An toàn AI mới của Vương quốc Anh (AISI), các nhóm nhà nghiên cứu AI và quan chức an ninh quốc gia đã bắt đầu tiến hành các thử nghiệm để kiểm tra xem các hệ thống AI mới có khả năng hỗ trợ tấn công sinh học, hóa học hoặc mạng, hoặc thoát khỏi sự kiểm soát của người tạo ra chúng hay không. Trước đó, các thử nghiệm an toàn như vậy chỉ có thể thực hiện được trong nội bộ các công ty AI—những công ty có động lực thị trường để tiếp tục tiến lên bất chấp kết quả thử nghiệm. Khi thành lập viện này, những người trong chính phủ lập luận rằng điều quan trọng là các quốc gia dân chủ phải có năng lực kỹ thuật để kiểm tra và hiểu các hệ thống AI tiên tiến nếu họ muốn có bất kỳ hy vọng nào trong việc tác động đến các quyết định then chốt về công nghệ trong tương lai. "Bạn thực sự cần một tổ chức vì lợi ích công, đại diện chân thực cho người dân để đưa ra những quyết định đó," Jade Leung, giám đốc công nghệ của AISI, cho biết. "Ngoài chính phủ ra, không thực sự có nguồn nào hợp pháp để đưa ra những [quyết định] này."
Trong thời gian ngắn đáng kể, AISI đã giành được sự tôn trọng của ngành công nghiệp AI bằng cách thực hiện được các thử nghiệm an toàn AI đẳng cấp thế giới trong khuôn khổ chính phủ. Viện này đã thu hút được các nhà nghiên cứu tên tuổi từ OpenAI và Google DeepMind. Cho đến nay, họ và các đồng nghiệp đã thử nghiệm 16 mô hình, bao gồm ít nhất 3 mô hình tiên tiến trước khi chúng được ra mắt công khai. Một trong số đó, chưa từng được báo cáo trước đây, là mô hình Gemini Ultra của Google, theo 3 người biết về vấn đề này. Theo 2 trong số họ, thử nghiệm trước khi ra mắt này không phát hiện bất kỳ rủi ro nghiêm trọng nào chưa được biết đến trước đó. Viện cũng đã thử nghiệm mô hình o1 của OpenAI và mô hình Claude 3.5 Sonnet của Anthropic trước khi chúng được phát hành, theo tài liệu đi kèm với từng lần ra mắt của các công ty này. Vào tháng 5, AISI đã ra mắt một công cụ mã nguồn mở để thử nghiệm khả năng của các hệ thống AI, công cụ này đã trở nên phổ biến trong các doanh nghiệp và chính phủ khác đang cố gắng đánh giá rủi ro AI.
Tuy nhiên, dù nhận được nhiều lời khen ngợi, AISI vẫn chưa chứng minh được liệu nó có thể tận dụng các thử nghiệm của mình để thực sự làm cho các hệ thống AI trở nên an toàn hơn hay không. Viện này thường không công khai kết quả đánh giá, cũng như thông tin về việc các công ty AI có hành động dựa trên những phát hiện của viện hay không, với lý do liên quan đến bảo mật và quyền sở hữu trí tuệ. Vương quốc Anh, nơi AISI đặt trụ sở, có một nền kinh tế AI trị giá 5,8 tỷ bảng Anh (7,3 tỷ USD) vào năm 2023, nhưng chính phủ có rất ít thẩm quyền đối với các công ty AI mạnh nhất thế giới. (Mặc dù Google DeepMind đặt trụ sở chính tại London, nhưng vẫn thuộc sở hữu của tập đoàn công nghệ có trụ sở tại Mỹ.) Chính phủ Anh, hiện do Đảng Lao động của Keir Starmer kiểm soát, có động lực để không đối đầu quá mức với các lãnh đạo của các công ty này, vì họ nắm trong tay quyền quyết định mở rộng hoặc rút lui khỏi một ngành công nghiệp địa phương mà các nhà lãnh đạo hy vọng sẽ đóng góp nhiều hơn cho nền kinh tế Anh vốn đang gặp khó khăn. Vì vậy, câu hỏi then chốt vẫn còn bỏ ngỏ: Liệu Viện An toàn AI non trẻ này có thực sự có thể buộc các gã khổng lồ công nghệ trị giá hàng tỷ đô la phải chịu trách nhiệm?
Tại Mỹ, sự giàu có và quyền lực phi thường của ngành công nghệ đã làm chệch hướng các nỗ lực quản lý có ý nghĩa. Đối tác ít được tài trợ hơn của Viện An toàn AI Vương quốc Anh (AISI), nằm trong các văn phòng xuống cấp ở Maryland và Colorado, cũng không phải là ngoại lệ. Nhưng điều này có thể sớm thay đổi. Vào tháng 8, AISI của Mỹ đã ký các thỏa thuận để có quyền truy cập sớm trước khi triển khai các mô hình AI từ OpenAI và Anthropic. Đến tháng 10, chính quyền Biden đã công bố một bản ghi nhớ an ninh quốc gia toàn diện, giao nhiệm vụ cho AISI Mỹ thực hiện các thử nghiệm an toàn đối với các mô hình AI tiên tiến mới và hợp tác với NSA trong các đánh giá mật.
Mặc dù các viện AISI của Vương quốc Anh và Mỹ hiện là đối tác và đã cùng thực hiện các đánh giá chung về các mô hình AI, nhưng Viện của Mỹ có thể sẽ ở vị trí tốt hơn để dẫn đầu bằng cách đảm bảo quyền truy cập độc quyền vào các mô hình AI mạnh nhất thế giới nếu điều đó xảy ra. Tuy nhiên, chiến thắng bầu cử của Donald Trump đã làm cho tương lai của AISI Mỹ trở nên bất định. Nhiều thành viên Đảng Cộng hòa không ủng hộ việc quản lý của chính phủ—đặc biệt là các cơ quan như AISI Mỹ, được tài trợ bởi ngân sách liên bang, vì có thể bị coi là tạo ra rào cản đối với tăng trưởng kinh tế. Tỷ phú Elon Musk, người đã giúp tài trợ cho chiến dịch tái tranh cử của Trump và cũng sở hữu công ty AI của riêng mình mang tên xAI, dự kiến sẽ đồng lãnh đạo một cơ quan chịu trách nhiệm cắt giảm chi tiêu liên bang. Tuy nhiên, chính Musk từ lâu đã bày tỏ lo ngại về các rủi ro từ AI tiên tiến, và nhiều thành viên Đảng Cộng hòa cấp cơ sở lại ủng hộ việc ban hành các quy định về AI tập trung vào an ninh quốc gia. Trong bối cảnh bất định này, lợi thế đặc biệt của AISI Vương quốc Anh có thể đơn giản là sự ổn định—một nơi mà các nhà nghiên cứu có thể tiến hành các nghiên cứu về an toàn AI mà không phải đối mặt với xung đột lợi ích trong ngành, và tránh xa sự bất ổn chính trị của Washington dưới thời Trump.
Vào một buổi sáng tháng 6 ấm áp, khoảng 3 tuần sau cuộc họp quan trọng tại số 10 Downing Street, Thủ tướng Sunak bước lên bục phát biểu tại một hội nghị công nghệ ở London để trình bày bài phát biểu chính. “Chính những người tiên phong trong lĩnh vực AI đang cảnh báo chúng ta về cách các công nghệ này có thể làm xói mòn các giá trị và tự do của chúng ta, cho đến những rủi ro cực đoan nhất,” ông nói với khán giả. “Đó là lý do tại sao dẫn đầu về AI cũng có nghĩa là dẫn đầu về an toàn AI.” Giải thích với các đại diện ngành công nghệ tham dự rằng chính phủ của ông là một chính phủ “hiểu rõ vấn đề,” ông công bố thỏa thuận mà ông đã đạt được vài tuần trước với các CEO của những phòng thí nghiệm hàng đầu. “Tôi rất vui được thông báo rằng họ đã cam kết cung cấp quyền truy cập sớm hoặc ưu tiên vào các mô hình phục vụ mục đích nghiên cứu và an toàn,” ông nói.
Đằng sau hậu trường, một nhóm nhỏ bên trong Downing Street vẫn đang cố gắng làm rõ chính xác thỏa thuận mà Thủ tướng Sunak công bố thực sự có ý nghĩa gì. Ngôn từ của thỏa thuận đã được đàm phán với các phòng thí nghiệm AI, nhưng các chi tiết kỹ thuật thì chưa, và cam kết về "quyền truy cập sớm hoặc ưu tiên" vẫn còn khá mơ hồ. Liệu Vương quốc Anh có thể thu được các “trọng số” của mô hình—về cơ bản là mạng nơ-ron cơ bản—của những mô hình AI tiên tiến này, qua đó cho phép một hình thức kiểm tra sâu hơn so với chỉ trò chuyện với mô hình thông qua văn bản? Liệu các mô hình này có được chuyển đến phần cứng của chính phủ, đủ an toàn để thử nghiệm xem chúng có chứa kiến thức về các thông tin mật như bí mật hạt nhân hoặc chi tiết về các vũ khí sinh học nguy hiểm hay không? Hay liệu "quyền truy cập" này đơn giản chỉ là một liên kết đến mô hình được lưu trữ trên máy chủ của các công ty, điều đó có thể cho phép nhà phát triển mô hình theo dõi các đánh giá của chính phủ? Chưa ai biết câu trả lời cho những câu hỏi này.
Trong những tuần sau thông báo, mối quan hệ giữa chính phủ Anh và các phòng thí nghiệm AI trở nên căng thẳng. Trong các cuộc đàm phán, chính phủ đã yêu cầu được truy cập toàn diện vào trọng số của các mô hình—một sự chuyển giao hoàn toàn tài sản trí tuệ có giá trị nhất của các phòng thí nghiệm mà họ coi là điều không thể chấp nhận. Việc cung cấp quyền truy cập trọng số cho một chính phủ sẽ mở ra khả năng phải làm điều tương tự với nhiều chính phủ khác—dù đó là chính phủ dân chủ hay không. Đối với các công ty đã chi hàng triệu USD để củng cố an ninh mạng của mình nhằm ngăn chặn các mô hình bị đánh cắp bởi các tác nhân thù địch, yêu cầu này là rất khó chấp nhận.
Rất nhanh sau đó, rõ ràng rằng loại thử nghiệm mà chính phủ Anh muốn thực hiện có thể thực hiện được thông qua giao diện trò chuyện, vì vậy chính phủ đã từ bỏ yêu cầu truy cập trọng số và các quan chức đã thừa nhận riêng rằng việc yêu cầu điều này ngay từ đầu là một sai lầm. Trải nghiệm này đã mang lại bài học đầu tiên về việc quyền lực thực sự nằm ở đâu giữa chính phủ Anh và các công ty công nghệ. Các quan chức tin rằng việc giữ cho các phòng thí nghiệm AI thân thiện và hợp tác quan trọng hơn rất nhiều so với việc đối đầu và mạo hiểm phá hỏng quyền truy cập vào các mô hình, điều mà Viện An toàn AI (AISI) phụ thuộc để thực hiện nhiệm vụ của mình.
Và mặc dù đã thực hiện tất cả các thử nghiệm này, AISI vẫn không—và không thể—chứng nhận rằng các mô hình AI là an toàn. Viện chỉ có thể xác định các nguy cơ. "Khoa học đánh giá hiện tại chưa đủ mạnh để chúng ta tự tin loại bỏ tất cả rủi ro chỉ thông qua các đánh giá này," Irving nói. "Để có thêm niềm tin rằng các hành vi nguy hiểm không tồn tại, cần có nhiều nguồn lực hơn được dành cho lĩnh vực này. Và tôi nghĩ rằng một số thí nghiệm đó, ít nhất là với mức độ truy cập hiện tại, chỉ có thể được thực hiện tại các phòng thí nghiệm." Hiện tại, AISI không có đủ cơ sở hạ tầng, chuyên môn phù hợp, hoặc quyền truy cập vào các mô hình để kiểm tra trọng số của các mô hình tiên tiến nhằm phát hiện các nguy cơ. Khoa học này vẫn còn ở giai đoạn sơ khai và chủ yếu được thực hành sau những cánh cửa đóng kín tại các công ty AI lớn. Tuy nhiên, Irving không loại trừ khả năng sẽ yêu cầu quyền truy cập vào trọng số mô hình một lần nữa nếu AISI phát triển được một đội ngũ có khả năng thực hiện công việc tương tự. "Chúng tôi sẽ yêu cầu lại, quyết liệt hơn, nếu chúng tôi cần quyền truy cập đó trong tương lai," ông nói.
Vào một ngày làm việc điển hình, các nhà nghiên cứu tại AISI không chỉ kiểm tra các nguy cơ mà còn tìm kiếm các loại khả năng cụ thể của AI, vốn có thể trở nên nguy hiểm trong tương lai. Các thử nghiệm không chỉ giới hạn trong việc đánh giá các rủi ro về hóa học, sinh học và mạng. Chúng còn bao gồm đo lường khả năng của hệ thống AI khi hoạt động tự động như các "agent," thực hiện chuỗi hành động liên tiếp; mức độ dễ dàng để "bẻ khóa" một AI, tức là vô hiệu hóa các tính năng an toàn vốn được thiết kế để ngăn AI nói hoặc làm những điều mà người tạo ra không dự định; và khả năng của AI trong việc thao túng người dùng, bằng cách thay đổi niềm tin của họ hoặc khiến họ hành động theo những cách nhất định. Các thử nghiệm gần đây do AISI của Anh và Mỹ phối hợp thực hiện trên một phiên bản của Claude đã phát hiện rằng mô hình này vượt trội hơn tất cả các mô hình khác mà họ từng thử nghiệm trong các nhiệm vụ kỹ thuật phần mềm, vốn có thể giúp tăng tốc nghiên cứu AI. Họ cũng phát hiện rằng các biện pháp bảo vệ được tích hợp trong mô hình có thể "thường xuyên bị vượt qua" thông qua việc bẻ khóa. "Những đánh giá này cung cấp cho chính phủ cái nhìn sâu sắc về các rủi ro đang phát triển tại ranh giới của AI, và một cơ sở thực nghiệm để quyết định liệu, khi nào, và cách thức can thiệp," Leung và Oliver Illott, giám đốc của AISI, viết trong một bài đăng blog vào tháng 11. Hiện tại, Viện đang làm việc để xây dựng một bộ "ngưỡng khả năng" có thể biểu thị các rủi ro nghiêm trọng, mà có thể đóng vai trò như tín hiệu kích hoạt để áp dụng các quy định nghiêm ngặt hơn của chính phủ.
Liệu chính phủ có quyết định can thiệp hay không lại là một câu hỏi hoàn toàn khác. Sunak, người ủng hộ chính trị chính cho AISI, đã thất bại trong một cuộc bầu cử tổng quát lớn vào mùa hè năm 2024. Đảng Bảo thủ của ông, mặc dù đã nhiều lần tỏ ra lo lắng về an toàn AI, chỉ ủng hộ việc điều tiết AI ở mức độ nhẹ, đã bị thay thế bởi một chính phủ Lao động, vốn đã thể hiện sự sẵn sàng cao hơn trong việc lập pháp về AI. Trước cuộc bầu cử, Đảng Lao động đã hứa sẽ ban hành "các quy định ràng buộc đối với một số ít công ty đang phát triển các mô hình AI mạnh nhất," mặc dù các quy định này vẫn chưa được trình lên Quốc hội. Các luật mới cũng có thể yêu cầu các phòng thí nghiệm AI phải chia sẻ thông tin với chính phủ Anh, thay thế cho các thỏa thuận tự nguyện hiện tại. Điều này có thể giúp AISI trở thành một cơ quan có sức mạnh thực thi lớn hơn, giảm bớt sự phụ thuộc vào việc duy trì mối quan hệ thân thiện với các công ty AI. "Chúng tôi muốn duy trì mối quan hệ với các phòng thí nghiệm," Irving nói với TIME về hệ thống hiện tại. "Thật khó để tránh kiểu mối quan hệ này nếu bạn đang hoạt động trong một chế độ hoàn toàn tự nguyện."
Khi không có bất kỳ cơ chế pháp lý nào để buộc các phòng thí nghiệm phải hành động, AISI có thể bị coi—từ một góc nhìn—là một "trợ lý" được tài trợ bởi tiền thuế của người dân cho một số công ty trị giá hàng tỷ USD, những công ty này đơn phương tung ra các AI có thể gây nguy hiểm vào thế giới. Nhưng đối với những người làm việc bên trong AISI, phép tính này rất khác. Họ tin rằng việc xây dựng năng lực AI bên trong một nhà nước—và nuôi dưỡng một mạng lưới các AISI tương tự trên toàn cầu—là điều cần thiết nếu các chính phủ muốn có tiếng nói trong tương lai của công nghệ có thể là mang tính biến đổi nhất trong lịch sử loài người. "Công việc về an toàn AI là một lợi ích công toàn cầu," Ian Hogarth, chủ tịch của viện, nói. "Cơ bản đây là một thách thức toàn cầu, và sẽ không hiệu quả nếu bất kỳ công ty hay quốc gia nào cố gắng tự mình làm điều đó."