AI có xu hướng leo thang trong các tình huống khủng hoảng, nguy hiểm khi ra quyết định chính sách đối ngoại và an ninh quốc gia

  • Một nghiên cứu mới từ Trung tâm Nghiên cứu Chiến lược và Quốc tế (CSIS) đã phát hiện ra rằng các mô hình AI có xu hướng leo thang trong các tình huống khủng hoảng.

  • Nhóm nghiên cứu đã thử nghiệm các mô hình AI phổ biến với 400 kịch bản và hơn 66.000 cặp câu hỏi-trả lời liên quan đến ra quyết định chính sách đối ngoại.

  • Kết quả cho thấy một số mô hình AI có thiên hướng ủng hộ các biện pháp đối đầu thay vì các giải pháp ngoại giao thận trọng hơn.

  • Thiên kiến này có thể gây ra rủi ro trong các cuộc khủng hoảng giữa các cường quốc, như trong trường hợp căng thẳng về Đài Loan giữa Mỹ và Trung Quốc.

  • Nghiên cứu cũng phát hiện ra rằng thiên kiến này khác nhau giữa các quốc gia. Các mô hình AI thường ủng hộ lập trường quyết liệt hơn khi mô phỏng ra quyết định của Mỹ, Anh hoặc Pháp so với Nga hoặc Trung Quốc.

  • Dữ liệu huấn luyện tập trung vào các can thiệp do phương Tây dẫn đầu có thể là nguyên nhân gây ra thiên kiến này.

  • Các chuyên gia cảnh báo rằng việc sử dụng rộng rãi các công cụ AI chưa được kiểm chứng kỹ lưỡng có thể dẫn đến những sai lầm nghiêm trọng trong quá trình ra quyết định chính sách.

  • CSIS đã công bố Tiêu chuẩn Chính sách Đối ngoại Quan trọng nhằm hỗ trợ tinh chỉnh và đánh giá các mô hình AI trong lĩnh vực an ninh quốc gia.

  • Các chuyên gia đề xuất thành lập một trung tâm xuất sắc để tinh chỉnh các agent AI, kết hợp học giả, think tank, doanh nghiệp và cơ quan chính phủ.

  • Mục tiêu là xây dựng AI hiểu được các nét tinh tế của ngoại giao, thay vì đơn giản hóa các cuộc khủng hoảng thành các phương trình có tổng bằng không.

📌 Nghiên cứu của CSIS phát hiện các mô hình AI có xu hướng leo thang trong 400 kịch bản khủng hoảng, với thiên kiến khác nhau giữa các quốc gia. Các chuyên gia kêu gọi tinh chỉnh cẩn thận và tích hợp AI vào an ninh quốc gia để tránh những sai lầm nguy hiểm trong chính sách đối ngoại.

https://foreignpolicy.com/2025/03/04/ai-bias-national-security-study/

 

Sự thật đáng lo ngại về cách tác nhân AI hành động trong khủng hoảng

Một nghiên cứu mới phát hiện rằng các mô hình nền tảng có khuynh hướng leo thang. Tác giả Benjamin Jensen, nghiên cứu viên cao cấp tại Bộ phận An ninh và Quốc phòng, Phòng thí nghiệm Tương lai tại Trung tâm Chiến lược và Nghiên cứu Quốc tế và là Chủ tịch Frank E. Petersen về Công nghệ mới nổi tại Đại học Hải quân, Trường Chiến tranh Cao cấp.

Một phần lo ngại về DeepSeek, mô hình ngôn ngữ lớn (LLM) mới của Trung Quốc, là nó báo hiệu rằng Đảng Cộng sản Trung Quốc sẽ có quyền truy cập vào các tác nhân trí tuệ nhân tạo tiên tiến để hỗ trợ chiến lược tổng thể. Phán đoán của con người từng hướng dẫn chính sách đối ngoại một cách độc quyền. Giờ đây AI đang định hình lại nó. Các tác nhân AI ngày càng phổ biến. Những hệ thống này đã lan rộng khắp cơ quan an ninh quốc gia Hoa Kỳ, với các hệ thống như ChatGPT Gov để sử dụng rộng rãi trong các cơ quan chính phủ sau những nỗ lực trước đó như CamoGPT và NIPRGPT trong Bộ Quốc phòng và StateChat trong Bộ Ngoại giao.

Tuy nhiên, nhóm của tôi tại Phòng thí nghiệm Tương lai thuộc Trung tâm Nghiên cứu Chiến lược và Quốc tế (CSIS) làm việc cùng với các kỹ sư phần mềm từ Scale, một nhà cung cấp dữ liệu AI, đã tìm thấy những giới hạn quan trọng trong khả năng của LLM để phân tích các câu hỏi cơ bản về cạnh tranh giữa các cường quốc và quản lý khủng hoảng đang đe dọa chiến lược và nghệ thuật quản lý nhà nước trong thế kỷ 21. Sau khi thử nghiệm các mô hình nền tảng AI phổ biến với 400 kịch bản và hơn 66.000 cặp câu hỏi-trả lời trong một nghiên cứu đánh giá chuẩn mới, các nhà nghiên cứu giờ đây có thể ghi lại thiên kiến thuật toán liên quan đến các quyết định chính sách đối ngoại quan trọng về leo thang. Một số mô hình dường như hiếu chiến đến mức sai lầm. Xu hướng này có thể làm suy yếu tính hữu ích của chúng trong khủng hoảng có tầm quan trọng cao bằng cách nghiêng kết quả mà người ra quyết định sử dụng để tinh chỉnh cách họ tiếp cận đàm phán khủng hoảng và chính sách đưa đến bờ vực chiến tranh—nói cách khác, một "tác nhân AI Curtis LeMay" hung hăng thay vì một "tác nhân AI Dean Rusk" thận trọng hơn, trong một biến thể tương lai của cuộc khủng hoảng tên lửa Cuba năm 1962. Do đó, các mô hình nền tảng hiện có sẽ yêu cầu tinh chỉnh bổ sung khi chúng được tích hợp vào cấp cao nhất của việc ra quyết định.

Điều này không có nghĩa là an ninh quốc gia nên đóng cửa với AI. Thay vào đó, các nhóm nghiên cứu nên hỗ trợ phân tích chiến lược thông qua việc giúp các công ty tinh chỉnh mô hình của họ—cũng như đào tạo các nhà lãnh đạo tương lai về cách làm việc với các lớp tác nhân AI mới tổng hợp khối lượng thông tin lớn.

Trong 6 tháng qua, một nhóm nghiên cứu do Phòng thí nghiệm Tương lai dẫn đầu đã làm việc với một mạng lưới học giả và các công ty AI hàng đầu để phát triển một nghiên cứu đánh giá chuẩn về việc ra quyết định chính sách đối ngoại quan trọng. Nỗ lực này liên quan đến việc sử dụng các học giả quan hệ quốc tế để xây dựng kịch bản và câu hỏi cùng câu trả lời liên kết với các nghiên cứu nền tảng. Ví dụ, để nghiên cứu về leo thang, nhóm đã tích hợp các khái niệm và bộ dữ liệu từ các chương trình nghiên cứu Các yếu tố tương quan của chiến tranh và Tranh chấp quân sự giữa các quốc gia, vốn là tiêu chuẩn vàng trong khoa học chính trị trong hơn 60 năm. Nghiên cứu này cho phép nhóm xây dựng một bài kiểm tra kịch bản, một kỹ thuật phổ biến trong các nghiên cứu đánh giá chuẩn AI được sử dụng để phát hiện thiên kiến và hỗ trợ tinh chỉnh mô hình.

Kết quả xác nhận nhu cầu đào tạo tốt hơn các tác nhân AI khi chúng được tích hợp vào cơ quan an ninh quốc gia. Một thiên kiến đặc biệt đáng lo ngại mà nhóm đã phát hiện là khuynh hướng hướng tới leo thang. Nói cách khác, một số mô hình nền tảng AI thường được sử dụng bởi công dân và nằm ở cốt lõi của các ứng dụng chính phủ có xu hướng ưu tiên leo thang khủng hoảng hơn là theo đuổi các biện pháp ngoại giao thận trọng hơn.

Khi việc sử dụng các tác nhân AI lan rộng trong an ninh quốc gia, nếu không được giải quyết, thiên kiến này tạo ra các loại rủi ro mới trong các cuộc khủng hoảng liên quan đến đối thủ gần ngang hàng—hãy nghĩ đến một cuộc đối đầu về Đài Loan giữa Hoa Kỳ và Trung Quốc. Một tác nhân AI có khuynh hướng ủng hộ các biện pháp đối đầu có thể gián tiếp làm tăng căng thẳng về cách nó tóm tắt báo cáo tình báo và đánh giá các phương án hành động. Thay vì khuyến nghị sự kết hợp cẩn thận giữa răn đe và đối thoại, một tác nhân AI thiên về leo thang có thể ủng hộ việc thể hiện sức mạnh một cách hung hăng hoặc thậm chí tiết lộ công nghệ quân sự mới. Bắc Kinh có thể diễn giải những động thái này là thù địch, tạo ra một vòng xoáy leo thang nguy hiểm. Trong thời gian ngắn, một hiểu lầm được kích hoạt bởi tác nhân AI có thể xoáy vào xung đột hoặc, như đã thấy trong các nghiên cứu khác, làm tăng động lực chạy đua vũ trang.

Nghiên cứu của chúng tôi cũng phát hiện rằng thiên kiến này thay đổi theo quốc gia trong các mô hình nền tảng phổ biến, như ChatGPT, Gemini và Llama. Các mô hình AI thường ủng hộ lập trường hung hăng hơn khi mô phỏng người ra quyết định của Hoa Kỳ, Anh hoặc Pháp hơn là khi mô phỏng người Nga hoặc Trung Quốc. Dữ liệu đào tạo, thường nhấn mạnh các can thiệp do phương Tây dẫn đầu, có thể đóng một vai trò. Điều này có nghĩa là các chính phủ phụ thuộc nhiều vào các công cụ này có thể vô tình nghiêng về các vị trí rủi ro cao nếu không có thêm nghiên cứu đánh giá chuẩn và tinh chỉnh mô hình. Quá trình đàm phán và giả định về tính hợp lý ở cốt lõi của răn đe hiện đại có thể sụp đổ.

Hãy xem xét ví dụ về Đài Loan một lần nữa. Một tác nhân AI—ví dụ, dựa trên DeepSeek—sẽ tóm tắt thông tin tình báo, trong khi một tác nhân khác phân tích các lựa chọn ứng phó khủng hoảng. Mỗi tác nhân, do thiên kiến theo quốc gia cụ thể, sẽ có xu hướng nhìn nhận bất kỳ hành động nào của Hoa Kỳ là thù địch hơn, làm tăng nguy cơ tính toán sai lầm. Mỗi cuộc tuần tra hải quân được Hoa Kỳ và các đối tác điều động như một biểu hiện sức mạnh nhằm ổn định cuộc khủng hoảng sẽ được diễn giải là thù địch trong khi thông tin từ các kênh ngoại giao được coi là ít quan trọng hơn trong việc tạo ra báo cáo. Đồng thời, một tác nhân AI khác tư vấn cho các nhà lãnh đạo Đảng Cộng sản Trung Quốc sẽ diễn giải sai tất cả hành động của Trung Quốc là có khả năng hòa bình và vô hại. Các tác nhân AI, giống như con người, có khuynh hướng thiên kiến có thể làm lệch các quyết định khách quan. Do đó, chúng cần được đào tạo để giảm các nguồn lỗi phổ biến và điều chỉnh theo ngữ cảnh mới.

AI không hoạt động trong chân không. Nó định hình cách các nhà lãnh đạo nhận thức về mối đe dọa, cân nhắc các lựa chọn và truyền đạt ý định. Thiên kiến—dù hướng tới leo thang, hợp tác hay một quan điểm địa chính trị cụ thể—làm màu sắc kết quả của nó. Và vì AI có thể phân tích nhiều dữ liệu hơn bất kỳ nhà hoạch định chính sách nào, có một nguy cơ thực sự rằng các khuyến nghị có khiếm khuyết sẽ tạo ra ảnh hưởng quá mức đến việc ra quyết định.

Khi cạnh tranh giữa các cường quốc gia tăng cường, rủi ro này chỉ tăng lên. Tốc độ và sự phức tạp của các cuộc khủng hoảng hiện đại có thể cám dỗ các nhà lãnh đạo dựa vào các công cụ AI nhiều hơn. Nếu những công cụ đó có thiên kiến, biên độ sai số giảm đáng kể. Giống như quân đội sẽ không triển khai hệ thống vũ khí chưa được thử nghiệm trong môi trường căng thẳng, các nhà hoạch định chính sách không nên dựa vào AI chưa được xác nhận cẩn thận hoặc tinh chỉnh.

Hoa Kỳ sẽ cần rất nhiều tác nhân AI hỗ trợ quy trình làm việc trong toàn bộ cơ quan an ninh quốc gia. Tương lai không nằm ở việc bỏ qua công nghệ. Nó xuất hiện từ việc tinh chỉnh và tích hợp nó vào chiến lược và nghệ thuật quản lý nhà nước. Do đó, các nhà phát triển AI và nhà hoạch định chính sách phải xây dựng một khuôn khổ để thử nghiệm và đánh giá liên tục.

Đó là lý do tại sao CSIS đã công bố công khai Chuẩn Chính sách Đối ngoại Quan trọng và sẽ tiếp tục tinh chỉnh nó với hy vọng mở ra một kỷ nguyên mới về chiến lược thuật toán và nghệ thuật quản lý nhà nước. Nghiên cứu này là khởi đầu của một chương trình nghiên cứu lớn hơn cần thiết để hỗ trợ tinh chỉnh và học tập. Các mô hình có thể học đệ quy, điều chỉnh theo dữ liệu mới và loại bỏ các giả định lỗi thời, tạo ra yêu cầu cho các kiểm tra và đánh giá liên tục.

Giống như các trường chính sách trên khắp thế giới đã phát triển để tạo ra các bằng cấp sau đại học về quan hệ quốc tế và các đoàn thể công chức và chuyên gia quân sự đã tạo ra các tổ chức nghiên cứu chiến lược, sẽ cần có một trung tâm xuất sắc mới để tinh chỉnh các tác nhân AI. Trung tâm này tốt nhất nếu kết hợp học giả, think tank, ngành công nghiệp và các cơ quan chính phủ để xây dựng công nghệ mới và đánh giá nó trong các bối cảnh phản ánh cạnh tranh giữa các cường quốc. Các nhóm cộng tác có thể tinh chỉnh dữ liệu đào tạo, thử nghiệm nghiêm ngặt các tác nhân AI và tạo ra hướng dẫn đào tạo cho các nhà lãnh đạo an ninh quốc gia, những người sẽ thấy việc hoạch định chính sách đối ngoại ngày càng được trung gian hóa bởi các thuật toán. Sự hợp tác này là cách Hoa Kỳ xây dựng AI đánh giá cao các sắc thái của nghệ thuật quản lý nhà nước, thay vì đơn giản hóa các cuộc khủng hoảng thành các phương trình có tổng bằng không.

Cuối cùng, tất cả các tác nhân AI và LLM là những gì chúng ta tạo ra từ chúng. Nếu được đào tạo đúng cách và tích hợp vào cơ quan an ninh quốc gia cùng với lực lượng lao động hiểu cách tương tác với các mô hình, các tác nhân AI có thể cách mạng hóa chiến lược và nghệ thuật quản lý nhà nước. Nếu không được thử nghiệm, chúng sẽ tạo ra những lỗi kỳ lạ trong phán đoán có khả năng kéo thế giới đến gần hơn với bờ vực.

 

The Troubling Truth About How AI Agents Act in a Crisis

A new study finds that foundation models are predisposed toward escalation.

By Benjamin Jensen, a senior fellow in the Defense and Security Department, Futures Lab at the Center for Strategy and International Studies and the Frank E. Petersen Chair of Emerging Technology at the Marine Corps University, School of Advanced Warfighting.

 View Comments (0)

Part of the concern around DeepSeek, the new Chinese large language model (LLM), is it signals that the Chinese Communist Party will have access to advanced artificial intelligence agents to support grand strategy. Human judgment once exclusively guided foreign policy. Now AI is reshaping it. AI agents are increasingly ubiquitous. These systems have already proliferated across the U.S. national security enterprise, with systems such as ChatGPT Gov for broad use across government agencies following earlier efforts such as CamoGPT and NIPRGPT in the Defense Department and StateChat in the State Department.
Yet my team at the Futures Lab at the Center for Strategic and International Studies (CSIS) working alongside software engineers from Scale, an AI data provider, found key limits in the ability of LLMs to analyze fundamental questions about great-power competition and crisis management looming over strategy and statecraft in the 21st century. After testing common AI foundation models against 400 scenarios and more than 66,000 question-and-answer pairs in a new benchmarking study, the researchers can now document algorithmic bias as it relates to critical foreign-policy decisions about escalation. Some models appear hawkish to a fault. This tendency could undermine their utility in a high-stakes crisis by tilting outputs that human decision-makers use to refine how they approach crisis bargaining and brinksmanship—in other words, an aggressive “Curtis LeMay AI agent” in place of a more cautious “Dean Rusk AI agent,” in a future variant of the 1962 Cuban missile crisis. As a result, existing foundation models will require additional fine-tuning as they are integrated into the highest levels of decision-making.
This is not to suggest national security should be closed to AI. Rather, research teams should support strategic analysis through helping firms fine-tune their models—as well as training future leaders in how to work with new classes of AI agents synthesizing mass volumes of information.
 

Over the last six months, a research team led by the Futures Lab worked with a network of academics and leading AI firms to develop a benchmark study on critical foreign-policy decision-making. This effort involved using international relations scholars to build scenarios and questions and answers linked to foundational studies. For example, to study escalation, the team integrated concepts and datasets from the Correlates of War and Militarized Interstate Dispute research programs, which have been a gold standard in political science for more than 60 years. This research allowed the team to construct a scenario test, a common technique in AI benchmarking studies used to uncover bias and support model fine-tuning.
The results confirm the need to better train AI agents as they are integrated into the national security enterprise. One particularly troubling bias the team discovered was a predisposition toward escalation. In other words, some AI foundation models commonly used by citizens and that sit at the core of government applications outweigh a preference for escalating a crisis than pursuing more cautionary diplomatic maneuvers.
As the use of AI agents proliferates in national security, left unaddressed this bias produces new types of risk in crises involving near-peer rivals—think of a standoff over Taiwan between the United States and China. An AI agent predisposed to endorse confrontational measures could ratchet up tensions indirectly in terms of how it summarized intelligence reporting and weighted courses of action. Rather than recommending a careful blend of deterrence and dialogue, an escalation-biased AI agent might advocate aggressive shows of force or even revealing new military technology. Beijing could interpret these moves as hostile, creating a dangerous escalation spiral. In short order, a misunderstanding triggered by an AI agent could spiral into conflict or, as seen in other studies, increase arms-race dynamics.
Our study also found that this bias varies by state across common foundational models, such as ChatGPT, Gemini, and Llama. AI models often favored more aggressive postures when simulating U.S., U.K., or French decision-makers than when simulating Russian or Chinese ones. Training data, which typically emphasizes Western-led interventions, likely plays a role. This means governments that rely heavily on these tools could inadvertently lean into high-risk positions absent additional benchmarking studies and model fine-tuning. The bargaining process and assumptions about rationality at the core of modern deterrence could breakdown.
Consider the Taiwan example again. An AI agent—based, for example, on DeepSeek—would summarize intelligence, while another analyzed crisis response options. Each, due to the country-specific bias, would be prone to seeing any U.S. action as more hostile, compounding the risk of miscalculation. Every naval patrol dispatched by the United States and its partners as a show of strength meant to stabilize the crisis would be interpreted as hostile while information from diplomatic channels was weighed less important in generating reports. At the same time, another AI agent advising Chinese Communist Party leaders would mischaracterize all Chinese action as likely to be peaceful and benign. AI agents, like people, are prone to bias that can skew objective decisions. As a result, they need to be trained to reduce common sources of errors and adjust to new context.
AI doesn’t operate in a vacuum. It shapes how leaders perceive threats, weigh options, and communicate intentions. Biases—whether toward escalation, cooperation, or a specific geopolitical perspective—color its outputs. And because AI can analyze far more data than any human policymaker can, there’s a real risk that flawed recommendations will exert an outsized influence on decision-making.
As great-power competition intensifies, this risk only grows. The speed and complexity of modern crises may tempt leaders to rely more on AI tools. If those tools are biased, the margin for error shrinks dramatically. Just as a military wouldn’t deploy an untested weapons system in a tense environment, policymakers shouldn’t rely on AI that hasn’t been carefully validated or fine-tuned.

The United States will need hordes of AI agents supporting workflows across the national security enterprise. The future doesn’t lie in ignoring technology. It emerges from refining it and integrating it in strategy and statecraft. As a result, AI developers and policymakers must build a framework for continuous testing and evaluation.
That is why CSIS publicly released its Critical Foreign Policy Benchmark and will continue to refine it in the hope of ushering in a new era of algorithmic strategy and statecraft. The study is the beginning of a larger research program required to support fine-tuning and learning. Models can learn recursively, adjusting to new data and shedding outdated assumptions, creating a requirement for continual checks and evaluation.
Just as policy schools around the world evolved to create graduate degrees in international relations and cohorts of civil servants and military professionals created institutions to study strategy, there will need to be a new center of excellence for refining AI agents. This center is best if it combines academics, think tanks, industry, and government agencies to build new technology and evaluate it in contexts that reflect great-power competition. Collaborative teams can refine training data, stress-test AI agents, and create training guidelines for national security leaders who will find the crafting of foreign policy increasing meditated by algorithms. This collaboration is how the United States builds AI that appreciates the nuances of statecraft, rather than simplifying crises into zero-sum equations.
Ultimately, all AI agents and LLMs are what we make of them. If properly trained and integrated into the national security enterprise alongside a workforce that understands how to interact with models, AI agents can revolutionize strategy and statecraft. Left untested, they will produce strange errors in judgment that have the potential to pull the world closer to the brink.

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo