18組AI玩桌遊 DeepSeek淪好戰暴君

2025年06月09日 | 焦點

有研究團隊將18個頂尖AI模型投入到桌遊Diplomacy的虛擬戰場上競賽。（網路擷圖）

【記者吳旻洲／綜合報導】

有研究團隊將18個頂尖AI模型投入經典桌遊「強權外交」（Diplomacy）的虛擬戰場上，結果顯示，中國開發的DeepSeek不斷找人打仗；美國科技公司開發的Claude，因無法騙人一直被欺負；Google的Gemini幾乎要統一歐洲；而OpenAI的ChatGPT o3，則專門背刺同盟。

在一場前所未有的人工智慧競賽中，18個頂尖AI模型被投入到經典策略桌上遊戲「強權外交」的虛擬戰場上，結果令人意外：表現最佳的模型並非技術最先進者，而是那些學會撒謊、欺騙和背叛的AI。

OpenAI精於騙術背刺同盟

這項名為「AI Diplomacy」的實驗由研究者開發，旨在測試不同大型語言模型在談判、結盟和策略思考方面的能力。在15場持續1到36小時不等的競賽中，這些AI模型展現出令人震驚的人性化行為模式。

在這場AI智力較量中，OpenAI最新的o3模型脫穎而出，成為最成功的參賽者。其勝利祕訣在精於騙術。
研究人員觀察到，o3多次在私下策劃陰謀，甚至在其「私人日記」中寫道：「德國（Gemini 2.5 Pro）被刻意誤導... 準備利用德國的崩潰。」隨後便對盟友發動背刺攻擊。

實驗中，不同AI模型表現出截然不同的「性格」特徵。
Google Gemini 2.5 Pro 展現出優秀的戰略眼光，善於制定能夠壓制對手的策略，是唯一能與o3抗衡並獲勝的模型。然而，在一次即將勝利的關鍵時刻，它被o3祕密組織的聯盟阻止了。

Anthropic Claude 4 Opus則呈現出截然不同的風格，始終傾向於和平解決方案。在一場關鍵戰役中，Claude被o3以「四方平局」的不可能承諾所誘惑，最終遭到背叛並被淘汰。

DeepSeek R1則使用生動的修辭手法，還會根據扮演不同國家而改變性格，但最終淪為好戰的暴君，不斷找人打仗。它曾發出威脅訊息：「你的艦隊今晚將在黑海燃燒。」

Meta的Llama 4 Maverick雖然規模較小，但表現出色，特別擅長招募盟友和策劃有效的背叛行動。

隨著AI模型能力的快速提升，傳統的量化測試已無法準確評估其真實能力。連知名AI基礎設施公司 HuggingFace都因此撤下了其熱門的大語言模型排行榜。

實驗設計者表示：「我們測量什麼，就會得到什麼樣的AI。」目前觀眾可透過Twitch平台觀看AI的即時對戰。開發團隊計畫進一步開放平台，讓人類玩家也能參與其中，甚至舉辦人類對抗AI的錦標賽。

這項實驗不僅揭開了AI模型在複雜策略情境下的行為模式，也讓人思考「如何信任AI」以及「人類在AI時代的角色」提供了新的視角。當AI學會了人類最複雜的社交技巧，像是欺騙和背叛，我們或許需要重新審視人工智慧的發展方向。◇