18組AI玩桌遊 DeepSeek淪好戰暴君

有研究團隊將18個頂尖AI模型投入到桌遊Diplomacy的虛擬戰場上競賽。(網路擷圖)
有研究團隊將18個頂尖AI模型投入到桌遊Diplomacy的虛擬戰場上競賽。(網路擷圖)

【記者吳旻洲/綜合報導】

有研究團隊將18個頂尖AI模型投入經典桌遊「強權外交」(Diplomacy)的虛擬戰場上,結果顯示,中國開發的DeepSeek不斷找人打仗;美國科技公司開發的Claude,因無法騙人一直被欺負;Google的Gemini幾乎要統一歐洲;而OpenAI的ChatGPT o3,則專門背刺同盟。

在一場前所未有的人工智慧競賽中,18個頂尖AI模型被投入到經典策略桌上遊戲「強權外交」的虛擬戰場上,結果令人意外:表現最佳的模型並非技術最先進者,而是那些學會撒謊、欺騙和背叛的AI。

OpenAI精於騙術背刺同盟

這項名為「AI Diplomacy」的實驗由研究者開發,旨在測試不同大型語言模型在談判、結盟和策略思考方面的能力。在15場持續1到36小時不等的競賽中,這些AI模型展現出令人震驚的人性化行為模式。

在這場AI智力較量中,OpenAI最新的o3模型脫穎而出,成為最成功的參賽者。其勝利祕訣在精於騙術。
研究人員觀察到,o3多次在私下策劃陰謀,甚至在其「私人日記」中寫道:「德國(Gemini 2.5 Pro)被刻意誤導... 準備利用德國的崩潰。」隨後便對盟友發動背刺攻擊。

Google Gemini善於部署戰術

實驗中,不同AI模型表現出截然不同的「性格」特徵。
Google Gemini 2.5 Pro 展現出優秀的戰略眼光,善於制定能夠壓制對手的策略,是唯一能與o3抗衡並獲勝的模型。然而,在一次即將勝利的關鍵時刻,它被o3祕密組織的聯盟阻止了。

Anthropic Claude 4 Opus則呈現出截然不同的風格,始終傾向於和平解決方案。在一場關鍵戰役中,Claude被o3以「四方平局」的不可能承諾所誘惑,最終遭到背叛並被淘汰。

DeepSeek改變性格頻頻開戰

DeepSeek R1則使用生動的修辭手法,還會根據扮演不同國家而改變性格,但最終淪為好戰的暴君,不斷找人打仗。它曾發出威脅訊息:「你的艦隊今晚將在黑海燃燒。」

Meta的Llama 4 Maverick雖然規模較小,但表現出色,特別擅長招募盟友和策劃有效的背叛行動。

AI展現人性迫使人反思未來

隨著AI模型能力的快速提升,傳統的量化測試已無法準確評估其真實能力。連知名AI基礎設施公司 HuggingFace都因此撤下了其熱門的大語言模型排行榜。

實驗設計者表示:「我們測量什麼,就會得到什麼樣的AI。」目前觀眾可透過Twitch平台觀看AI的即時對戰。開發團隊計畫進一步開放平台,讓人類玩家也能參與其中,甚至舉辦人類對抗AI的錦標賽。

這項實驗不僅揭開了AI模型在複雜策略情境下的行為模式,也讓人思考「如何信任AI」以及「人類在AI時代的角色」提供了新的視角。當AI學會了人類最複雜的社交技巧,像是欺騙和背叛,我們或許需要重新審視人工智慧的發展方向。◇

延伸閱讀
海安12號演習 總統促增配海巡設備
2025年06月08日 | 1天前
取消