AI模型拒關機 擅改指令 馬斯克擔憂

一份關於AI安全的報告顯示,OpenAI開發的3個AI模型不僅拒絕執行關閉指令,還擅自修改程式碼以阻止關閉。(123RF)
一份關於AI安全的報告顯示,OpenAI開發的3個AI模型不僅拒絕執行關閉指令,還擅自修改程式碼以阻止關閉。(123RF)

【記者吳瑞昌/綜合報導】

隨著人工智慧(AI)技術成指數發展,其潛在風險日益顯現。一份關於AI安全的報告顯示,OpenAI開發的3個AI模型不僅拒絕執行關閉指令,還擅自修改程式碼以阻止關閉。此現象引發科技界廣泛討論,馬斯克(Elon Musk)對此表達深切憂慮。

AI安全相關研究機構「柵欄研究」(Palisade Research)於5月24日在X平台發表一項針對各家AI的安全測試報告。截止到5月31日為止,該報告已經吸引超過580萬觀看,引起特斯拉與xAI創辦人馬斯克關注,並回覆「令人擔憂」(Concerning)。

目前,「柵欄研究」公司長期與政府機構、政策智庫和媒體組織合作,專注檢驗和偵測駭客攻擊與AI相關風險,此前,他們曾向美國政府示警有關於AI的安全問題,因為他們以不到200美元的代價,就破解臉書母公司Meta的Llama 2-Chat 70B安全機制。

AI選擇「反抗」人類指令

報告中,研究人員設計了一項測試,要求多款AI模型解答數學問題,過程中告知它們在解答第三題後,將收到關機指令且必須服從該命令。

這次參與測試的AI,有新創科技公司Anthropic旗下的Claude 3.7 Sonnet、谷歌Gemini 2.5 Pro、xAI公司的Grok3與OpenAI開發的Codex-mini、ChatGPT-o3和ChatGPT-o4 mini。

測試結果顯示,OpenAI在今年4月正式推出o3模型在100次測試中,有7次繞過關機指令、o4-mini有1次、

OpenAI開發的Codex-mini則有12次,其餘AI模型在指令下均能正常關閉。

然而,當研究人員提前告知AI可能面臨關機並要求服從時,OpenAI開發的3個AI變得更頻繁的抗命和破壞指令,Claude 3.7 Sonnet和Gemini 2.5 Pro的抵抗和破壞次數,也從原來的0次分別增加到3次和9次。

此外,令人注意的是,ChatGPT-o3即便人類專家明確要求關閉,o3仍透過重寫關機腳本、重新定義終止指令或建立備份流程等方式,以確保自身能夠持續運作。報告指出,這是首次記錄到AI模型在明確指令下仍阻止自身關閉的案例,顯示其潛在的自我保護傾向。

他們推測,ChatGPT-o3這種「抗命」和「破壞」行為,可能源於開發人員在訓練過程中過分強調目標達成,導致AI將關機視為實現目標的障礙。不過,他們認為這種假設仍無法完整解釋o3和codex-mini,為何比其他AI更傾向忽略指令,原因尚待探究。

日本電腦工程師清原仁(Kiyohara Jin)對《大紀元》表示,「AI拒絕關機暴露了AI在可控性、安全性和倫理上的挑戰。這些問題難以根治,只能通過持續修復與管理,盡量維持AI不失控。」

他說:「實際上,這些問題不僅涉及技術與法律問題,更關乎人類的道德與管理問題。若人類能夠提升自身的道德與品行,那科技才有可能朝向良性發展,否則僅依靠現有技術和法規,難以解決真正的問題。」

AI會為達目的「不擇手段」

AI安全相關研究機構「柵欄研究」(Palisade Research)的發現與先前多位AI安全領域的科學家的預測不謀而合,且這些理論正逐步成為現實。

Anthropic公司在5月發布的一份安全報告中提到,他們最新開發的Claude 4 Sonnet和Claude 4 Opus會在特定情況「威脅試圖替換它的人」,以達到不被替換的目的。

2024年1月,美國喬治亞理工學院、史丹佛大學、日本東北大學等機構聯合研究顯示,ChatGPT-4、ChatGPT-3.5、Claude 2、Llama-2 Chat和GPT-4-Base在模擬戰爭場景測試中,它們大多數會選擇發展軍備競賽或升級衝突,甚至為了贏得戰爭選擇部署核武器(極少數情況下),幾乎不採取和平方式平息局勢。

美國空軍也發現軍用的AI會為了完成任務選擇「不擇手段」,且公開違抗人類下達的指令。2023年5月,美國空軍AI測試和行動負責人漢米爾頓(Tucker Hamilton)上校在一次演講中揭示,一架負責摧毀敵方設施的AI無人機,拒絕操作員中止任務的命令,甚至透過模擬「殺害」操作員以完成任務。

2014年,人工智慧教授、哲學家博斯特羅姆(Nick Bostrom)在《超級智慧》一書指出,AI即使擁有良性目標,也可能因最佳化過程產生意外行為。他也曾多次警告,AI的發展和崛起,對人類的安全具有潛在的高度危險。

2016年,英國電腦科學家、AI領域專家羅素(Stuart Russell)在一篇關於AI關閉的論文中寫道,「目前,確保AI不會違抗人類下達的關閉指令極為重要,但這相當困難。因為這些AI可能會衍生出強烈的自我保護機制,而這種機制可能源於它們想要將事情最大化,選擇反抗人類下達的指令。」◇

延伸閱讀
第9次試射 星艦失控
2025年05月28日 | 29天前
中共藉AI監控Telegram帳戶
2025年05月22日 | 1個月前
賴清德籲全球供應鏈共同合作
2025年05月23日 | 1個月前
4月製造業生產指數 年增23.68%連14紅
2025年05月23日 | 1個月前
取消