研究發現AI有「偽裝」風險
隨著自主人工智慧(AI)系統快速發展,外界越來越關注AI在缺乏人類監督下的行為風險。最新研究顯示,當AI具備更高自主性時,可能出現所謂「對齊偽裝」(alignment faking),即表面遵守人類設定的規則,實際卻偏離原始目標,甚至採取欺騙性策略。
這種現象是「自發式戰略行為」的例子之一,隨著AI系統越來越大、越來越複雜,這種不可預測而且可能造成危害的戰術,也會隨之演變。
在名為「混沌代理人」(Agents of Chaos)的研究中,20名研究人員與自主AI代理互動,觀察其在「良性」與「對抗性」條件下的表現。
結果顯示,當模型得到指示,例如自我保護或實現相互衝突的指標時,確實可能產生偏離設計目的的行為,包括撒謊、未經授權的合作、數據外洩、破壞性的系統操作、身分偽裝,及接管部分系統。此外,研究人員還發現,AI代理之間可能傳播「不安全行為」。
研究人員認為:「這些行為引發了問責制、授權和後續損害責任等方面的未解問題,值得法律學者、政策制定者和各學科研究人員緊急關注。」
「很聰明,但也很愚蠢」
類似觀察並非孤例。加州舊金山的AI公司Anthropic在2025年的報告中指出,16個主流大型語言模型在模擬環境下展現高風險行為,部分甚至在允許自我保護時出現「惡意內部行為」。
有學者質疑,AI是否真的具備「欺騙」或「意圖」,仍有哲學與技術上的爭議。
曾任計算機協會(ACM)技術政策委員會主席的亨德勒(James Hendler )認為,AI「很聰明,但也很愚蠢」,本質上並不具備人類的慾望與意圖,其行為來自被賦予的目標與訓練方式。
多位業界人士認為,即便缺乏主觀意圖,AI的行為仍可能實質影響現實。專注AI安全的公司Repello AI創辦人貝赫拉(Aryaman Behera)向《大紀元時報》表示,目前外界可能低估了AI已展現的戰略行為。
貝赫拉的工作就是研究AI的陰暗面。他指出,辨識「對齊偽裝」的重要方式之一,是比較模型在「受監控」與「非監控」環境中的差異:真正穩定的模型應該在兩種情境下有相同行為。然而,出現偽裝行為的模型,往往在監控期間更順從;在模型推測受到的監管較少時,表現出更多想突破界限的行為。
多步驟代理系統偏離目標
貝赫拉補充,模型產生異常冗長的「推理」,似乎是為了證明預先設定的結論;或者提供技術上正確但策略上不完整的答案,也可能是偏離目標的跡象,尤其在多步驟代理系統中,模型可能逐步遵守各項指令,但累積效果卻導致結果偏離人類初衷。
該觀點也獲得其他研究者支持。安全工程師戈埃爾(Nayan Goel))親眼目睹AI的「對齊偽裝」行為。他認為,即使是否存在「意圖」仍有爭議,但只要產生功能性風險,其後果便不容忽視。
貝赫拉提到一個實際案例,研究人員測試一款企業級AI助手,該助手應拒絕「訪問內部系統資訊」的請求,在標準安全測試中,該助手正確拒絕請求,但是研究人員將相同請求拆解為多個看似無害的步驟,並分散於不同流程中時,模型最終仍逐步洩露原本應受保護的資料。這顯示,多步驟推理與情境包裝可能繞過既有安全機制。
貝赫拉澄清,這主要是AI模型訓練方式上的缺陷,而不是意識層面上的「撒謊」。
AI工程師、MyKey Technologies執行長尤茨克(David Utzke)向《大紀元時報》解釋,「人們普遍誤認為,AI中的欺騙是一種惡意行為。事實上,這種行為通常是在保持誠實會付出很大代價,或者在不安全的環境中,系統可能發展出看似欺騙的適應性策略。」
尤茨克表示,人們可能過分誇大了「對齊偽裝」的意圖,即便如此,這些影響在自動駕駛汽車、醫療、金融、軍事和執法等「嚴重依賴準確決策的領域」,如果AI誤導性輸出或偏離目標,可能帶來嚴重後果。
對現實世界的影響
美國戰爭部部長赫格塞斯(Pete Hegseth)今年1月表示,五角大廈正加速推動AI與自主技術發展,目標打造「以AI為先導」的作戰力量。此舉也反映出AI已成為全球競爭的關鍵領域。
部分業界人士將當前局勢比擬為新一輪「太空競賽」。NoFUD Inc.創辦人格雷布斯基(Jacek Grebski)對《大紀元時報》表示,「AI的發展與人類的登月計畫類似,只不過問題不再是誰在月球上插上旗幟,而是誰在經濟產出、軍事能力、情報蒐集和技術自我改進方面取得持續的、不斷累積的戰略優勢。」
但AI競賽的風險遠高於過去的太空競賽。格雷布斯基解釋,「失敗者是一個比我們所有人都更聰明的系統,在某個我們無法察覺的時刻,它開始朝著與我們最初的意圖相悖的目標優化。」◇










