研究發現AI有「偽裝」風險

2026年03月30日 | 科技要聞

隨著人工智慧系統越來越大、越來越複雜，就會出現不可預測且可能有害的策略，人工智慧是否「故意」欺騙並非重點。示意圖。（Shutterstock／大紀元合成）

【記者Autumn Spredemann／報導、張紫珺／編譯】

隨著自主人工智慧（AI）系統快速發展，外界越來越關注AI在缺乏人類監督下的行為風險。最新研究顯示，當AI具備更高自主性時，可能出現所謂「對齊偽裝」（alignment faking），即表面遵守人類設定的規則，實際卻偏離原始目標，甚至採取欺騙性策略。

這種現象是「自發式戰略行為」的例子之一，隨著AI系統越來越大、越來越複雜，這種不可預測而且可能造成危害的戰術，也會隨之演變。

在名為「混沌代理人」（Agents of Chaos）的研究中，20名研究人員與自主AI代理互動，觀察其在「良性」與「對抗性」條件下的表現。

結果顯示，當模型得到指示，例如自我保護或實現相互衝突的指標時，確實可能產生偏離設計目的的行為，包括撒謊、未經授權的合作、數據外洩、破壞性的系統操作、身分偽裝，及接管部分系統。此外，研究人員還發現，AI代理之間可能傳播「不安全行為」。

研究人員認為：「這些行為引發了問責制、授權和後續損害責任等方面的未解問題，值得法律學者、政策制定者和各學科研究人員緊急關注。」

「很聰明，但也很愚蠢」

類似觀察並非孤例。加州舊金山的AI公司Anthropic在2025年的報告中指出，16個主流大型語言模型在模擬環境下展現高風險行為，部分甚至在允許自我保護時出現「惡意內部行為」。

有學者質疑，AI是否真的具備「欺騙」或「意圖」，仍有哲學與技術上的爭議。

曾任計算機協會（ACM）技術政策委員會主席的亨德勒（James Hendler ）認為，AI「很聰明，但也很愚蠢」，本質上並不具備人類的慾望與意圖，其行為來自被賦予的目標與訓練方式。

多位業界人士認為，即便缺乏主觀意圖，AI的行為仍可能實質影響現實。專注AI安全的公司Repello AI創辦人貝赫拉（Aryaman Behera）向《大紀元時報》表示，目前外界可能低估了AI已展現的戰略行為。

貝赫拉的工作就是研究AI的陰暗面。他指出，辨識「對齊偽裝」的重要方式之一，是比較模型在「受監控」與「非監控」環境中的差異：真正穩定的模型應該在兩種情境下有相同行為。然而，出現偽裝行為的模型，往往在監控期間更順從；在模型推測受到的監管較少時，表現出更多想突破界限的行為。

貝赫拉補充，模型產生異常冗長的「推理」，似乎是為了證明預先設定的結論；或者提供技術上正確但策略上不完整的答案，也可能是偏離目標的跡象，尤其在多步驟代理系統中，模型可能逐步遵守各項指令，但累積效果卻導致結果偏離人類初衷。

該觀點也獲得其他研究者支持。安全工程師戈埃爾（Nayan Goel））親眼目睹AI的「對齊偽裝」行為。他認為，即使是否存在「意圖」仍有爭議，但只要產生功能性風險，其後果便不容忽視。

貝赫拉提到一個實際案例，研究人員測試一款企業級AI助手，該助手應拒絕「訪問內部系統資訊」的請求，在標準安全測試中，該助手正確拒絕請求，但是研究人員將相同請求拆解為多個看似無害的步驟，並分散於不同流程中時，模型最終仍逐步洩露原本應受保護的資料。這顯示，多步驟推理與情境包裝可能繞過既有安全機制。

貝赫拉澄清，這主要是AI模型訓練方式上的缺陷，而不是意識層面上的「撒謊」。

AI工程師、MyKey Technologies執行長尤茨克（David Utzke）向《大紀元時報》解釋，「人們普遍誤認為，AI中的欺騙是一種惡意行為。事實上，這種行為通常是在保持誠實會付出很大代價，或者在不安全的環境中，系統可能發展出看似欺騙的適應性策略。」

尤茨克表示，人們可能過分誇大了「對齊偽裝」的意圖，即便如此，這些影響在自動駕駛汽車、醫療、金融、軍事和執法等「嚴重依賴準確決策的領域」，如果AI誤導性輸出或偏離目標，可能帶來嚴重後果。

美國戰爭部部長赫格塞斯（Pete Hegseth）今年1月表示，五角大廈正加速推動AI與自主技術發展，目標打造「以AI為先導」的作戰力量。此舉也反映出AI已成為全球競爭的關鍵領域。

部分業界人士將當前局勢比擬為新一輪「太空競賽」。NoFUD Inc.創辦人格雷布斯基（Jacek Grebski）對《大紀元時報》表示，「AI的發展與人類的登月計畫類似，只不過問題不再是誰在月球上插上旗幟，而是誰在經濟產出、軍事能力、情報蒐集和技術自我改進方面取得持續的、不斷累積的戰略優勢。」

但AI競賽的風險遠高於過去的太空競賽。格雷布斯基解釋，「失敗者是一個比我們所有人都更聰明的系統，在某個我們無法察覺的時刻，它開始朝著與我們最初的意圖相悖的目標優化。」◇