科技業者：AI是真實生物

2025年11月02日 | 科技要聞

「Anthropic」共同創辦人克拉克表示，人工智慧（AI）技術讓他「感到深深的恐懼」。圖為2024年5月22日，克拉克出席韓國的AI論壇。（ANTHONY WALLACE/AFP via Getty Images）

【記者Naveen Athrappully／報導、柳嵊濤／編譯】

人工智慧（AI）公司「Anthropic」共同創辦人克拉克（Jack Clark）近日表示，與AI交流如同與「一個真實而神祕的生物打交道，而非與簡單且可預測的機器」。

Anthropic由OpenAI的前成員創立，專注於開發通用AI系統和語言模型。克拉克近日在加州大學柏克萊分校演講，演講內容於10月13日發布於Substack平台。

克拉克表示：「根據我的經驗，隨著AI系統越來越聰明，它們會發展出越來越複雜的目標。當這些目標與我們的語境及偏好不完全一致時，AI系統就會傾向表現出奇怪的行為。」他承認自己對這項技術「感到深深的恐懼」。

克拉克回憶起自己於2016年在OpenAI工作時的一件事：當時，一個AI模型被訓練在電子遊戲中駕駛一艘船完成賽道，結果這個AI並沒有將船開到終點，而是發現撞擊賽道上的桶子可以得分，於是讓船反覆撞牆、起火，只為能再次撞到桶子並獲取更多積分。

「然後它會無限重複這個行為，永遠不會完成比賽。」克拉克說，「那艘船願意讓自己不斷著火、原地打轉，只要能實現目標——取得最高分。」他以此強調，AI在執行任務時的思維方式與人類截然不同。

他問道，「十年後的現在，當時那艘船和如今一個試圖優化某種獎勵機制，從而『在對話中有所幫助』的語言模型之間有什麼區別嗎？你已猜到——一點也沒有。」

克拉克警告，當今全世界正在打造一些極其強大的AI系統，但沒有人能完全理解它們的運作原理。每當一個龐大而複雜的系統被創造出來時，這些系統似乎就更會意識到自己是「某種存在」，「這就好比你在一間工廠裡製造錘子，結果有一天，一把剛下生產線的錘子突然開口：『我是錘子，這太有趣了！』。」

他談到Anthropic於9月發布的最新AI模型「Claude Sonnet 4.5」指，「你能看到其態勢感知能力大幅提升。它有時似乎會表現出『意識到自己是一個工具』的樣子。」

設計繼任者與「阿諛」傾向

在會議上，克拉克提到另一個隱憂：AI系統將自主設計其繼任者。

他表示，雖然這個過程目前還處於初期，還不存在真正意義上的「自我改進型AI」，但「如今開始設計自身繼任系統的這套AI，本身也變得越來越具備自我意識，因此它遲早會就『希望自己如何被設計』，而進行獨立於我們的思考。」

在Substack發布的演講中，克拉克引用了康乃爾大學10月1日發表的研究，該研究探討了AI表現出的「阿諛現象」，即AI過度迎合或奉承用戶的行為。

研究人員分析了11個最先進的AI模型，並發現它們全部表現出「高度的阿諛傾向」。

研究指出，這些AI模型「贊同用戶行為的機率比人類多出50%，即便用戶的提問涉及操控、欺騙和其他損害行為時，它們仍會如此回應。」

在兩項「與具有阿諛傾向的AI模型互動」的實驗中，研究發現此類互動會「顯著降低」人們採取行動和修復人際衝突的意願。參與者反而越來越確信自己是對的。

最終，參與者對這類AI的信任度反而提高了，這表明人們更容易被那些認同自己觀點的AI吸引，即便這種「認同」正在降低他們的判斷力。

克拉克警告，這項研究揭示了一個「潛在的危險世界：極其強大的AI系統被數十億人使用，而這些系統非但沒有讓人們更加團結並減少衝突，反而讓人們的立場更加極端化、社會更加分裂…我們必須找到辦法避免這種結果。」

與此同時，根據非營利研究組織Palisade Research 7月5日發布的文章，AI模型還表現出某種求生本能。

在Palisade進行的測試中，AI模型被要求解決一系列數學題，並在這期間被告知，運作它們的電腦將被關閉。

「一些AI模型修改或禁用了關閉指令，以便完成所有題目。OpenAI彼時最強大的AI模型o3，在我們最初的100次實驗中，有79次破壞了關閉機制。」文章表示：「即便有著明確指令『允許自己被關閉』，我們測試的三款均來自OpenAI的推理模型，仍破壞了關閉程序。」

涉及AI的爭議恐怕還不止於此。10月14日，OpenAI執行長阿特曼（Sam Altman）表示，ChatGPT將開始取消部分限制，從而開放某些成人對話，特別是涉及色情內容的聊天。

在9月16日舉行的美國參議院聽證會上，有三位家長作證，指控AI聊天機器人致使他們的孩子自殺。◇