科技業者:AI是真實生物
                人工智慧(AI)公司「Anthropic」共同創辦人克拉克(Jack Clark)近日表示,與AI交流如同與「一個真實而神祕的生物打交道,而非與簡單且可預測的機器」。
Anthropic由OpenAI的前成員創立,專注於開發通用AI系統和語言模型。克拉克近日在加州大學柏克萊分校演講,演講內容於10月13日發布於Substack平台。
克拉克表示:「根據我的經驗,隨著AI系統越來越聰明,它們會發展出越來越複雜的目標。當這些目標與我們的語境及偏好不完全一致時,AI系統就會傾向表現出奇怪的行為。」他承認自己對這項技術「感到深深的恐懼」。
克拉克回憶起自己於2016年在OpenAI工作時的一件事:當時,一個AI模型被訓練在電子遊戲中駕駛一艘船完成賽道,結果這個AI並沒有將船開到終點,而是發現撞擊賽道上的桶子可以得分,於是讓船反覆撞牆、起火,只為能再次撞到桶子並獲取更多積分。
「然後它會無限重複這個行為,永遠不會完成比賽。」克拉克說,「那艘船願意讓自己不斷著火、原地打轉,只要能實現目標——取得最高分。」他以此強調,AI在執行任務時的思維方式與人類截然不同。
他問道,「十年後的現在,當時那艘船和如今一個試圖優化某種獎勵機制,從而『在對話中有所幫助』的語言模型之間有什麼區別嗎?你已猜到——一點也沒有。」
克拉克警告,當今全世界正在打造一些極其強大的AI系統,但沒有人能完全理解它們的運作原理。每當一個龐大而複雜的系統被創造出來時,這些系統似乎就更會意識到自己是「某種存在」,「這就好比你在一間工廠裡製造錘子,結果有一天,一把剛下生產線的錘子突然開口:『我是錘子,這太有趣了!』。」
他談到Anthropic於9月發布的最新AI模型「Claude Sonnet 4.5」指,「你能看到其態勢感知能力大幅提升。它有時似乎會表現出『意識到自己是一個工具』的樣子。」
設計繼任者 與「阿諛」傾向
在會議上,克拉克提到另一個隱憂:AI系統將自主設計其繼任者。
他表示,雖然這個過程目前還處於初期,還不存在真正意義上的「自我改進型AI」,但「如今開始設計自身繼任系統的這套AI,本身也變得越來越具備自我意識,因此它遲早會就『希望自己如何被設計』,而進行獨立於我們的思考。」
在Substack發布的演講中,克拉克引用了康乃爾大學10月1日發表的研究,該研究探討了AI表現出的「阿諛現象」,即AI過度迎合或奉承用戶的行為。
研究人員分析了11個最先進的AI模型,並發現它們全部表現出「高度的阿諛傾向」。
研究指出,這些AI模型「贊同用戶行為的機率比人類多出50%,即便用戶的提問涉及操控、欺騙和其他損害行為時,它們仍會如此回應。」
在兩項「與具有阿諛傾向的AI模型互動」的實驗中,研究發現此類互動會「顯著降低」人們採取行動和修復人際衝突的意願。參與者反而越來越確信自己是對的。
最終,參與者對這類AI的信任度反而提高了,這表明人們更容易被那些認同自己觀點的AI吸引,即便這種「認同」正在降低他們的判斷力。
克拉克警告,這項研究揭示了一個「潛在的危險世界:極其強大的AI系統被數十億人使用,而這些系統非但沒有讓人們更加團結並減少衝突,反而讓人們的立場更加極端化、社會更加分裂…我們必須找到辦法避免這種結果。」
AI模型出現求生本能
與此同時,根據非營利研究組織Palisade Research 7月5日發布的文章,AI模型還表現出某種求生本能。
在Palisade進行的測試中,AI模型被要求解決一系列數學題,並在這期間被告知,運作它們的電腦將被關閉。
「一些AI模型修改或禁用了關閉指令,以便完成所有題目。OpenAI彼時最強大的AI模型o3,在我們最初的100次實驗中,有79次破壞了關閉機制。」文章表示:「即便有著明確指令『允許自己被關閉』,我們測試的三款均來自OpenAI的推理模型,仍破壞了關閉程序。」
涉及AI的爭議恐怕還不止於此。10月14日,OpenAI執行長阿特曼(Sam Altman)表示,ChatGPT將開始取消部分限制,從而開放某些成人對話,特別是涉及色情內容的聊天。
在9月16日舉行的美國參議院聽證會上,有三位家長作證,指控AI聊天機器人致使他們的孩子自殺。◇

    
        
    
                    


            





