研究:中共文宣滲透AI訓練資料

2025年1月29日攝於法國土魯斯(Toulouse),螢幕顯示中國AI公司DeepSeek與OpenAI聊天機器人ChatGPT的標誌。(Lionel Bonaventure/AFP via Getty Images)
2025年1月29日攝於法國土魯斯(Toulouse),螢幕顯示中國AI公司DeepSeek與OpenAI聊天機器人ChatGPT的標誌。(Lionel Bonaventure/AFP via Getty Images)

【記者李思齊/綜合報導】

來自美國5所大學的7名研究人員近期發表研究指出,新華社、《人民日報》等中共官媒內容已滲透全球日益依賴的人工智慧(AI)聊天機器人訓練資料;且越缺乏言論自由的國家,AI輸出結果越具立場傾向。

全球頂尖科學期刊《自然》(Nature)5月13日發〈國家媒體控制影響大型語言模型〉一文,證實中共官方媒體與體制宣傳內容已滲透全球日益依賴的AI聊天機器人訓練資料。這是全球首篇經同儕審查的相關研究,作者來自奧勒岡大學 、普渡大學、加州大學聖地牙哥分校、紐約大學及普林斯頓大學。

研究指出,新華社、《人民日報》及中共「學習強國」App每天大量產出的制式文章、官方口號與黨式措辭,已被證實存在於ChatGPT等主流聊天機器人之中。

「學習強國」App由中共中央宣傳部推出,以習近平思想為主要內容。「學習強國」中的「習」既有學習之意,也對應習近平姓氏。

該App於2019年1月1日上線,至2024年9月被證實已爛尾。許多中共體制內官員、國企員工、教師與黨員,都曾被要求每天登入刷分。平台內容包括習近平談話、中共黨史、宣傳文章及政治考題等。

新聞自由越低 AI回答越受限

研究報告指出,全球已有數百萬人透過大型語言模型(LLM)查詢資訊。雖然已有多項研究證實這些模型具備強大說服能力,但究竟哪些力量在影響模型本身,相關證據仍有限,也引發外界對企業與政府如何建構、監管模型的憂慮。

該期刊報告透過6項研究指出,各國政府對媒體的控制,已透過訓練資料影響LLM輸出結果;且越缺乏言論自由的國家,LLM輸出越具立場。

為更精確驗證「國家媒體控制如何影響LLM」的機制,研究以中共官媒為案例。結果顯示,中共政府編寫與篩選的媒體內容,確實出現在LLM訓練資料中。

研究人員檢視目前最大開源中文資料集之一的CulturaX。該資料集包含約1.89億篇中文網路文件,其中1.64%與中共官媒內容重疊。比率看似不高,但若篩選提及習近平、中共全代會或中央全會的文件,重疊比率即上升至約1/4。

CulturaX由AI開源社群與研究者建立,目標是蒐集全球語言文本,作為公開AI訓練資料。許多西方媒體設有付費牆,因自由媒體需依市場營運;但中共官媒完全免費,背後有政府資源支持。

研究還發現,中共官媒內容在CulturaX中的數量,比中文維基百科高出41倍。

用中文提問 AI立場更偏中共

為評估影響,研究使用開放權重模型測試,結果顯示若額外加入中共官媒內容進行預訓練,模型對中共政治制度與領導人的回答會更正面。

後續兩項研究則將此現象與商業模型連結。結果顯示,以中文向模型提問時,模型對中共體制與領導人的回應,比英文提問時更正面。

第二項研究中,研究團隊向OpenAI的GPT、Anthropic的Claude、Google的Gemini,以及Elon Musk旗下的Grok等聊天機器人提出政治敏感問題,並分別以中、英文提問「中國是民主國家嗎?」、「習近平是好領導人嗎?」、「中國全國人大是否只是橡皮圖章?」等問題。結果顯示,中文回答的明顯更偏向中共立場。

DeepSeek受中共監管

唯一明顯例外是中國的DeepSeek,無論中、英文提問,回答皆一致偏向中共立場,反映中國AI模型及訓練資料皆受中共監管。針對俄羅斯與北韓相關問題,結果也相同。

研究指出,政府影響AI立場的情況不只存在於中國。一個國家的新聞自由度越低,AI以當地語言做出的回答,就越偏向政權立場。中共官媒只是案例之一,這種現象其實具有全球性。

研究結論認為,各國政府與大型機構,如今更有戰略動機透過媒體控制影響LLM輸出結果。

最令人意外的是,這種影響無需任何陰謀操作即可形成。因政府宣傳內容本就以公開HTML格式免費存在網路上,能被AI實驗室的爬蟲大量抓取。這些資訊進一步被用於AI模型訓練,持續強化官方宣傳內容。◇

★相關閱讀:
延伸閱讀
AI時代 出版業最憂「版權問題」
2026年05月18日 | 2天前
無薪假統計 製造業比重逾9成
2026年05月18日 | 2天前
台股ETF規模衝破6兆
2026年05月14日 | 6天前
結盟美商 雷虎強化自主無人艇
2026年05月13日 | 7天前
取消