研究：中共文宣滲透AI訓練資料

2026年05月20日 | 政治

2025年1月29日攝於法國土魯斯（Toulouse），螢幕顯示中國AI公司DeepSeek與OpenAI聊天機器人ChatGPT的標誌。（Lionel Bonaventure/AFP via Getty Images）

【記者李思齊／綜合報導】

來自美國5所大學的7名研究人員近期發表研究指出，新華社、《人民日報》等中共官媒內容已滲透全球日益依賴的人工智慧（AI）聊天機器人訓練資料；且越缺乏言論自由的國家，AI輸出結果越具立場傾向。

全球頂尖科學期刊《自然》（Nature）5月13日發〈國家媒體控制影響大型語言模型〉一文，證實中共官方媒體與體制宣傳內容已滲透全球日益依賴的AI聊天機器人訓練資料。這是全球首篇經同儕審查的相關研究，作者來自奧勒岡大學、普渡大學、加州大學聖地牙哥分校、紐約大學及普林斯頓大學。

研究指出，新華社、《人民日報》及中共「學習強國」App每天大量產出的制式文章、官方口號與黨式措辭，已被證實存在於ChatGPT等主流聊天機器人之中。

「學習強國」App由中共中央宣傳部推出，以習近平思想為主要內容。「學習強國」中的「習」既有學習之意，也對應習近平姓氏。

該App於2019年1月1日上線，至2024年9月被證實已爛尾。許多中共體制內官員、國企員工、教師與黨員，都曾被要求每天登入刷分。平台內容包括習近平談話、中共黨史、宣傳文章及政治考題等。

新聞自由越低 AI回答越受限

研究報告指出，全球已有數百萬人透過大型語言模型（LLM）查詢資訊。雖然已有多項研究證實這些模型具備強大說服能力，但究竟哪些力量在影響模型本身，相關證據仍有限，也引發外界對企業與政府如何建構、監管模型的憂慮。

該期刊報告透過6項研究指出，各國政府對媒體的控制，已透過訓練資料影響LLM輸出結果；且越缺乏言論自由的國家，LLM輸出越具立場。

為更精確驗證「國家媒體控制如何影響LLM」的機制，研究以中共官媒為案例。結果顯示，中共政府編寫與篩選的媒體內容，確實出現在LLM訓練資料中。

研究人員檢視目前最大開源中文資料集之一的CulturaX。該資料集包含約1.89億篇中文網路文件，其中1.64%與中共官媒內容重疊。比率看似不高，但若篩選提及習近平、中共全代會或中央全會的文件，重疊比率即上升至約1/4。

CulturaX由AI開源社群與研究者建立，目標是蒐集全球語言文本，作為公開AI訓練資料。許多西方媒體設有付費牆，因自由媒體需依市場營運；但中共官媒完全免費，背後有政府資源支持。

研究還發現，中共官媒內容在CulturaX中的數量，比中文維基百科高出41倍。

用中文提問 AI立場更偏中共

為評估影響，研究使用開放權重模型測試，結果顯示若額外加入中共官媒內容進行預訓練，模型對中共政治制度與領導人的回答會更正面。

後續兩項研究則將此現象與商業模型連結。結果顯示，以中文向模型提問時，模型對中共體制與領導人的回應，比英文提問時更正面。

第二項研究中，研究團隊向OpenAI的GPT、Anthropic的Claude、Google的Gemini，以及Elon Musk旗下的Grok等聊天機器人提出政治敏感問題，並分別以中、英文提問「中國是民主國家嗎？」、「習近平是好領導人嗎？」、「中國全國人大是否只是橡皮圖章？」等問題。結果顯示，中文回答的明顯更偏向中共立場。

DeepSeek受中共監管

唯一明顯例外是中國的DeepSeek，無論中、英文提問，回答皆一致偏向中共立場，反映中國AI模型及訓練資料皆受中共監管。針對俄羅斯與北韓相關問題，結果也相同。

研究指出，政府影響AI立場的情況不只存在於中國。一個國家的新聞自由度越低，AI以當地語言做出的回答，就越偏向政權立場。中共官媒只是案例之一，這種現象其實具有全球性。

研究結論認為，各國政府與大型機構，如今更有戰略動機透過媒體控制影響LLM輸出結果。

最令人意外的是，這種影響無需任何陰謀操作即可形成。因政府宣傳內容本就以公開HTML格式免費存在網路上，能被AI實驗室的爬蟲大量抓取。這些資訊進一步被用於AI模型訓練，持續強化官方宣傳內容。◇