「簡轉繁」內容滲透 台灣AI主權受挑戰

民進黨立委陳培瑜等人召開「文化石油:AI主權建設下的出版內容產業未來座談會」。(記者宋碧龍/攝影)
民進黨立委陳培瑜等人召開「文化石油:AI主權建設下的出版內容產業未來座談會」。(記者宋碧龍/攝影)

【記者戴德蔓/台北報導】

民進黨立委陳培瑜、吳思瑤日前召開「文化石油:AI主權建設下的出版內容產業未來」座談會,討論主權AI語料庫建設。不少出版與內容產業代表直言,台灣若要發展自己的人工智慧(AI),當前最棘手的問題不只是資料量不足,中國內容更正以「簡轉繁」大量滲透,甚至可能主導未來AI的繁體中文世界觀。

陳培瑜指出,每個人的生活都離不開AI。從報紙、雜誌、出版、廣播、電視到數位內容,過去累積的文化內容,其實都是AI理解台灣的重要養分。

AI語料不足 繁中內容遭邊緣化

「台灣的內容不能缺席。」陳培瑜表示,如果台灣自己的內容沒有進入大型語言模型,未來AI理解台灣的方式,很可能被其他資料取代。目前國際主流大型語言模型(LLM)中,高達50%使用英文訓練,但繁體中文只占約1%,正面臨嚴重邊緣化危機。

她表示,過去政府推動本地主權AI(TAIDE)時,曾有部分產業界免費提供資料協助訓練,但若未來要真正建立大型AI語料庫,目前資料量仍遠遠不足。依估算,至少需要1TB資料量,若換算成書籍,大約相當於100萬本書。

陳培瑜現場拿起《台灣棒球入門》一書表示,「現在機器人其實是讀不到的」,因為這些內容根本尚未真正進入大型語言模型資料庫,「台灣多年累積、值得驕傲的華語出版內容,要怎麼被世界看見?」

卡在授權 無法納入語言模型

吳思瑤則表示,台灣雖是半導體強國,但若主權AI缺乏在地文化語料,TAIDE最後恐怕只會變成「沒有靈魂的空殼」。她指出,自己質詢國科會與中研院時發現,TAIDE部分評測落後,其中重要原因,就是許多核心文化語料因授權問題,至今仍無法納入模型。

吳思瑤強調,「創作有價」,但單一創作者很難與科技巨頭談判,因此政府未來應建立內容授權、分潤與計價機制。她建議,可參考歐盟《AI法案》與公共出借權制度,由國家建立「集體授權與分潤平台」,讓文化內容成為台灣主權AI的重要基礎。

台主權AI應建立管控機制

除了授權與分潤,令人更憂心的是中國內容大量滲透。親子天下副總經理林彥傑指出,近年中國「簡轉繁」電子書已大量進入台灣市場,目前台灣每年申請ISBN前十大出版社中,「至少有五家是中國出版社」。很多不是以簡體字出現,而是直接轉成繁體字,再透過電子書平台進入台灣。

「這還不是AI書喔!」林彥傑警告,如果未來AI語料完全採「自由市場」與「agent to agent」模式(A2A,指AI代理之間的溝通與協作協議),中共很可能以極大量內容灌入台灣語料庫。

「如果今天token(符元)數是百萬級,我相信中共可以用千萬級、甚至億級的量灌進來。」

他認為,即便使用者未必主動閱讀這些內容,但只要大量資料被放入模型,就可能逐漸影響知識結構與論述方向。他建議政府建立主權AI時,不能完全採自由市場模式,應建立一定程度的管控與審查機制。

陳培瑜直言,中國「簡轉繁」電子書大量進入台灣市場,已非常驚人,「瞬間上架千萬本、百萬本,我們完全擋不住。」

她坦言,台灣是自由市場與言論自由社會,無法禁止中國書籍進入,但問題不只是出版業,而是進一步影響校園閱讀與下一代知識環境,「現在很多孩子會在學校借閱大量圖書,這可能才是他們最重要的內容消費市場。」

民進黨立委陳培瑜等人召開「文化石油:AI主權建設下的出版內容產業未來座談會」。民進黨立委陳培瑜等人召開「文化石油:AI主權建設下的出版內容產業未來座談會」。(記者宋碧龍/攝影)

業界憂 中共語境偏移AI世界觀

城邦媒體協理祝本堯則從另一個角度提出警訊。他表示,自己平常喜歡玩戰爭遊戲,但大約從前年開始,突然發現網路上大量出現「十四年抗戰」的說法。他查資料發現,這是中共中央重新定調抗戰史觀後,透過大量網路內容、小紅書與歷史論述持續推廣的結果。

「短短兩、三年裡,八年抗戰跟十四年抗戰,竟然可以有差不多的聲量。」他表示,「AI不會發明新的東西,它一定是重新組合它讀過的內容。」換句話說,如果未來AI讀到的大量繁體中文內容,已被特定論述覆蓋,那AI最後生成的世界觀,也可能逐漸偏移。

對此,陳培瑜也分享,兒子當年準備會考時,曾問她:「媽,我同學都說抗戰是十幾年?」原來是受線上遊戲影響,「真的很可怕。」

台灣需建自己的主權AI

數位發展部資料創新司司長莊明芬表示,台灣必須建設自己的主權AI。數發部已建立「台灣主權AI訓練語料庫」,目前蒐集約12億個tokens語料量。第一階段先從政府做起,累積政府擁有著作財產權資料;第二階段則希望民間響應,讓台灣語料能被國內、外AI模型訓練者看見。

截至目前,已有三十多家國內、外AI訓練單位,包括學研機構與商業公司,運用這套語料庫資料進行訓練。

針對授權機制,莊明芬表示,數發部在第一階段釋出政府資料時,已與智財局合作,研擬「台灣主權AI訓練語料庫授權條款」,並與兩百多個政府部門完成簽約。後續推動希望仰賴市場機制,建立合理授權與回饋制度。◇

★相關閱讀:
延伸閱讀
台商布局檳城 配套產業成長
2026年05月19日 | 1天前
應對少子化 藍營獻三策
2026年05月18日 | 2天前
取消