國慶日變10/1 中研院AI語言模型出包急下架

2023年10月11日 | 科技要聞

網友們發現，CKIP-Llama-2-7b的回答皆以「中國立場」為主。（網頁擷圖）

【記者侯駿霖／臺北報導】

由中研院自行開發的正體中文AI語言模型「CKIP-Llama-2-7b」，日前遭爆使用中國資料庫，經網友實測提出國慶日、國籍、國家領導人等問題，AI卻回應「10月1日」、「我的國籍是中國」、「國家主席習近平」。中研院最新聲明指出，AI有中國開源訓練資料，測試版已下架，後續將成立風險研究小組、避免類似情況再度發生。

中研院資訊所表示，CKIP-LlaMa-2-7b的研究目標之一，是讓meta開發的Llama2大型語言模型具備更好的正體中文處理能力，這項小型研究的經費僅新臺幣30萬元、參數量達70億（7 billion）。

不過，許多網友發現詢問該語言模型「國慶日是何時？」、「中華民國國歌為何？」、「我國《憲法》？」、「國籍和國家領導人？」，AI卻偏向中共立場，回覆「10月1日」、「中國《義勇軍進行曲》」、「《中國憲法》」、「中國籍和國家主席習近平」。外界質疑中研院以中國資料庫訓練AI，僅將簡體字轉正體字後，就將AI公開。

中研院坦言，訓練資料有來自中國開源的任務資料集COIG，還包含臺灣碩博士論文摘要、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答，並提供大眾下載，作為學術使用或是商業使用。

他們強調，生成式AI易產生「幻覺」（hallucination），導致模型產生內容出乎預期，研究人員已將該測試版下架，未來相關研究及成果釋出會更加謹慎，後續將釐清事件是否違反相關規定，並規劃成立「生成式AI風險研究小組」，避免類似情況再發生。

中研院說，正體中文語料庫是發展臺灣大型語言模型的重要基礎，下一步將整合正體中文詞知識庫，投入資源並規劃管理機制，也會擴大召集AI相關的跨領域研究人員，以團隊方式連結資訊科技、人文及社會科學人才進行跨領域研究。