5千年楔形文字難解 AI有望快速破譯
伊朗美索不達米亞文明出土的楔形文字泥板,多數尚未破譯。最近德國科學家利用AI破解這些泥板上的內容,而且有望快速破譯。
與古中國、古印度和古埃及並稱四大古文明,美索不達米亞文明大約5千年前開始使用蘇美語,最終被阿卡德語取代,這兩種語言都以楔(ㄒ一ㄝˋ)形文字書寫。
蘇美人被認為是世界上最早使用文字的種族之一,他們在泥板(黏土片)上書寫楔形文字。當時蘇美人占領了現代伊拉克、伊朗、科威特、敘利亞部分地區和土耳其。
美索不達米亞文明約在西元前2004年正式結束,並逐漸融入亞摩利人的城邦,直至西元前18世紀被巴比倫文明取代。留下的楔形文字板不僅用多種語言書寫,還有數千年歷史。
一百萬塊泥板 9成未破譯
考古專家估計,世界上仍存在一百萬塊泥板,需要進行繁瑣的工作,才能翻譯和編錄泥板上的內容,且目前大約有90%的楔形文字文本仍未被翻譯出來。
從過去解開的泥板內容可以看到,大到建造寺廟的細節,小到客戶因銅礦石的交付感到不滿而投訴。若未來能解讀這些內容,將幫助現代人了解5千年前古代生活細節和歷史變遷。
德國馬丁路德‧哈雷維騰貝格大學(Martin-Luther-Universität Halle-Wittenberg)、約翰尼斯‧古騰堡大學(Johannes Gutenberg University)和美因茲應用科技大學(Mainz University of Applied Sciences)團隊想到解決翻譯的辦法。
研究團隊訓練AI電腦進行辨別和學習蘇美語、阿卡德語,再讓它辨別3D的楔形文字,以快速解析泥板上的內容。研究論文已發表於《歐洲圖形與文化遺產研討會》。
沒有上下文 難解原本含義
楔形文字是以3D的形式呈現在泥板上,經過時間磨損和泥板處理的問題,品質受到嚴重影響,過去難以掃描到電腦中,供歷史學家和考古學家進行研究和翻譯。
此外,這種泥板經常沒有上下文,通常只有一小串文本內容,考古學家很難解讀原本的真實含義。就像人們試圖透過閱讀一本書的一段小句子去理解一整本書的內容一樣。
研究團隊使用近2千塊楔形文字板的3D模型讓AI學習和辨別,同時向AI程式輸入2萬1千個符號、4,700個楔形符號,創建了新的資料集,可供其他想要研究楔形文字的研究人員使用,而AI使用的數據大部分由美因茲應用科技大學提供。
團隊開發的AI新系統,比以前的方法更好的破解字符。其工作原理與光學字元辨識(optical character recognition)軟體基本相同。
AI在工作過程中會對楔形文字進行拆解,確保每個標誌都會被裁剪成單一圖像,以便它能對楔形文字進行辨別和學習,之後工作人員修正錯誤,再讓AI繼續辨別楔形文字,藉此提高AI辨識能力和準確度。
AI辨識準確率高達7成6
為了測試AI的可靠性,他們讓AI辨識其他未辨識過的泥板。結果顯示,AI可以準確的檢測楔形文字和符號,準確率最高達76%。
AI在某些情況下的準確度仍有待加強,原因是有些文字變形或疊加,導致AI無法正常辨識,但AI經過多次訓練後,會提高泥板照片3D文字識別準確度,也能辨識那些保存較差的泥板。
MLU碩士生恩斯特‧斯托茨納(Ernst Stötzner)解釋,「OCR技術通常適用於照片或掃描,用於辨識紙上或羊皮紙上的墨水沒問題,但辨識泥板楔形文字,就變得十分困難,因為拍攝這些泥板時的光線和視角,會大大影響某些字符的識別效果。」
他接著表示,團隊開發的系統可以把這些泥板照片處理得很好,而這些照片實際上是來源於較差的材料(泥板大多都有破損)。
一睹人類幾千年前的過去
MLU助理教授、論文作者休伯特‧馬拉(Hubert Mara)說,「泥板可以讓我們得以一睹人類幾千年前的過去,我們可以在泥板上找到許多東西,從購物清單到法庭裁決。但它們已經風化嚴重,因此即使是受過訓練的人也很難破解。要了解楔形文字板的內容一直很困難。」
研究人員表示,目前已知共存在12種楔形文字,但AI只能夠準確識別2種語言符號的原型。不過隨著AI不斷的開發和學習,未來可能辨識更多楔形文字,甚至能幫助破解嚴重風化的銘文,而這些銘文與楔形文字一樣都是三維的。
研究團隊計畫未來使用更大量的泥板樣本訓練AI,讓AI閱讀更準確。他們也希望把泥板樣本中的圖像切割成更小的部分,以便AI需要處理的資訊更少,來提高準確性。◇