伊薩卡(人工智慧)

本詞條是多義詞,共6個義項
更多義項 ▼ 收起列表 ▲

伊薩卡(Ithaca)是DeepMind威尼斯大學人文系、牛津大學古典學院以及雅典經濟與商業大學信息學系聯合開發的人工智慧,是第一個可以復原受損銘文的缺失文本、識別銘文原始(書寫)位置、確定創建日期的深度神經網路。伊薩卡單獨使用於復原受損希臘銘文文本時可達到62%的準確率,在歷史學家使用時可達72%的準確度。它能以71%的準確度判斷這些銘文的原始位置。它鑑定的年代與歷史學家提出的範圍相差少於30年。2022年發表於《自然》。

伊薩卡現已開源,公開可用。開源網址:

基本介紹

  • 中文名:伊薩卡
  • 外文名:Ithaca
名字來源,開發過程,取得成果,意義,

名字來源

伊薩卡是以荷馬史詩奧德賽》中的希臘島嶼伊薩卡命名,是古希臘神話英雄奧德修斯的故鄉。

開發過程

該工作始於2019年。伊薩卡接受了近8萬份由帕卡德人文學院(PHI,一個非營利性基金會)提供的希臘銘文數字數據集的培訓,它的架構旨在捕捉上下文並有效地處理受損的單詞,同時它還可以並行地“注意”輸入的不同部分。
這些希臘銘文的時間跨度在公元前7世紀至公元5世紀,並橫跨古地中海世界。論文中對這些銘文的選擇做出2點解釋,“首先,希臘銘文記錄的內容和語境的多樣性,對語言處理構成了極大的挑戰;其次,古希臘數位化語料庫的可用性,這是訓練機器學習模型的重要資源。”
伊薩卡是一種基於Transformer的人工神經網路,它使用注意力機制來衡量輸入的不同部分對模型決策過程的影響。相比於循環神經網(RNN)、卷積神經網路(CNN)等,Transformer是一種新的神經網路結構,其僅基於注意力機制,拋棄了傳統的循環或卷積神經網路結構。
自然語言處理模型通常使用單詞進行訓練,因為它們在句子中出現的順序和它們之間的關係提供了額外的上下文和含義。例如,“once upon a time”比單獨看到的每個字元或單詞有更多的含義。然而在這項研究中的挑戰是,這些銘文都已損壞,而且經常丟失文本塊。
為了確保模型在使用部分字元時仍能正常工作,研究團隊既使用單詞也使用單個字元輸入來訓練它。模型核心的注意力機制並行地評估這兩種輸入,允許伊薩卡根據需要評估銘文。
此外,為了最大化伊薩卡作為研究工具的價值,研究團隊還開發了一些視覺輔助工具,以確保歷史學家能夠輕鬆地解釋伊薩卡的結果。
伊薩卡
伊薩卡處理δήμο το αθηναίων’ 的過程
圖為伊薩卡處理δήμο το αθηναίων’ (the people of Athens)的過程。該短語的前三個字元被隱藏,最終提出了修復建議。同時,伊薩卡還預測了銘文的地區和日期。
對於復原任務,伊薩卡並不是提供單一的假設,而是提供了一組根據機率排序的前20個解碼預測。在確定地理任務方面,伊薩卡在84個區域中對輸入文本進行分類,並通過地圖和條形圖可視化地實現可能區域預測的排名列表。
在年代方面,為增加可解釋性,伊薩卡也不是輸出一個單一的時間,而是預測時間的分類分布。更準確地說,伊薩卡將公元前800年至公元800年之間的所有時間處理為,取每10年為一個跨度,也就是說有160個10年。例如,如果日期範圍在公元前300至公元前250年間,也就是5個10年,每一個機率分別為20%;而日期如果在公元前305年,則將以100%的機率指定為出自公元前300至公元前310年。
伊薩卡
伊薩卡

取得成果

評估顯示,在復原文本方面,伊薩卡始終優於其他競爭方法,字元錯誤率(CER)為26.3%,top 1準確率為61.8%。對復原銘文文本和確定原始的地理位置方面,研究團隊還引用top-k準確率來衡量,即正確的復原或地理位置是否在前k項預測中。
具體來說,與人類歷史學家相比,伊薩卡實現了更低的字元錯誤率(CER),人類歷史學家該項分數為59.6%。另外,與研究團隊此前開發的專注於文本復原的皮提亞(Pythia)相比,表現也更為優秀。皮提亞名字取自希臘神殿德爾斐中為阿波羅神傳達神諭的女祭司。在文本復原方面,皮提亞皮的字元錯誤率(CER)為47.0%,雖然高於伊薩卡,但也高於人類歷史學家。
值得注意的是,當人類歷史學家與伊薩卡合作時,歷史學家的字元錯誤率(CER)大幅降低到18.3%,top 1準確率則從25.3%大幅提升至71.7%。
在地理定位方面,伊薩卡top 1預測準確率為70.8%,top 3預測準確率為82.1%。對於年代追溯,伊薩卡與歷史學家提出的範圍相差少於30年。 在研究團隊的評估過程中,研究團隊看到了多個伊薩卡與歷史學家共識一致的例子。例如,伊薩卡將雅典的一篇提到尼基亞斯(Nikias)將軍的銘文追溯到公元前413年,這與歷史學家提出的範圍完全吻合。
伊薩卡(人工智慧)
伊薩卡
在進一步研究中,研究團隊將伊薩卡的關注重點可視化,看看哪些部分的輸入對這一預測貢獻最大。我們看到的是個人姓名(Νικίας,“Nikias”)和希臘指揮官的軍銜(στρατεγοῖς,“generals”)。尼基亞斯在雅典遠征西西里島的過程中扮演了關鍵的角色,而這篇銘文也與這一歷史事件有關。
論文中也提到了另一案例來展示伊薩卡的潛力。研究團隊注意到,目前歷史學家對雅典頒布的一系列重要法令的日期存在分歧,這些法令是在蘇格拉底和伯里克利等著名人物在世的時期頒布的。長期以來,這些法令被認為是在公元前446/445年之前寫的。然而,也有新的證據表明,更有可能是公元前420年。
雖然看起來差別不大,但這些法令對我們理解古代雅典的政治史是至關重要的。值得關注的是,伊薩卡對這些法令的平均預測日期是公元前421年,這與最新的推測日期幾乎一致。

意義

研究團隊認為,歷史學家現在可以使用伊薩卡的可解釋性工具來進一步研究這些預測,並使雅典的歷史更加清晰。
模型改進的空間總是存在的。特別是隨著新銘文的發現,將會為這類文本進一步增加數字文本存儲庫。
研究團隊認為,伊薩卡很容易適用於任何古代語言,而儘管古希臘在我們理解地中海世界的過程中發揮了重要作用,但它仍只是全球文明圖景的一部分。

相關詞條

熱門詞條

聯絡我們