BabelNet是一個多語辭彙語義網路和本體,由羅馬薩皮恩扎大學(羅馬大學)計算機科學系的計算語言學實驗室所創建。BabelNet是自動構建的,其將最大的多語Web百科全書維基百科連結到最常用的英語計算詞典WordNet。這種連結整合,以自動映射的方式完成;對於資源匱乏的語言所存在的辭彙空缺,藉助於統計機器翻譯來補充。其結果是一個“百科詞典”,提供了多種語言的概念和命名實體,並包含了它們之間的豐富的語義關係。通過與免費授權使用的OmegaWiki、英語維基詞典、維基數據、FrameNet、VerbNet等語義資源建立連結,BabelNet還補充了其它一些辭彙和定義。和WordNet類似,BabelNet將不同語言中的詞語以同義詞集的形式進行組織,稱之為Babel synset。
基本介紹
- 中文名:BabelNet
- 外文名:BabelNet
- 領域:人工智慧、自然語言處理
BabelNet的數據統計,套用,獎勵榮譽,自然語言處理,自然語言處理的主要範疇,自然語言處理研究的難點,參見,
BabelNet的數據統計
截至2016年8月,BabelNet(v3.7)已覆蓋了271種語言,包栝全部的歐洲語言、大多數亞洲語言及拉丁語。BabelNet 3.7包含了大約1400萬個同義詞集和7.46億個詞義(不論其語言)。在每種語言中,每個Babel synset(詞義)平均包含2個同義詞。BabelNet的語義網路包含了豐富的辭彙語義關係。這些語義關係有兩個來源:一是,來自於WordNet的語義關係,如上下位關係、部分整體關係、反義、同義關係等,總共大約36.4萬條關係;二是,來自於維基百科的非特定的相關關係,總共大約3.8億條關係。BabelNet 3.7將大約1100萬張圖片與Babel synset建立了關聯,並為這些資源提供了LemonRDF編碼,可通過SPARQLendpoint獲取。BabelNet 3.7為267萬個同義詞集指定了領域標籤。
套用
BabelNet可廣泛套用在多語自然語言處理中。BabelNet中的辭彙化知識可在以下任務中取得最佳效果:
- 語義相關性;
- 多語詞義消歧;
- 基於Babelfy系統的多語詞義消岐及實體連結;
- 有目的的視頻遊戲。
獎勵榮譽
BabelNet是一個多語辭彙語義網路和本體,因其在克服語言障礙和利用異構數據源方面做了巨大的開創性工作,BabelNet於2015年被授予META獎。
BabelNet是最新的辭彙知識資源庫,具有巨大創新性,《時代周刊》曾專題報導BabelNet的研究工作,認為BabelNet將在21世紀發揮引領作用。
自然語言處理
自然語言處理(英語:natural language processing,縮寫作NLP)是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言;自然語言認知則是指讓電腦“懂”人類的語言。
自然語言生成系統把計算機數據轉化為自然語言。自然語言理解系統把自然語言轉化為電腦程式更易於處理的形式。
自然語言處理的主要範疇
- 文本朗讀(Text to speech)/語音合成(Speech synthesis)
- 語音識別(Speech recognition)
- 中文自動分詞(Chinese word segmentation)
- 詞性標註(Part-of-speech tagging)
- 句法分析(Parsing)
- 自然語言生成(Natural language generation)
- 文本分類(Text categorization)
- 信息檢索(Information retrieval)
- 信息抽取(Information extraction)
- 文字校對(Text-proofing)
- 問答系統(Question answering):
給一句人類語言的問句,決定其答案。
- 機器翻譯(Machine translation)
將某種人類語言自動翻譯至另一種語言
- 自動摘要(Automatic summarization):
產生一段文字的大意,通常用於提供已知領域的文章摘要,例如產生報紙上某篇文章之摘要
- 文字蘊涵(Textual entailment)
自然語言處理研究的難點
單詞的邊界界定
- 在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。
詞義的消歧
- 許多字詞不單只有一個意思,因而我們必須選出使句意最為通順的解釋。
句法的模糊性
有瑕疵的或不規範的輸入
- 例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字元識別(OCR)的錯誤。
語言行為與計畫
- 句子常常並不只是字面上的意思;例如,“你能把鹽遞過來嗎”,一個好的回答應當是動手把鹽遞過去;在大多數上下文環境中,“能”將是糟糕的回答,雖說回答“不”或者“太遠了我拿不到”也是可以接受的。再者,如果一門課程去年沒開設,對於提問“這門課程去年有多少學生沒通過?”回答“去年沒開這門課”要比回答“沒人沒通過”好。
參見
- Babelfy
- EuroWordNet
- 語言學連結開放數據
- OmegaWiki
- 語義相關性
- 詞義歸納
- UBY