共指消解是自然語言處理、機器翻譯、信息抽取、信息檢索等領域的關鍵技術之一,在自然語言中起超連結的作用。
基本介紹
- 中文名:共指消解
- 外文名:Coreference resolution
- 時間:二十世紀三十年代
簡介
定義
- 實體(entity):知識庫中完整定義的,唯一存在的條目,在coreference resolution這個任務中,每一個實體都可以看作是指代它的名詞短語或代詞構成的集合(巴拉克-歐巴馬={美國總統,歐巴馬,第44任美國總統,他})。
- 指稱(mention):實體在自然語言文本中的別名或另一種指代形式,美國總統,歐巴馬,第44任美國總統,他等都是mention。mention的類型一般有3類:專有名詞(proper noun,巴拉克-歐巴馬),名詞性詞(nominal, 第44任美國總統),代詞(pronominal, 他)
- 共指(corefer):如果文本或句子中的兩個mention指代的是同一個entity,那么它們之間存在著一種共指(corefer)關係。美國總統與第44任美國總統即是共指的兩個mention
特徵分析
評測
套用領域
- 信息抽取(information extraction, IE);信息抽取是一項從文本中發現實體(entity)以及實體之間的關係(relation)的技術,coreference resolution可以幫助IE系統對文中出現的指稱(mention)進行歸類,避免提取冗餘的信息
- 文本摘要(text summarization);文本摘要,字如其名,是一項從文擋中識別關鍵信息(可以理解為中心思想),並生成一份剪短的摘要(summary)的技術。coference resolution可以向文本摘要系統提供文檔中所有的共指關係(coreference),將所有指向同一個實體的指稱(mention)根據它們在文中出現的先後順序構成一條共指鏈(coreference chain),這條共指鏈可以有助與摘要系統提取關鍵信息(最基本的idea:如果文本中主要講述的是一個事物或者人,他肯定會在文中多次出現,也就是說,coreference chain越長,對應的實體越有可能是目標實體)。另外,加入coreference resolution之後,系統生成的摘要會更自然(例如:根據前面的前文合適的使用代詞)
- 自動問答(question answer,Q&A); Q&A是一項根據輸入的問題或者查詢,從知識庫或者已有的文本中檢索並返回合適結果的技術。coreference resolution能夠在問題和答案上最佳化Q&A系統,首先,它能夠通過分析問題中的共指關係,找到問題的核心實體;其次,coreference resolution能夠幫助判斷候選答案與問題中核心實體的相關性,從而輔助對候選答案的排序
- 機器翻譯(machine translation);機器翻譯是一項利用計算機將自然語言文本從源語言(souce language)轉換到目標語言(target language)的任務。由於文本中常常會出現你,我,他等代詞,使得計算機無法理解代詞的具體含義,所以這類代詞的翻譯往往不準確。coreference resolution可以識別這類代詞,然後把它們歸類到相應的實體中,機器翻譯系統翻譯文本時,就可以結合代詞和實體名稱來進行合理的翻譯。