共指消解

簡介

眾所周知，人們為了避免重複，習慣用代詞、稱謂和縮略語來指代前面提到的實體全稱。例如，在文章開始處會寫“哈爾濱工業大學”，後面可能會說“哈工大”、“工大”等，還會提到“這所大學”、“她”等。這種現象稱為共指現象。雖然人們可以毫無困難的區分文章中實體的不同稱謂，但是對於計算機來說，這仍舊是一項非常困難的問題。所謂共指消解就是將現實世界中同一實體的不同描述合併到一起的過程。如上幾個描述都是現實世界中“哈爾濱工業大學”的不同體現。在某種意義上說，共指在自然語言中起到了超連結的作用。一方面，它使得文章作者在撰寫文章時體現了一定的風格和篇章的連貫性。另一方面，共指使得自然語言理解機制中增加了一種新的模糊成分。

共指消解是傳統的研究方向，見著於二十世紀三十年代，是自然語言處理、機器翻譯、信息抽取、信息檢索等領域的關鍵技術之一。經過起初的蓬勃發展，於七十年代達到高潮，經歷八十年代的低谷後，重新在九十年代初復興。

近20年來，這方面的研究受到了格外的關注，許多重要的會議都設立了共指消解的專題會議，2001年Computational Linguistics學報還出版了指代消解的專輯，在1996、1997年的MUC（Message Understanding Conference）評測會議上被列為評測內容之一。DAARC從96年到2006年共舉行了五次，專門討論指代消解。2000年開始的ACE(Automatic Cotent Extraction)評測中共指消解也是重要內容之一。2006年11月到2007年3月，英國伍爾佛漢普敦大學發起了一個名為指代消解練習ARE(Anaphora Resolution Exercise)的共指消解評測。

中文的共指消解研究開始於二十世紀末。中文共指消解的評測開始於2003年10月的ACE Phase3。

定義

實體(entity)：知識庫中完整定義的，唯一存在的條目，在coreference resolution這個任務中，每一個實體都可以看作是指代它的名詞短語或代詞構成的集合(巴拉克－歐巴馬={美國總統,歐巴馬,第44任美國總統,他})。
指稱(mention)：實體在自然語言文本中的別名或另一種指代形式，美國總統,歐巴馬,第44任美國總統,他等都是mention。mention的類型一般有3類：專有名詞（proper noun，巴拉克－歐巴馬），名詞性詞（nominal, 第44任美國總統），代詞（pronominal, 他）
共指(corefer)：如果文本或句子中的兩個mention指代的是同一個entity，那么它們之間存在著一種共指(corefer)關係。美國總統與第44任美國總統即是共指的兩個mention

特徵分析

共指消解的特徵分為兩類：

1.優先性特徵（Preferences）——字元串匹配優先、近距離優先、句法平行優先

2.約束性特徵（Constraints）——性別一致性約束、單複數一致性約束、語義類別一致性約束

這種區分依據主要根據是共指特徵的指示性強弱。

共指消解

基本介紹

簡介

定義

特徵分析

評測

套用領域

相關詞條

熱門詞條