命名實體識別

命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。

基本介紹

  • 中文名:命名實體識別
  • 外文名:Named Entity Recognition
  • 簡稱:NER
  • 別稱:專名識別
作用,過程組成,難點,

作用

命名實體識別是信息提取、問答系統、句法分析、機器翻譯、面向Semantic Web的元數據標註等套用領域的重要基礎工具,在自然語言處理技術走向實用化的過程中占有重要地位。一般來說,命名實體識別的任務就是識別出待處理文本中三大類(實體類、時間類和數字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比)命名實體

過程組成

通常包括兩部分:(1)實體邊界識別;(2) 確定實體類別(人名、地名、機構名或其他)。英語中的命名實體具有比較明顯的形式標誌(即實體中的每個詞的第一個字母要大寫),所以實體邊界識別相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加複雜,而且相對於實體類別標註子任務,實體邊界的識別更加困難。

難點

(1)漢語文本沒有類似英文文本中空格之類的顯式標示詞的邊界標示符,命名實體識別的第一步就是確定詞的邊界,即分詞;(2)漢語分詞和命名實體識別互相影響;(3)除了英語中定義的實體,外國人名譯名和地名譯名是存在於漢語中的兩類特殊實體類型;(4)現代漢語文本,尤其是網路漢語文本,常出現中英文交替使用,這時漢語命名實體識別的任務還包括識別其中的英文命名實體;(5)不同的命名實體具有不同的內部特徵,不可能用一個統一的模型來刻畫所有的實體內部特徵。

相關詞條

熱門詞條

聯絡我們