《漢語縮略語識別以及歧義消解技術研究》是依託北京大學,由王厚峰擔任負責人的面上項目。
基本介紹
- 中文名:漢語縮略語識別以及歧義消解技術研究
- 項目負責人:王厚峰
- 項目類別:面上項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
縮略語是新詞的主要來源,而新詞對自然語言處理中的詞性標註,詞義確定與消歧,命名實體識別及共指消解等造成了嚴重障礙;在中文信息處理中,還造成了分詞的極大困難。與一般新詞不同,縮略語在構成上表現出特有的規律。本課題的目的就是系統地研究漢語縮略語的規律,探討縮略語處理的若干關鍵技術。主要包括:(1)根據大規模的語料與縮略語-原形語對照表,研究縮略語的構成規律及詞性表現規律;(2)利用所獲規律,研究漢語縮略語的識別技術以及具有縮略語識別能力的漢語詞處理模型;(3)研究從文本中挖掘縮略語-原形語對,自動擴充縮略語-原形語的對照表;(4) 探討如何在文本中預測縮略語所對應的原形語以及如何消解縮略語的歧義,並針對上下文信息不充足的情況,研究縮略形式向原形語的還原轉換。本項研究將有助於解決縮略語對中文信息處理諸多環節的困擾,並為相關套用提供支持。
結題摘要
縮略語是指較長的一個或者多個詞通過壓減其中的一些字並通過變序或數字總括而形成的意義不變、長度較短的語言單元。壓縮前的形式,稱為完整形式(full form)。縮略語是新詞的主要來源之一,而新詞對自然語言處理中的詞性標註,詞義確定與消歧,命名實體識別及共指消解等造成了嚴重障礙;在中文信息處理中,還造成了分詞的極大困難。本課題圍繞漢語縮略語問題開展研究,探討了縮略語處理的若干關鍵技術。主要包括:(1)研究了縮略語的基本特點和構成規律,從序列化的角度,提出了從完整形式生成縮略語的二種模型,並對二種模型給出了形式化描述;(2)構建了漢語縮略語的語言資源,即,帶切分標註的完整形式-縮略語對照表以及帶縮略語與完整形式對應關係的語料標註,對照表含有9524對關係,標註語料含1998年2個月的人民日報;(3)研究了縮略語的預測方法。根據縮略語的構成規律提出了基於不同單位(基於字、基於詞)的序列標註方法和基於感知器的重排序模型;(4)研究了縮略語的挖掘,提出了從縮略語出發,在真實上下文中發掘其完整形式的方法,以及從完整形式出發,預測縮略語並利用Web信息驗證最終縮略語的方法。通過挖掘可以自動構建完整形式-縮略語對照表;(5)研究了快速的序列標註方法,並在漢語自動切詞中融入了新詞發現的功能,有助於識別上下文中新的縮略語;(6)針對漢語實體識別和共指消解經常受到縮略語干擾的問題,研究了實體共指消解技術,包括文本內實體共指和文本間的實體共指。三年來,項目組超額完成了預期的任務,申請專利2項,共發表論文26篇,其中,期刊論文10篇(包括1篇錄用待發表),會議論文16篇。會議論文中的國際頂級會議論文8篇,包括2篇ACL2012,1篇SIGKDD2012,1篇EMNLP2012,4篇COLING(2010,2012)。構建了一定規模的縮略語資源,開發了快速的序列標註模組;參加了Sighan-2010的2個評測(實體消歧和詞義歸納),TAC的KBP評測和CONLL-shared的評測。