漢語全文詞義標註關鍵技術研究

漢語全文詞義標註關鍵技術研究

《漢語全文詞義標註關鍵技術研究》是依託南京師範大學,由曲維光擔任項目負責人的面上項目。

基本介紹

  • 中文名:漢語全文詞義標註關鍵技術研究
  • 項目類別:面上項目
  • 項目負責人:曲維光
  • 依託單位:南京師範大學
項目摘要,結題摘要,

項目摘要

文本的全文詞義標註是文本內容理解的前期重要的基礎性工作。目前漢語的全文詞義標註多關注多義詞的消歧任務,仍然無法解決未登錄詞的詞義預測、詞典中缺失義項詞語的義項標註、成語及慣用語、多詞表達的義項標註及語義知識庫的完備性等問題。本申請擬從以下幾個方面進行研究:(1)將現有詞義資源整合,形成完善的詞義標註體系,並制定標註規範;(2)針對現有語義詞典義項劃分的不完善,文本中出現的義項可能在語義詞典中缺失的問題,建立詞義動態發現模型,自動發現文本中詞語的確切詞義;(3)構建成語及慣用語知識庫和多詞表達知識庫,擴充詞義詞典的規模;(4)建立規則與統計相結合的未登錄詞語詞義預測模型,解決未登錄詞義項標註的難題;(5)綜合利用上述研究成果,建立高質量的漢語全文詞義標註平台;(6)利用全文詞義標註平台,對大規模語料進行詞義標註,並利用語料校對技術進行後處理,形成高質量的詞義標註語料。

結題摘要

本課題針對漢語全詞標註研究的關鍵技術以及相關的語言資源的建設進行了系列探索研究,對標註規範的制定以及詞義資源的整合與完善、詞義消歧算法研究與實施、多詞表達相關問題研究、詞義預測等方面進行了全面的研究,取得了系列成果,並建立全文詞義標註平台,對大規模語料進行詞義標註。課題一直按照項目預定的計畫進行,達到了預期的目標,超額完成了項目預期的成果。 研究工作主要包括以下部分: 1.對標註規範的制定以及詞義資源的整合與完善:進行了同義詞和上下位詞的抽取研究,並抽取出更為完整的同義詞和上下位詞詞典,為後續的研究提供了良好的資源。 2.多詞表達相關問題研究:多詞表達研究主要包括N+VN和VN+N類型多詞表達知識庫的抽取及其套用,N+N類型多詞表達的句法類型分類及其釋義研究。該研究使得詞義標註的研究從單詞級別向多詞序列擴展。 3.詞義預測方法研究:構建基於重疊字模型,基於字-類別關聯模型,基於規則模型以及各個模型集成,並將詞嵌入引入詞義預測,提出基於詞向量、詞性過濾和詞語後綴聯合模型,並根據上述模型的互補性進行多模型的級聯,取得了很好的詞義預測效果。 4.詞義消歧算法研究與實施:統計得出SKCC中多義詞總數為3052個,並對這些多義詞進行了全面的義項劃分。針對訓練語料的稀疏性,提出基於主動學習的詞義消歧方法,較好地完成了詞義消歧任務。 5.全文詞義標註平台的建設:平台具有詞語義項查詢、多義詞訓練實例分布查詢、人工標註、詞義消歧及輔助校對等模組。基於該平台,對2000年人民日報語料進行了詞義標註,驗證了平台的高效性。 本課題的主要研究成果包括:發表期刊論文35篇,會議論文29篇。其中,SCI檢索論文1篇,EI檢索論文24篇,CSSCI檢索論文2篇,在國際頂級會議IJCAI論文2篇, ACL, EMNLP各發表1篇論文。建立了大規模的同義詞、上下位詞的詞典和大規模語言標註語料庫。培養博士研究生畢業3名、碩士研究生12名,指導本科畢業生20名。1名本科畢業生獲得江蘇省優秀畢業論文三等獎。 3名本科畢業生獲得南京師範大學優秀百篇本科畢業論文。1名研究生獲得南京師範大學優秀碩士論文。

相關詞條

熱門詞條

聯絡我們