《面向大數據的中文詞義消歧模型最佳化研究》是依託山西大學,由楊陟卓擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:面向大數據的中文詞義消歧模型最佳化研究
- 項目類別:青年科學基金項目
- 項目負責人:楊陟卓
- 依託單位:山西大學
項目摘要,結題摘要,
項目摘要
詞義消歧是指確定多義詞在自然語言特定的上下文中的意義,它是自然語言處理領域的一個核心問題。無論是何種語言,一詞多義的現象普遍存在。尤其是在當今大數據時代,數據呈現規模化、多樣化、快速化和價值密度低等特點,辭彙的歧義問題就顯得更加嚴重。針對當前大數據環境下文本的特點,以及現有詞義消歧模型的缺點,本課題將從四個方面展開研究:(1)提出一種基於上下文語境的詞義消歧模型。(2)提出一種基於語言模型的詞義消歧模型最佳化方法;(3)提出一種基於上下文擴展的有監督詞義消歧模型。(4) 提出一種基於多分類器融合的動態自適應機率加權方法。通過本項目,有望形成面向大規模數據的快速高效詞義消歧方法,為大數據時代的智慧型信息處理研究和套用創造更好的基礎條件。
結題摘要
詞義消歧是指確定多義詞在自然語言特定的上下文中的意義,它是自然語言處理領域的一個核心問題。在當前大數據時代,辭彙的歧義問題就顯得更加嚴重,本項目針對在大數據環境下,詞義消歧方法所面臨的消歧知識獲取困難等問題,研究面向大數據的詞義消歧方法。本項目將從三個方面展開研究:(1)提出一種基於上下文擴展的有監督詞義消歧模型。(2)提出一種基於上下文翻譯的詞義消歧模型;(3)提出一種基於大規模偽數據的詞義消歧模型。這些方法從不同角度緩解了詞義消歧方法在大數據環境下所面臨的數據稀疏問題,有效的提高了詞義消歧方法的的準確性。本項目在2016-2018為期三年的執行周期內,實現了預期的研究目標,根據進度計畫穩步開展了研究工作,有計畫分階段地實現了人才培養目標,取得了階段性的研究成果,並為項目組以後在辭彙語義理解領域深入開展研究奠定了紮實的基礎。在本項目資助下,目前共發表論文10餘篇。本項目的研究成果,對於機器翻譯、信息檢索、文本分析、自動文摘、知識挖掘等具有重要的理論和套用價值。