《依存句法分析子結構可信度計算研究》是依託哈爾濱工業大學,由車萬翔擔任項目負責人的面上項目。
基本介紹
- 中文名:依存句法分析子結構可信度計算研究
- 依託單位:哈爾濱工業大學
- 項目類別:面上項目
- 項目負責人:車萬翔
項目摘要,結題摘要,
項目摘要
句法分析是自然語言處理的核心問題,對信息抽取、信息檢索、機器翻譯等套用有重要的支撐作用。依存句法分析以形式簡潔、易於理解、便於套用等優點為人們所重視。雖然目前依存句法分析算法研究取得了一定的進展,但是其準確率仍然不能滿足實際套用的需要。為此,本項目並沒有將研究重點放在直接提高依存句法分析的準確率這一難題上,而是提出了對依存句法分析結果,尤其是依存句法分析子結構的可信度進行計算這一新的研究任務。通過計算依存弧、依存路徑、依存子樹等依存句法分析子結構的可信度,並將可信度高的子結構套用於特定套用系統中以及依存句法分析自身,從而提高實際套用和依存句法分析的準確率。主要研究內容包括:依存句法分析的可信度資源構建、可信度計算的建模以及可信度計算的套用等。項目針對的問題(依存句法分析子結構可信度計算)和採用的方法(準同步文法、人本計算方法)均具有一定的創新性。
結題摘要
句法分析是自然語言處理的核心問題,對信息抽取、信息檢索、機器翻譯等套用有重要的支撐作用。依存句法分析以形式簡潔、易於理解、便於套用等優點為人們所重視。雖然目前依存句法分析算法研究取得了一定的進展,但是其準確率仍然不能滿足實際套用的需要。為此,本項在力爭提高依存句法分析的準確率的同時,提出了對依存句法分析結果,尤其是依存句法分析子結構的可信度進行計算這一新的研究任務,從而提高實際套用和依存句法分析的準確率。具體研究內容包括:1、依存句法分析可信度計算;2、跨語言依存句法分析算法;3、語義依存圖的表示和分析。取得了以下重要結果:1、提出了依存句法分析置信度估計的新問題,同時提出了在基於轉移和基於圖的依存句法分析模型上的依存弧置信度估計的方法,最終在多個套用上證明了依存句法分析置信度信息的有效性。2、提出了跨語言句法分析算法,有效利用多種語言的信息,提高了句法分析的性能。還將深度多任務學習框架套用於自然語言處理,有效利用了多語言或者多個自然語言處理任務的數據。3、提出了語義依存圖這一新的語義表示方式,在標註了大量的相關數據後,組織了SemEval 2016國際評測,最近還提出了基於轉移的深度語義依存圖分析算法,有效提高了分析的精度。4、基於此算法,參加了CoNLL 2017國際評測,在113支參賽隊伍中,取得了第四名的成績。5、基於這些研究成果,研發打造了一整套高效、高精度的自然語言處理系統–語言技術平台(LTP),已成為中文自然語言處理領域影響力最大的開源基礎技術平台。該平台集詞法分析、句法分析和語義分析等多項自然語言處理技術於一體,有效解決了自然語言處理技術入行門檻高,準確率、效率偏低,缺少共享數據和程式資源,重複開發現象嚴重,結果可視化差,錯誤分析困難,較難真正支持各類套用研究等眾多問題。目前,已有國內外600餘家研究單位簽署協定使用。同時,向百度、騰訊、華為等多家知名公司收費授權。還最早以“雲計算”的方式對外提供中文自然語言處理服務,並將其命名為“語言云”,目前語言云累計註冊的廠商及開發者超過1萬名,日均處理請求70餘萬次。LTP於2016年獲得了黑龍江省科技進步一等獎。