構式語法的計算模型研究

《構式語法的計算模型研究》是依託哈爾濱工業大學,由陳清財擔任項目負責人的面上項目。

基本介紹

  • 中文名:構式語法的計算模型研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:面上項目
  • 項目負責人:陳清財
項目摘要,結題摘要,

項目摘要

構式語法作為具有很強語言現象解釋能力的認知語法體系,雖然在語言學理論上已經較為成熟,但由於缺乏可計算的形式化定義、基礎資源嚴重缺乏、計算機制尚不明確等關鍵問題,難以有效支撐自然語言處理及其套用技術的發展。為此,本項目致力於為語言學與自然語言處理之間搭建起構式計算的有效橋樑:通過對從語言學角度闡述的認知構式語法探索具有可計算性的形式化表示模型,構建具有構式定義、構式語料庫標註、構式可視化表示和構式分析的開放性平台系統,解決構式研究的基礎資源和工具缺乏問題,在此基礎上,以典型構式為出發點,基於深度學習等自然語言處理熱點技術來開展構式語法的自動分析與標註、構式量化表示的學習模型機構式套用等構式計算的方法與機制研究,為構式語法的計算模型構建與套用建立初步的理論與實踐基礎,為構式語法的發展與推廣即自然語言處理技術的發展做出積極貢獻。

結題摘要

構式語法是具有很強語言現象解釋能力的認知語法體系,但由於缺乏可計算的形式化定義、基礎資源嚴重缺乏、計算機制尚不明確等關鍵問題,難以有效支撐自然語言處理及其套用的發展,為此提出本項目。項目主要研究內容包括4部分: 1. 語言的表示模型研究:作為國內較早從事深度學習研究的課題組,我們從認知學中動名分離的角度,提出了一種新的詞向量學習方法來構建詞語的向量表示;探索了基於RNN與CNN聯合的問答系統答案選擇方法以及基於RNN的短文本摘要生成方法;針對在社區問答中回答之間的關係,構建了表示模型,並提出了“二階式”學習算法完成模型的訓練,提高了模型對於答案語義關聯信息的學習表示能力。 2. 基於構式語法的語法分析研究:課題組參加了SemEval 2015 Task15的子任務1,基於構式語法的開放性本質提出了語料庫中自動學習和挖掘動詞模式的方法,獲得參賽團隊中的第一名;研究了基於不同的文本表示模型和聚類算法的動詞聚類,將動詞模式聚類的的微平均F1值提高了21.6%;研究了動詞模式中論元的語義類型標註問題,完成了對動詞模式論元的語義類型標註任務。 3. 中文大規模基礎語料庫構建:課題組創建並發布了一個由200多萬中文短文本組成的大型自動文摘生成語料庫,發布了側重於意圖匹配的大規模漢語問題匹配語料庫LCQMC,基礎語料庫已被清華、CMU等100多家著名高校、機構使用,為推動中文的國際化做出了重要貢獻。 4. 基於深度學習的醫療文本實體與關係挖掘研究:開展了基於深度學習的心臟病風險因子挖掘研究;將詞之間的依存關係融入序列卷積神經網路模型,提升了藥物相互作用抽取的性能;提出基於深度神經網路的非連續醫療實體識別方法,提高了對連續及非連續醫療實體的識別能力,研究成果在多項國際國內公開評測中勝出。 綜上,本課按照項目計畫的研究方向和內容開展了較為深入的研究工作,共發表了重要國際期刊和會議論文27篇;培養了博士生4人,碩士12人,申請了發明專利2項;獲中國中文信息學會優博提名獎1人,項目按計畫完成。

相關詞條

熱門詞條

聯絡我們