《基於漢語話題的句際關係自動分析研究》是依託北京大學,由吳雲芳擔任負責人的面上項目。
基本介紹
- 中文名:基於漢語話題的句際關係自動分析研究
- 項目負責人:吳雲芳
- 項目類別:面上項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
話題和無標記的主次複句是語言類型學上漢語的兩個顯赫範疇,話題識別和句際關係分析有著重要的套用價值。本項目論證了話題是複雜的句際結構生成的形式標記,將利用話題來實現意合性小句的計算機自動理解。(1)漢語話題自動識別,話題小句識別將在全新視角下對逗號進行分類,話題成分識別將基於大規模語料庫語義泛化後進行語義相似度計算來驗證候選話題句的合格性。(2)句際層級結構分析,利用話題、關聯標記、句間相似度自頂向下對文本進行分隔。(3)句際邏輯關係判定,利用小句的事件義、情感義、否定義、時態義、結構義等不同語義範疇特徵進行SVM分類,將利用LDA模型將辭彙特徵轉換為主題空間中的三類特徵,將利用LinkLDA模型來捕捉邏輯關係對兩個論元的協同語義制約。(4)驗證系統,基於大規模語料來擬合不同句際關係的權值來提升文本情感計算的性能。(5)語言資源建設,將構建100萬字、15萬句的漢語話題和句際關係標註語料庫。
結題摘要
無標記的主次複句是語言類型學上漢語的顯赫範疇,篇章層面漢語文本句際關係的自動分析與問-答句際關聯度計算具有重要的理論意義與套用價值。1、 針對漢語語言特點,制定了漢語句際關係標註規範,構建了約200萬字的漢語句際關係標註語料庫,可作為漢語篇章關係研究的訓練和測試的基準數據。2、研究了漢語句際關係自動分析的方法,提出了“類排序SVM句際層級結構分析方法”與“基於一體化標籤的篇章樹構建方法”。3、將篇章信息和句際信息融入到深度神經網路,在答案選擇、答案判斷、對話行為識別等任務上顯著提升了系統性能。4、研究了問-答句際關聯度計算方法,提出了“去噪張量自編碼器”,高效地建模問答句複雜的語義關聯並對張量網路進行有效的預訓練;提出了“結合顯式匹配信息的神經網路關聯度計算方法”,能夠同時捕捉深層語義關聯與淺層顯式匹配信息。5、探索了基於維基百科的漢語辭彙語義關聯度計算方法,探究了深度學習中漢語字向量與詞向量的結合方式。6、在NLPCC會議上,組織了兩項漢語語義計算評測任務。