《漢語語篇中連貫關係和隱含角色的分析標註研究》是依託清華大學,由周強擔任項目負責人的面上項目。
基本介紹
- 中文名:漢語語篇中連貫關係和隱含角色的分析標註研究
- 依託單位:清華大學
- 項目負責人:周強
- 項目類別:面上項目
項目摘要,結題摘要,
項目摘要
漢語語篇的意合型結構,對語篇連貫性計算理解提出了新的挑戰。本項目將語篇結構的連貫關係分析和隱含角色回指識別兩種技術有機結合起來,把它們落實到內部信息相對自足的語段描述單位上,通過設計有效的漢語語段連貫性描述體系,選擇合適的連貫關係和隱含角色回指標記集,將這兩種基於關係和基於實體的不同連貫性判定信息整合在基於事件關係圖的分析標註結構中,為缺乏顯式標記的漢語語篇結構探索出了一條可操作、可計算的局部語篇片段連貫性分析計算途徑。在此基礎上,研究漢語真實篇章的語段連貫性分析標註方法,開發方便靈活的人機互助標註平台,構建大規模的漢語語段連貫性標註庫,探索漢語語段連貫關係分析、隱含角色回指確定和邊界識別等核心技術並組織相應的國際評測。其預期研究成果可以方便地推廣到漢語語篇的其他指代回指現象,從而大大拓展該項技術在漢語語篇連貫性分析計算中的套用範圍,推動中文信息處理技術從句子分析向語篇分析的進化和發展。
結題摘要
漢語語篇的意合型結構,對語篇連貫性計算理解提出了新的挑戰。本項目針對不同層次的漢語獨白和對話語篇的連貫性描述特點,提出了不同的解決方案。針對現有開放式關係集對語篇段落連貫內容的弱限制性問題,引入句群分析單元,通過句群主旨句提煉和功能類別分析實現對句群整體內容的完整把握; 針對漢語複句中各個相鄰小句間普遍存在的核心角色承前和蒙後省略現象,引入話題鏈分析機制,有效識別複雜句子中通過不同話題鏈連線形成的事件前後景描述形式; 針對會話過程中相鄰話語訊息之間的潛在內容連貫性,引入不同話語訊息的核心功能描述子類和話題線索分析機制,加強對話行為依存對和連貫修辭對的結構描述,有效組織會話中的話題變化趨勢。以此為基礎,總結完成了3個漢語語篇連貫性標註規範,構建了包含317個新聞學術類語篇、總規模40萬詞左右的漢語句群主旨標註庫,包含2萬多句子、總規模50萬詞以上的漢語複雜句子話題鏈標註庫,包含500個日常會話片段、10000條話語訊息的對話行為標註庫。探索了語篇標註難度預測方法和基於主題模型的句群邊界自動切分方法,研究了小句間零形指代話題鏈和典型承接/並列關係的自動識別方法,初步證明了深度學習模型在語篇句子連貫性計算方面的套用效果。另外,深入研究了弱標記、噪音和稀疏的大規模數據環境下的固定實體關係挖掘問題,提出了許多新的計算模型。以上研究工作,為進一步進行獨白語篇句群主旨提煉和對話語篇意圖預測研究打下了很好的基礎。