基於數據驅動的中文自然語言生成關鍵技術研究

項目摘要

如何讓計算機生成人類可以理解的語言，是一個重要的科學問題，同時也是實現人機自然互動、機器翻譯、文本摘要等任務的重要技術手段。本課題以中文自然語言生成為具體任務，探索語言理解過程中的形式化理論及統計學習方法在語言生成中的套用，為提升現有語言生成技術的可重用性及魯棒性、降低系統開發代價尋求有效途徑。研究內容包括：1.基於上下文無關語法的生成空間描述，借鑑語言理解中的句法分析方法，自動構建以語言生成為目的的概念短語層級樹；2.基於噪聲信道模型的生成決策規劃，進行深層結構及表層結構的統一實現，充分利用基於知識驅動的語言模型及基於動態規劃的解碼算法的機率特性及領域無關特性，提高系統的可重用性及魯棒性；3.針對中文自然語言生成系統的評測數據及評測技術研究，研製並開放一套用於漢語語言生成技術評測的標準數據及基礎工具，為漢語語言生成技術提供科學一致的評測方法。

結題摘要

目前，主流的自然語言生成（NLG）技術普遍面臨缺少良好的形式化方法、領域可重用性及魯棒性差等挑戰。本課題旨在探索語言理解過程的形式化理論及方法在語言生成中的套用，重點研究基於機率上下文無關文法（PCFG）的漢語自然語言生成技術，具體地，採用機率上下文無關文法對語義項及其對應自然語言句子描述之間的隱藏關係進行編碼，對於輸入的語義項，自然語言生成問題就轉化為如何解碼得到最優句法樹的問題。這一研究思想不僅提供了一種有效的自然語言生成的形式化方法，而且有效提高了自然語言生成系統的可重用性及魯棒性，同時，為其它基於數據驅動的自然語言生成技術的進一步研究打下了紮實的基礎。三年來，本項目嚴格按照計畫執行，課題總體進展順利，達成預期的研究目標。特別是：(1)在語言生成過程形式化方面，借鑑語言理解的形式化理論，提出了基於決策森林的生成空間表示方法與基於機率上下文無關文法的生成過程形式化方法，通過自動歸納獲取用於語言生成的PCFG規則，將生成過程表示為定義良好的、包含概念、短語、辭彙多層級的決策森林；(2)在生成決策最佳化方面，提出了一種可以融合多元特徵的解碼算法，同時完成句子規劃與表層實現，充分利用從大量無標記語料習得的語言模型知識、語義項之間的結構依賴關係、詞組之間的長距離相依關係，顯著提高了生成的句子的質量；(3)在自然語言生成技術的評價方面，採用不同領域、不同風格及不同文本長度的5個評測數據，對生成系統進行了量化分析，評測表明，本課題的研究方法在確保生成高質量的自然語言的同時，可以有效提升系統的復用性及魯棒性，極大降低系統的開發代價。經過三年的研究，我們在SIGGEN、CCL、NLPCC等重要國際國內會議和期刊上發表了論文10篇，已受理專利2項。

基於數據驅動的中文自然語言生成關鍵技術研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條