面向自然口語對話的深層次信息感知與表達方法研究

項目摘要

現有的口語對話系統在信息處理時，忽視了音視覺所傳遞的意圖側重、情感態度等反映對話意圖的深層次信息，缺乏對其進行感知與表達的能力，導致系統輸出平淡乏味，難以滿足自然口語對話的要求。本項目擬系統地分析人們的自然口語對話過程；研究分析深層次信息與對話情境、語音視覺表現間的關係；提出用戶輸入的認知評估算法，建立融合對話情境、音視覺特徵的深層次信息感知模型；提出系統回響的預測算法，建立深層次信息回響預測模型；提出系統輸出的表達控制算法，實現深層次信息的音視覺表達生成；從語音和視覺多通道構建面向自然口語對話的深層次信息感知與表達方法（含認知評估、回響預測、表達控制），實現具有對話意圖理解與表達能力的自然口語對話系統。相關成果將加深對言語互動過程中對話情境與音視覺表達間關係的理解，為在人機互動中建立更有效的音視覺感知與生成提供必要的理論基礎，並積累相應的關鍵技術。本研究具有廣泛的套用前景。

結題摘要

現有口語對話系統在處理時忽視了音視覺所傳遞的反映溝通意圖的“深層次信息”，缺乏對其進行感知與表達的能力，難以滿足自然口語對話的要求。本項目旨在從對話焦點入手，系統分析自然口語對話過程中信息表達的含義，研究對話焦點約束下的對話意圖理解、對話意圖的多模態表達的理解與呈現模型，研究新型的人機對話方法。圍繞上述目標，本項目取得的主要研究進展和成果如下：在對話焦點檢測方面，提出了多模態的口語對話焦點感知和預測方法，實現由用戶輸入檢測是否存在焦點；在對話意圖理解方面，提出了基於多任務深度學習的用戶意圖理解模型，並將詞向量模型用於對話系統意圖分類，基於文本語音等多模態信息準確理解說話人意圖；在對話建模管理方面，建立了語音圖像對話管理模型，進行多模態深度融合內容理解及面向用戶教授意圖的答案反饋；在具有溝通意圖表達功能的可視語音合成方面，提出了面向對話互動的焦點重音生成方法，利用雙向長短時記憶網路構建音視覺參數映射模型，實現符合焦點重音表達需求的虛擬說話人臉像頭動生成；在系統原型研製方面，構建了基於自我對話機制的用戶教授意圖的聊天機器人，研發了口語對話演示系統，實現了文本焦點及語音重音的自動檢測、文本視覺語音融合的意圖理解、凸顯焦點意圖表達的語音重音生成及虛擬人生成。在國內外重點學術刊物和會議上發表學術論文46篇，其中SCI檢索4篇，EI檢索34篇，期刊論文6篇，CCF A類頂級會議論文3篇；獲教育部科技進步二等獎，會議最佳論文獎，全球極客大賽“AI仿聲驗聲攻防賽”第一名；培養畢業博士4人，畢業碩士12人；申請國家發明專利1項；科技成果轉化93萬元人民幣。本項目研究加深了對言語互動過程中話語意圖與音視覺表達關係的理解，為人機互動中多模態意圖感知理解、凸顯意圖的可視語音生成積累了關鍵技術。隨著人工智慧發展，本項目成果可套用在智慧型語音助手、智慧型音箱、聊天機器人、虛擬現實中等，具有廣泛套用前景。

面向自然口語對話的深層次信息感知與表達方法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條