中文自動口語摘要技術研究

《中文自動口語摘要技術研究》是依託清華大學,由吳及擔任項目負責人的面上項目。

基本介紹

  • 中文名:中文自動口語摘要技術研究
  • 依託單位:清華大學
  • 項目負責人:吳及
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

面對資訊時代海量的多媒體數據,以智慧型處理手段實現高效的信息檢索和數據管理的需求已極為迫切。自動摘要技術能夠實現對文檔內容的壓縮和精煉,是信息快速獲取和數據有效管理的關鍵技術。面向文本的自動摘要在國內外得到廣泛關注,而口語文檔自動摘要技術的研究則剛剛起步。最直接的口語自動摘要實現方案是先對口語文檔進行語音識別,再利用文本摘要技術自動提取口語文檔摘要,但這個方案既不利於處理語音識別引入的錯誤,也不利於挖掘口語文檔所攜帶的大量信息。本課題將超越上述串列框架,充分挖掘口語文檔中語音信號和識別得到的文本中所蘊含的各種信息,針對自動提取高性能口語文檔摘要的目標進行整體設計和最佳化。研究內容包括:面向口語自動摘要任務的特徵選擇,面向不同特徵的多分類器設計和參數學習算法,多知識源融合的測度統一的整體模型,從最最佳化角度研究高效覆蓋口語文檔內容的摘要提取方法等。本課題的研究對口語文檔的理解和使用具有重要價值。

結題摘要

隨著語音識別,轉錄等相關技術的成熟和廣泛套用,無結構化的文本數據爆炸式增長。自動摘要技術是高效處理這些海量的無結構化文本數據的有效手段,具有廣闊的套用前景。本項目以中文口語為對象,研究面向中文口語自動摘要的相關技術和方案。 本項目的主要工作包括以下幾個方面:1、參考了國際NIST的相關標準做法建立了同時包含音頻信息、標註文本、識別文本、人工編寫摘要等信息完備的用於研究中文口語自動摘要技術的BN數據集;2、詳細的探索了句子的結構特徵、辭彙特徵、語義特徵、聲學特徵等多源信息的特徵表示和相關特性;3、在摘要句提取上,分別探索了基於MMR框架、基於主題分布學習、基於SVM分類技術、基於小世界和PageRank的圖技術等多種摘要句提取算法;並系統對比研究摘要文本和識別文本上提取摘要句的各自特性,揭示了音頻特徵在口語摘要任務中具有重要的信息糾錯和補充作用;4、為了有效解決多源特徵的融合問題,在摘要提取算法中本項目重點探索了自適應組合特徵法和自學習特徵排序法兩種高效的摘要句提取框架;其中自適應組合特徵法通過在摘要句提取過程中自適應的調整特徵權值簡單高效的完成了多源特徵的互補融合,並避免了信息的冗餘;自學習特徵排序法以Learning to Rank的方式自動學習多源特徵的組合權重,從而有效的將各特徵融合在一起綜合表示句子的重要性;5、本項目還結合近年來流行的詞和句子的語義向量表示技術(如word2vec和sent2vec等)進行了前沿性探索,提出了一種簡單高效的自動摘要技術—魯棒性語義表示模型。通過在BN等數據集上進行大量的實驗,並採用標準的ROUGE測試,證明了本項目研究所提出的中文口語自動摘要算法的有效性。 本項目在特徵表示,特徵融合,摘要提取等方面展開了深入的研究,探索了中文口語摘要的特性,提出了有效的多源特徵融合和摘要提取算法;在方法層面對自動摘要技術相關研究具有重要的參考和指導意義,同時對口語文檔的理解和使用也具有重要的套用價值。

相關詞條

熱門詞條

聯絡我們