面向多媒體信息檢索的語音處理關鍵技術研究

面向多媒體信息檢索的語音處理關鍵技術研究

《面向多媒體信息檢索的語音處理關鍵技術研究》是依託華南理工大學,由賀前華擔任項目負責人的面上項目。

基本介紹

  • 中文名:面向多媒體信息檢索的語音處理關鍵技術研究
  • 項目類別:面上項目
  • 項目負責人:賀前華
  • 依託單位:華南理工大學
項目摘要,結題摘要,

項目摘要

多媒體信息已經成為網際網路的主體信息之一,目前基於內容的檢索技術研究重點是圖像、視頻及音樂;對語音信息,一般採用語音識別技術將語音轉換成文本,然後採用文本檢索的方式加以處理。而ASR所得到的轉換文本存在識別不準確、集外詞、結構信息和非文字信息丟失等多種缺陷。如何直接利用語音信息提高多媒體檢索效率和人機互動的友好性沒有得到足夠的重視。針對這些問題,本課題重點研究(1)多媒體中音頻分割及分類;(2)關鍵音段確定; (3)說話人信息提取方法及其在信息檢索中的套用;(4)語音信息和視頻信息在多媒體檢索中的相互作用方式。 .本課題有非常明確的套用前景:多媒體檢索。理論上也具有很大的挑戰性,研究內容日益得到人們的重視,對加快我國信息產業的發展有重要作用。預期發表學術論文10篇,申報專利1項。

結題摘要

本課題共發表標註學術論文25篇(11篇被檢索),其中期刊論文15篇,會議論文10篇;培養青年教師6名, 博士研究生6名(3名已畢業),碩士研究生12名(10名已畢業),申請國家發明專利2件,其中一項參與PCT,另有2件實用新型專利。 本課題圍繞多媒體信息檢索中的語音信號處理關鍵問題:音頻分割及分類、關鍵音段定義及檢測、說話人信息分析及套用以及音視頻信息的融合套用開展研究,取得了一定的階段性成果。同時為了本課題及今後的研究建設了相當規模的語音資料庫,資料庫包括躍50小時的會議錄音、18個月的中央新聞聯播、約為20小時的電視劇及體育競賽、以及約14小時的非正常身體狀況下的語音四個方面的內容。所有的語音數據均根據課題研究的需要進行了標註。 在音頻分割及分類方面,主要考慮了語音和非語音的分割問題,因為從複雜的音頻環境中檢測出語音信號是進行說話人辨識和語音識別的前提,非語音方面重點檢測呼吸聲、咳嗽聲、掌聲、笑聲、喧譁聲、咂嘴聲等具有一定語義的音頻對象,比如笑聲表示一種歡樂的場景,發表相關學術論文8篇。說話人信息分析及套用方面,重點研究說話人改變檢測、依據說話人的語音聚類方法研究,為多媒體信息構建說話人信息索引提供了依據。提出了一種兩步判決的說話人分割方法,開展了無監督的說話人譜聚類方法;探索了基於說話人頻次、說話人持續時間、平均每次說話人時長和說話人位置因子四個因素相結合的說話人關鍵度定義方法,把每個故事中說話人關鍵度最大的人作為關鍵說話人,有效地降低了索引量;並開展了結合GMM、Jensen’s不等式和BIC判決的說話人索引方法。發表相關學術論文6篇。音視頻信息的綜合套用方面,本課題探索了了一些常規的視頻分析方法,比如鏡頭、故事檢測等,為音視頻結合提供基本條件。主要成果是構建了一個完整的多媒體檢索系統,提供基於音頻樣本、視頻樣本、圖像樣本和視頻螢幕文字檢索四種高級檢索方式,同時還提供基於日期和關鍵字的常規檢索方式,對本課題的研究成果進行了比較全面的評估。並發表了相關學術論文3篇。

相關詞條

熱門詞條

聯絡我們