語音檢索

語音檢索

語音檢索是以語音為中心的檢索,利用語音識別與處理技術來檢索音頻信息。如電台節目、電話交談、會議錄音等。語音檢索的常用方法有:利用大辭彙語音識別技術進行檢索、基於子詞單元檢索、基於識別關鍵字檢索、基於說話人的辨認進行分割和索引。

基本介紹

  • 中文名:語音檢索
  • 外文名:audio retrieval
  • 意義:用語音識別技術檢索音頻信息
  • 常用方法:利用大辭彙語音識別技術檢索等
識別技術,常用方法,

識別技術

語音識別的研究目標是讓計算機“聽懂”人類口述的語言。這裡,“聽懂”有兩層含義:第一是將這種口述語言逐詞(字)逐句地轉換為相應的書面語言(即文字);第二是對口述語言中所包含的要求或詢問做出正確的回響,而不拘泥於把所有字詞正確轉換為書面文字。可以說,語音識別是建立計算機聽覺系統的基礎,它使得人與計算機之間利用自然語言進行通信成為可能。
語音識別技術的研究起始於20世紀50年代初期,但直到60年代中期以後才逐步取得實質性進展。進入70年代後,得益於來自不同領域和部門套用需求的強力推動,語音識別進入一個研究高潮期,並在80年代中期陸續推出了一些較簡單的商品化語音識別系統。要了解語音識別技術的研究進展情況,可以從以下幾個方面來認識。
1、辭彙表大小
每一個語音識別系統都必須有一個辭彙表,系統只能識別辭彙表中所包含的詞條。詞的數量越多,則系統的實現越困難。困難主要來自:第一,詞條越多,則相似的詞越多,由於分辨相似詞的困難,誤識率相應增加;第二,隨著詞數增多,搜尋運算的計算開銷會迅速增加。目前,辭彙表規模大小的劃分標準一般是:詞數小於100時稱為小辭彙表;100到500稱為中辭彙表;超過500時稱為大辭彙表。
2、講述方式
按照講述方式的不同,語音識別可以分為孤立詞、連線詞和連續語音三種識別方式。孤立詞識別(IWR)方式是指說話人每次只說一個詞、一個詞組或一條命令來讓識別系統識別,其中的詞組或命令在辭彙表中都算作一個獨立詞條。連線詞識別(CWR)一般特指對10個數字(0-9)連線而成的多位數字的識別,有時還可加上少量的操作指令。連線詞識別套用系統在電話語音撥號、信用卡號碼驗證、計算機操作命令及工業控制命令識別等場合用途很廣。連續語音識別(CSR)是指對說話人日常自然講述方式的識別。顯然,上述三種不同方式的識別研究,其困難程度是依次遞增的。
3、服務對象
語音識別系統可以是只針對一個用戶服務的,例如個人專用的語音打字機,這種系統稱為特定人工作方式。系統若是針對任何人的,則稱為非特定人方式。顯然,後者的實現難度要遠大於前者。
4、識別器需完成的任務
在語音打字機這一類任務中,要求識別器正確無誤地將口述語言逐詞逐句轉換為書面文本。在問詢、查詢和控制系統中,需要對用戶的要求做出正確回響,而用戶在說話中常帶有語氣詞和一些不必要的添加話語,這時識別系統只需識別其中關鍵的詞條。更高級一些的識別系統則需要了解話語的語義信息和語用信息,這將涉及到自然語言理解的研究範疇。
5、其他
在語音識別研究中,還涉及到語音質量、套用領域的寬窄、句法約束等方面的一些因素。例如,語音質量方面,當識別器在安靜的環境中工作,可以獲得較好的效果;而在強噪聲(例如汽車、飛機、工廠等)或者多人同時說話的嘈雜環境中,識別器則需要克服較大的困難才能夠適應這種情況。
目前,對於特定人、小辭彙表、孤立詞語音識別問題,研究人員已經取得了很大成功,這類語音識別系統一般按照簡單的模板匹配原理工作:在訓練階段,用戶將辭彙表中的每一個詞依次說一遍,將其特徵向量序列作為模板存入模板庫中;在識別階段,將輸入語音的特徵向量序列依次與模板庫中的每一個模板進行相似度比較,將相似度值最高者作為識別結果輸出。但是,這種系統的套用能力非常有限,在很多套用環境中,需要的是能夠滿足大辭彙表、連續語音、非特定人的語音識別技術和識別系統。因此,進入90年代以來,語音識別研究的主攻方向是基於大辭彙表和非特定人的連續語音識別問題,採用的研究思路主要有兩條:基於規則描述的知識工程或人工智慧方法和以隱馬爾可夫模型(HMM)為基本框架的機率統計方法。其中,後一種方法要更為有效些,它從聲學-語音層直到句法層,將全部語音的統計知識容納在一個統一的、易於計算的HMM框架之內。

常用方法

利用大辭彙語音識別技術檢索
這種方法是利用自動語音識別(ASR)技術把語音轉換為文本,從而可以採用文本檢索方法進行檢索。雖然好的連續語音識別系統在小心地操作下可以達到90%以上的詞語正確度,但在實際套用中,如電話和新聞廣播等,識別率並不高。即使這樣,ASR識別出來的腳本仍然對信息檢索有用,這是因為檢索任務只是匹配包含在音頻數據中的查詢詞句,而不是要求一篇可讀性好的文章。例如,採用這種方法把視頻的語音對話軌跡轉換為文本腳本,然後組織成適合全文檢索的形式支持檢索。
基於子詞單元檢索
當語音識別系統處理各方面無限制主題的大範圍語音資料時,識別性能會變差,尤其當一些專業辭彙(如人名、地點)不在系統詞庫中時。一種變通的方法是利用子詞(Sub Word)索引單元,當執行查詢時,用戶的查詢首先被分解為子詞單元,然後將這些單元的特徵與庫中預先計算好的特徵進行匹配。
基於識別關鍵字檢索
在無約束的語音中自動檢測詞或短語通常稱為關鍵字的發現。利用該技術,識別或標記出長段錄音或音軌中反映用戶感興趣的事件,這些標記就可以用於檢索。如通過捕捉體育比賽解說詞中“射門”、“進球”的詞語可以分別標記比賽中射門和進球的語音內容。
基於說話人的辨認進行分割和索引
這種技術是簡單地辨別出說話人話音的差別,而不是識別出說的是什麼。它在合適的環境中可以做到非常準確。利用這種技術,可以根據說話人的變化分割錄音,並建立錄音索引。例如,用這種方法對電台節目、會議錄音進行分割和分析,分割出來不同區段分別對應不同的說話人或聲學類型(例如靜音、掌聲、音樂、廣告聲等),而在用戶界面方面,考慮以時間線的形式顯示分割的區段,這樣用戶就可以方便地直接瀏覽長段會議音頻資料。

相關詞條

熱門詞條

聯絡我們