定義
自動語音識別(Automatic Speech Recognition 簡稱“ASR“)技術的目標是讓計算機能夠“聽寫”出不同人所說出的連續語音,也就是俗稱的“語音聽寫機”,是實現“聲音”到“文字”轉換的技術。 自動語音識別也稱為語音識別(Speech Recognition)或計算機語音識別(Computer Speech Recognition)。
語音識別是研究如何採用
數位訊號處理技術自動提取以及決定語音信號中最基本、最有意義的信息的一門新興的邊緣學科。它是語音信號處理學科的一個分支。
性能因素
語音識別系統的性能大致取決於以下4類因素:1. 識別辭彙表的大小和語音的複雜性;2. 語音信號的質量;3. 單個說話人還是多說話人;4. 硬體。
學科領域
信號處理、物理學(聲學)、模式匹配、通信及信息理論、語言語音學、生理學、計算機科學(研究軟硬體算法以便更有效地實現用語識別系統中的各種方法)、心理學等。
分類
自動語音識別通常有以下幾種分類方法:
(1)按系統的用戶情況分:特定人和非特定人識別系統;
(2)按系統辭彙量分:小辭彙量、中辭彙量和大辭彙量系統;
(3)按語音的輸入方式分:孤立詞、連線詞、連續語音系統等;
(4)按輸入語音的發音方式分:朗讀式、口語(自然發音)式;
(5)按輸入語音的方言背景情況分:國語、方言背景國語、方言語音識別系統;
(6)按輸入語音的情感狀態分;中性語音、情感語音識別系統。
套用說明
語音識別技術適用於家用電器和電子設備,如電視、計算機、汽車、音響、冷氣等的聲控遙控器,電話、手機或PDA上的聲控人名撥號、數字錄音機的聲控語音檢索標籤、兒童玩具的聲控等;也可用於個人、
呼叫中心,以及電信級套用的信息查詢與服務等領域。
(1)帶語音信箱的接線員
“關鍵字檢出器”技術是一種自動語音識別(ASR)技術。它套用於一些具有特定要求的場合,由於速度、高檢出率或其他特定的要求,人們並不需要系統識別出整個句子,更不需要理解整個句子,而只關注那些包含特定詞(稱為“關鍵字”)的句子。比如,對一些特殊人名、地名和詞語進行電話監聽,又比如通過人名進行自動分機接駁服務,等等。
(2)口語學習系統
口語學習系統利用可視化的朗讀評分等人機互動的方式,通過視覺、聽覺等綜合手段,反覆提示和幫助用戶接近標準發音。該系統廣泛套用於多種電腦設備和網路環境:
n 可集成到語言學習軟體和VCD中;
n 可與復讀機/mp3配套使用,用戶可直接對著麥克風朗讀,也可把錄音與標準模型對照,提供了更方便和全面的口語訓練方案;
n 支持網路
遠程服務,系統可實時處理眾多用戶通過網路傳來的語音,用戶可隨時上網選擇自己所需的內容進行個性化的學習和訓練;
適合教育機構、商業企業、政府部門方便、快捷、可靠、客觀地考核各類人才的口語能力和會話水平,套用於優秀人才聘用、工作能力考察、設定入學和畢業標準、評估教學成效等領域。
聲控
撥號器(Voice Dialer)是基於Pocket PC的漢語聲控撥號器。聲控
撥號器套用了與說話人無關(即非特定人)的語音識別技術,用戶無需線上訓練,也無需預先錄製聲控標籤,就能通過語音方便、快捷撥號,好學易用。
●非特定人,無需訓練;
●識別率高,識別速度快;
●與聯繫人信息保持同步;
●支持漢字/拼音形式的聯繫人姓名;
●聯繫人姓名讀音可定製;
●模型小,參數可定製。
基本原理
訓練(Training):預先分析出語音特徵參數,製作語音模板,並存放在語音參數庫中。
識別(Recognition):待識語音經過與訓練時相同的分析,得到語音參數。將它與庫中的參考模板一一比較,並採用判決的方法找出最接近語音特徵的模板,得出識別結果。
失真測度(Distortion Measures):在進行比較時要有個標準,這就是計量語音特徵參數矢量之間的“失真測度”。
主要識別框架:基於模式匹配的動態時間規整法(DTW)和基於統計模型的隱馬爾可夫模型法(HMM)。