語音識別系統

語音識別系統

語音識別系統的套用可以分為兩個發展方向:一個方向是大辭彙量連續語音識別系統,主要套用於計算機的聽寫機,以及與電話網或者網際網路相結合的語音信息查詢服務系統,這些系統都是在計算機平台上實現的。

另外一個重要的發展方向是小型化、攜帶型語音產品的套用,如無線手機上的撥號、汽車設備的語音控制、智慧型玩具、家電遙控等方面的套用,這些套用系統大都使用專門的第三方軟體來實現,特別是近幾年來迅速發展的語音信號處理專用晶片(Application Specific Integrated Circuit,ASIC)和語音識別片上系統(System on Chip,SOC)的出現。

基本介紹

  • 中文名:語音識別系統
  • 外文名:Speech recognition system
  • 套用領域:汽車的語音控制等
  • 特點:智慧型識別
歷史,套用領域,電話語音撥號,汽車語音控制,工業與醫療領域,個人數字助理,智慧型玩具,家電遙控,功能特點,

歷史

早在計算機發明之前,自動語音識別的構想就已經被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產的"Radio Rex"玩具狗可能是最早的語音識別器,當這隻狗的名字被呼喚的時候,它就能夠從底座上彈出來。最早的基於電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字。其識別方法是跟蹤語音中的共振峰。該系統得到了98%的正確率。到1950年代末,倫敦學院(Colledge of London)的Denes已經將語法機率加入語音識別中。
汽車語音智慧型識別系統汽車語音智慧型識別系統
1960年代,人工神經網路被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear Predictive Coding (LPC), 及動態時間彎折Dynamic Time Warp技術。
語音識別技術的最重大突破是隱含馬爾科夫模型Hidden Markov Model的套用。從Baum提出相關數學推理,經過Labiner等人的研究,卡內基梅隆大學李開復最終實現了第一個基於隱馬爾科夫模型的大辭彙量語音識別系統Sphinx。。此後嚴格來說語音識別技術並沒有脫離HMM框架。
儘管多年來研究人員一直嘗試將“聽寫機”推廣,語音識別技術在目前還無法支持不限領域,不限說話人的聽寫機套用。

套用領域

電話語音撥號

特別是在中、高檔行動電話上,現已普遍的具有語音撥號的功能。隨著語音識別晶片的價格降低,普通電話上也將具備語音撥號的功能。

汽車語音控制

由於在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的衛星導航定位系統(GPS)的操作,汽車空調、照明以及音響等設備的操作,同樣也可以由語音來方便的控制。

工業與醫療領域

當操作人員的眼或手已經被占用的情況下,在增加控制操作時,最好的辦法就是增加人與機器的語音互動界面。由語音對機器發出命令,機器用語音做出應答。

個人數字助理

個人數字助理(Personal Digital Assistant,PDA)的語音互動界面。PDA的體積很小,人機界面一直是其套用和技術的瓶頸之一。由於在PDA上使用鍵盤非常不便,因此,現多採用手寫體識別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便。現在業界一致認為,PDA的最佳人機互動界面是以語音作為傳輸介質的互動方法,並且已有少量套用。隨著語音識別技術的提高,可以預見,在不久的將來,語音將成為PDA主要的人機互動界面。
語音識別系統的構成語音識別系統的構成

智慧型玩具

通過語音識別技術,我們可以與智慧型娃娃對話,可以用語音對玩具發出命令,讓其完成一些簡單的任務,甚至可以製造具有語音鎖功能的電子看門狗。智慧型玩具有很大的市場潛力,而其關鍵在於降低語音晶片的價格。

家電遙控

用語音可以控制電視機、VCD、空調、電扇、窗簾的操作,而且一個遙控器就可以把家中的電器皆用語音控起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。
除了上文中所提到的套用以外,語音識別專用晶片在其他方面的套用可以說是不勝枚舉。隨著語音識別專用晶片的技術不斷提高,將給人們帶來極大的方便。

功能特點

對比語音識別技術的兩個發展方向,由於基於不同的運算平台,因此具有不同的特點。大辭彙量連續語音識別系統一般都是基於PC機平台,而語音識別專用晶片的中心運算處理器則只是一片低功耗、低價位的智慧型晶片,與一台甚至多台PC機相比起來,其運算速度,存儲容量都非常有限,因而這些由專用晶片實現的語音識別系統有如下幾個特點:
1、多為中、小辭彙量的語音識別系統,即只能夠識別10~100詞條。只有近一兩年來,才有連續數碼或連續字母語音識別專用晶片實現。
2、一般僅限於特定人語音識別的實現,即需要讓使用者對所識別的詞條先進行學習或訓練這一類識別功能對語種、方言和詞條沒有限制。有的晶片也能夠實現非特定人語音識別,即預先將所要識別的語句碼本訓練好而裝入晶片,用戶使用時不需要再進行學習而直接套用。但這一類識別功能只適用於規定的語種和方言,而且所識別的語句只限於預先已訓練好的語句。
3、由此晶片組成一個完整的語音識別系統。因此,除了語音識別功能以外,為了有一個好的人機界面和識別正確與否的驗證,該系統還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能。
4、多為實時系統,即當用戶說完待識別的詞條後,系統立即完成識別功能並有所回應,這就對電路的運算速度有較高的要求。
5、除了要求有儘可能好的識別性能外,還要求體積儘可能小、可靠性高、耗電省、價錢低等特點。

相關詞條

熱門詞條

聯絡我們