語音套用編程接口

語音套用編程接口

語音,即語言的物質外殼,是語言的外部形式,是最直接地記錄人的思維活動的符號體系。它是人的發音器官發出的具有一定社會意義的聲音。語音的物理基礎主要有音高、音強、音長、音色,這也是構成語音的四要素。語音套用即在應用程式利用已有語音技術,語音套用編程接口是指開發與語音有關應用程式或功能的編程接口。

基本介紹

  • 中文名:語音套用編程接口
  • 外文名:Voice application programming interface
  • 學科:計算機
  • 定義:語音技術API
  • 有關術語:語音技術、API
  • 領域:語音套用、多媒體
簡介,語音技術,語音合成,語音識別,語音處理,API,程式功能,Windows語音,

簡介

語音識別和語音技術是實現人機語音通信,建立一個有聽和講能力的口語系統所必需的兩項關鍵技術。使電腦具有類似於人一樣的說話和聽懂人說話的能力。
語音套用編程接口是指開發與語音有關應用程式或功能的編程接口。這些接口一般都是從事語音技術研究的公司和研究機構提供的,主要語音有關技術入門門檻較高,開發周期長,開發者一般都使用第三方提供的接口。常見的語音套用編程接口有訊飛語音套用編程接口、百度語音編程接口和微軟語音編程接口等。

語音技術

語音技術在計算機領域中的關鍵技術有語音處理、自動語音識別技術(ASR)和語音合成技術(TTS)。讓計算機能聽、能看、能說、能感覺,是未來人機互動的發展方向,其中語音成為未來最被看好的人機互動方式,語音比其他的互動方式有更多的優勢。

語音合成

語音合成的主要功能是:根據韻律建模的效果,從原始語音庫中取出相應的語音基元,利用特定的語音合成技術對語音基元進行韻律特性的調整和整改,最終合成符合要求的語音。
語音合成技術經歷了一個逐步發展的過程,從參數合成到拼接合成再到兩者得的逐步結合,其不斷發展主要是人們認知水平以及要求的不斷提高的結果。目前,常用的語音合成技術主要有:共振峰合成技術、LPC合成技術、PSOLA拼接合成和LMA聲道模型技術。各種合成技術各有自己的優缺點,人們在套用的過程中往往將多種技術有機的結合在一起,或者將一種技術的優點套用到另一種技術上,以克服另一種技術的不足。

語音識別

語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。 語音識別聽寫機在一些領域的套用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。語音識別技術的套用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加複雜的套用,例如語音到語音的翻譯。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。 語音識別技術主要包括特徵提取技術、模式匹配準則及模型訓練技術三個方面。語音識別技術車聯網也得到了充分的引用,例如在翼卡車聯網中,只需按一鍵通客服人員口述即可設定目的地直接導航,安全、便捷。

語音處理

音處理(speech signal processing)用以研究語音發聲過程、語音信號的統計特性、語音的自動識別、機器合成以及語音感知等各種處理技術的總稱。由於現代的進音處理技術都以數字計算為基礎,並藉助微處理器、信號處理器或通用計算機加以實現,因此也稱數字語音信號處理。語音處理主要有兩個目的:減少信號噪聲,做出想要的信號模組。進行語音辨識,使人可以利用語言與電腦溝通。

API

應用程式接口(Application Programming Interface,API),又稱為套用編程接口,就是軟體系統不同組成部分銜接的約定。API(Application Programming Interface,應用程式編程接口)是一些預先定義的函式,目的是提供應用程式與開發人員基於某軟體或硬體得以訪問一組例程的能力,而又無需訪問源碼,或理解內部工作機制的細節。由於近年來軟體的規模日益龐大,常常需要把複雜的系統劃分成小的組成部分,編程接口的設計十分重要。程式設計的實踐中,編程接口的設計首先要使軟體系統的職責得到合理劃分。良好的接口設計可以降低系統各部分的相互依賴,提高組成單元的內聚性,降低組成單元間的耦合程度,從而提高系統的維護性和擴展性。
API又分為(Windows、Linux、Unix等系統的)系統級API,及非作業系統級的自定義API。作為一種有效的代碼封裝模式,微軟Windows的API開發模式已經為許多商業套用開發的公司所借鑑,並開發出某些商業套用系統的API函式予以發布,方便第三方進行功能擴展。

程式功能

遠程過程調用RPC):通過作用在共享數據快取器上的過程(或任務)實現程式間的通信。
標準查詢語言(SQL):是標準的訪問數據的查詢語言,通過通用資料庫實現應用程式間的數據共享。
檔案傳輸:檔案傳輸通過傳送格式化檔案實現應用程式間數據共享。
信息交付:指松耦合或緊耦合應用程式間的小型格式化信息,通過程式間的直接通信實現數據共享。

Windows語音

Windows語音識別(英語:Windows Speech Recognition)是一個語音識別應用程式,Windows允許用戶通過語音指令控制電腦。程式還可以聽寫文本,使用戶可以通過語音輸入文本。
程式內包含了簡單的指令教程以幫助用戶熟悉。還提供訓練功能,可提高識別準確性。目前,該應用程式支持多種語言,包括英語(美國和英國),西班牙語,德語,法語,日語和中文(簡體和繁體)。
1993年,微軟聘請卡內基梅隆大學的黃學東主導語音識別項目。微軟參與了語音識別和語音合成的研究。公司研發了微軟語音應用程式接口語音識別技術已經被套用在微軟的一些產品,包括Microsoft Dictation(一個研究原型,運行在Windows 9x)。它還內置在Office XP和Office 2003,Microsoft Plus! XP版本,Windows XP Tablet PC Edition和Windows Mobile(作為微軟語音指令)。然而,在Windows Vista之前,語音識別不是主流。對此,Windows語音識別是捆綁在Windows Vista於2006年發布的,使得Vista成為Windows第一個提供完全集成的語音識別支持的主流版本。

相關詞條

熱門詞條

聯絡我們