定義
語音雲,顧名思義,是採用雲計算的方式來執行語音操作。
在傳統通信計算模式下,語音的處理方式多是通過單個通信終端完成,例如我們熟悉的手機等通信終端;在雲計算技術背景下,語音的格式轉換、辨別等操作完全在“雲”端執行。
優勢
語音雲的優勢很大。速度快,準確度很高。
在服務方式上,現在市面上的語音雲都能夠提供簡單易用的api或sdk,使得套用產品能夠通過API直接調用公有雲服務,計算和存儲的壓力都放在雲端進行。降低了套用產品開發的成本,這樣,具體套用開發者就能夠更多的專注於業務需求的開發,而不是糾結於語音識別的方法和準確率上。
使用語音識別,門檻已經不再高不可攀。科大訊飛、雲知聲這兩家企業,都對開發者免費開放了語音雲,通過簡單集成語音雲控制項SDK,就可以使用科大訊飛和雲知聲的語音雲服務。
從易用性上來講,商業公司的積極參與,為語音服務的普及化套用提供了良好的基礎。
帶來的好處
語音雲給用戶帶來的好處是更方便藉助雲計算手段,實現快速的語音套用。比如語音簡訊之類套用。
對於連續語音識別,語音雲支持大辭彙量連續語音線上識別,客戶端套用可以通過API直接調用公有雲服務。在雲計算平台下,科大訊飛、百度、雲知聲的語音識別中文連續語音識別的準確率能夠達90%以上,達到世界領先水平。
其他語音
訊飛語音
開放介紹
近年來國內外IT巨頭紛紛投入巨資加大對智慧型語音技術市場的爭奪,科大訊飛作為亞太地區最大的語音上市公司,擁有全球領先的中文智慧型語音技術,多年來一直致力於研發將語音技術套用到千家萬戶,MSP(iFLY Mobile Speech Platform)便在此背景下誕生。通過MSP,移動網際網路的終端用戶可以隨時隨地的使用語音服務。語音技術帶來品質生活,始終是MSP團隊所堅持不懈的理念。
主要功能
iFLY Mobile Speech Platform(以下簡稱MSP)是一個套用於移動網際網路的語音服務平台,其主要目標是:
1)實現可面向移動2G/3G網路及網際網路提供語音服務的伺服器,在現有科大訊飛電信級語音服務平台ISP基礎上為移動終端應用程式提供多路並發的語音合成、語音識別、語音聽寫功能,通過架設在網際網路的語音套用伺服器,用戶可以隨時隨地獲得高質量的語音服務;
2)實現基於移動終端以及桌面平台的語音套用客戶端,提供統一的語音套用開發接口,通過該接口用戶可以方便、快速地開發語音套用;同時,MSP也將開放一些基於移動以及桌面平台的語音套用,用於展示MSP語音服務平台的功能和使用方法,讓用戶直接體驗到最新的語音技術;
MSP最終提供了架構於網際網路的語音雲服務和一套移動網際網路語音解決方案、套用示例,把語音服務的套用範圍拓寬到移動網際網路領域,為語音服務產品走向移動網際網路市場開闢全新的套用模式。
MSP平台整合了科大訊飛研究院、中國科技大學訊飛語音實驗室以及清華大學訊飛語音實驗室在語音識別、語音合成等技術上多年的技術成果,語音核心技術上達到了國際領先水平。
MSP系統採用分散式架構,繼承了科大訊飛成熟的電信級語音平台高穩定的特點,可以滿足電信級套用的高可靠性、高可用性要求。針對傳統語音套用集成開發困難,業務設計繁瑣的問題,MSP產品大大簡化了集成開發和業務開發的複雜度,為系統集成人員和業務開發人員提供了便捷、高效的開發環境。
MSP作為一個向網際網路和移動網際網路開放的語音引擎,提供了功能完善、簡單易用的集成開發接口,以便開發人員能夠將其與應用程式進行集成,實現具有完整語音能力的套用。MSP提供的主要開發接口從提供功能考慮可以分為語音識別(包含語音聽寫)、語音合成開發
接口和語音檢測開發接口:
1)語音識別開發接口
語音識別接口(QISR)是套用開發者使用識別引擎和語音聽寫引擎進行語音套用開發所必需使用的接口,該接口接受用戶輸入的語音,把語音識別結果返回給應用程式。
2)語音合成開發接口
語音合成接口(QTTS)可以讓套用開發者在應用程式中集成訊飛語音合成引擎的功能,該接口接受應用程式傳入的文本內容,返回符合套用要求格式的音頻數據。
3)語音檢測開發接口
語音檢測(VAD)是語音識別一個重要的輸入環節,用於判斷用戶語音何時開始、何時結束,該接口集成在MSC客戶端內部,通過QISR接口的參數來返回語音狀態。
移動網際網路應用程式需要使用在成千上萬各式各樣的用戶終端之上,用戶終端類型從非智慧型終端到智慧型終端、從手機到智慧型玩具、從PC到網際網路電視,套用作業系統環境形形色色、品類眾多。為了滿足各類客戶端作業系統環境上都能夠使用訊飛語音雲提供的語音功能,MSC為多種終端環境提供了語音開發接口,主要包含Android、iOS、Windows Phone、Windows、Linux、Java、Flash等。
基於訊飛語音雲,第三方開發者可以通過集成SDK,輕鬆實現產品的語音能力,基於訊飛語音雲誕生了一批有代表性的產品。
訊飛輸入法
全球首創“蜂巢”輸入模型,獨家支持拼音、手寫、語音“雲+端”立體輸入引擎。訊飛輸入法,創造極致輸入體驗!
靈犀語音助手
由科大訊飛和中國移動共同打造的貼心生活小秘書,基於科大訊飛語音雲、語義雲,能夠完美支持國語及部分方言,更能深入理解用戶的對話,智慧型的提供相應的服務。靈犀語音助手集打電話、發簡訊、設定提醒、音樂查找與播放、打開套用、餐飲美食、火車航班、查詢天氣、查詢股票、查詢酒店、查詢話費流量等眾多生活領域。
訊飛語音+
面向終端用戶與開發者提供不同的功能。
終端用戶提供的微信輸入助手,通過語音在微信中直接快速輸入文字,讓你成為輸入達人不再是夢!
面向開發者提供語音合成、語音識別、語音喚醒等能力,輕鬆集成,就能讓你的套用實現能聽會說。
雲知聲語音
開放介紹
雲知聲語音雲支持大辭彙量連續語音線上識別,支持套用通過API直接調用公有雲服務。在雲計算平台下,藉助區分度訓練、自適應訓練、大規模網路動態解碼等技術和大規模語料支持,中文連續語音識別的準確率達90%以上,達到世界領先水平。
目前雲知聲提供公有語音雲平台[15]以及私有語音雲平台。
微信語音輸入外掛程式
雲知聲面向微信用戶推出微信語音輸入外掛程式,通過語音在微信中直接快速輸入文字;聊天利器,每分鐘輸入100字,讓好友目瞪口呆。
雲知聲輸入法
雲知聲輸入法!語音識別快又準,輸入動口不動手!從此,用語音輕鬆輸入文字,你有了更理想的選擇!
語控精靈
聯繫人太多?簡訊輸入太麻煩?走路、開車、坐車時手機不好操控?使用語控精靈吧!無需連線網路,通過語音即可操作手機功能,打電話給朋友,發簡訊給朋友,打開套用,開關手機功能。打電話、發簡訊、開套用隨你語控;讓手機隨時隨地聽懂你。
雲知聲語音助手
雲知聲語音助手,是雲知聲旗下的一款中文語音助手軟體,採用了雲知聲自主研發的語音識別雲、語義雲,能夠完美支持國語及部分方言,能夠理解用戶的對話,智慧型的提供相應的服務,以及極具趣味的對話;雲知聲語音助手,是以用戶需求為核心,在日常生活、電話簡訊、發布微博、搜尋備忘、套用管理、手機設定、趣味聊天等等各個領域不斷探索,竭力為用戶帶來更方便快捷、更具趣味的產品體驗,旨在為廣大用戶創造一個全新的語音時代。
百度語音
開放介紹
百度憑藉在語音核心技術上的長期積累,為廣大開發者提供了業界領先的語音技術服務,
百度語音技術在之前已經套用在眾多的自家產品上,10月25日百度正式宣布對外開放語音技術,通過百度語音技術服務,開發者可以輕易獲取強大的語音技術能力,拋開繁複的技術細節,專注於業務邏輯的最佳化,快速構建各種語音互動套用,開發者可以在
百度開發者中心上申請開發自己的語音產品。
永久免費與深度定製
2013年8月22日百度世界大會上,百度宣布語音識別技術及能力全面開放。在百度的引領下,圍繞語音識別的全新體系和大數據生態正式開始在移動網際網路領域發光發熱。時隔兩個月,百度語音識別SDK正式發布,這一點是對套用開發者是最具誘惑力的。它可以向開發者提供長文本語音輸入,語音搜尋詞識別,垂直領域識別等多方面的語音識別服務。另外,語音識別SDK還支持“即說即得”的技術,在用戶輸入語音的同時就返回給用戶連續的中間結果,提升用戶體驗。而最為吸引人的是,相較於其他同類語音識別技術以授權費方式獲取收入的方式,百度將面向開發者無條件免費開放整個語音生態系統,同時支持針對不同套用所進行的深度定製。
據了解,此次百度語音識別SDK剛剛開始發放,便已與多家手機套用進行了合作,包括彩虹公交等。通過“永久免費”與“深度定製”的合作理念已獲得了開發者的一致好評。而後續,百度還將會繼續開放語義理解和TTS(語音合成)等多項面對套用開發者的服務,包括支持用戶定製化語音識別,幫助開發者定製自己的語音套用。
百度語音開放平台將會用戶提供更多便利,讓用戶解放雙手,真正實現完全的語音操控.也會讓更多移動開發者享受技術進步帶來的紅利,踏上幸福創業的道路.
各界巨頭與百度語音深度合作
福特汽車如是說:
首先,福特汽車不僅僅是一家汽車公司, 也是一家科技公司, 致力於為消費者打造即有趣又安全的駕駛體驗。調查顯示,移動出行成為人們越來越重要的生活與工作方式,對於在出行路途上的移動通信,智慧型辦公的需求也越來越多樣化。福特針對這樣的需求,開發了支持MyFord Touch功能的SYNC車載多媒體通訊娛樂系統,該套智慧型互聯繫統讓駕駛者僅需通過語音指令就能輕鬆控制車內影音娛樂及溫度調節等功能,在此基礎上,我們又面向中國市場推出了SYNC® AppLink™的功能,實現智慧型手機應用程式與搭載AppLink的車輛之間更好的互聯。這樣,通過AppLink,車主可以把他們的智慧型手機連線到車內,使用福特SYNC語音指令連線系統,在他們的駕駛座上控制智慧型手機上的應用程式。
我們此次和百度的合作目標就是通過百度的強大語音套用能力讓用戶在駕車過程中,與外界實現無縫連線,同時又保持目不離路,手不離方向盤。如果這塊能做好,未來就有很多可想像的空間。比如我開車要去另一個城市,那么這個城市現在的天氣狀況如何呢,通過和百度的合作,我們就可以做到用語音直接查詢,而不是之前的聽廣播或者停車打開天氣類app去查,類似這種場景還有很多,這也需要兩個行業之間不斷的碰撞和創新。
中興手機如是說:
作為全球做大的手機終端廠商之一,中興一直以來都以為用戶打造完美體驗為最終目標,而我們這次是要打造的產品專為開車用戶打造,該產品的最終目的是希望人們在車載環境中實現手機操作的handfree,接打電話、收發簡訊、查地圖、導航這些在車載環境中經常被使用的手機功能全部通過語音操控來實現。
我們對合作方有兩個要求,一是語音技術要過硬,二是要有相應的資源尤其是地圖和導航,如果語音和資源的提供方屬於兩家公司的話這個產品幾乎是無法完成的,而百度是所有網際網路公司中唯一符合要求的,經過我們的測試,百度的語音識別技術已經達到了一流水準,並且滿足我們語音喚醒、離線識別等各種要求,除了語音技術外,百度還可以提供導航資源,可以提供眾多城市的離線下載包,直接將語音互動和導航進行結合。
康佳電視如是說:
智慧型電視是未來的潮流,未來將會成為家庭智慧型媒體中心,而康佳作為電視行業的一支勁旅也早早的覺察到了這一點,我們認為智慧型電視不僅僅是內容收看模式的變革,同時也是人機互動的一個革命,傳統的遙控器已經遠遠不能滿足智慧型電視用戶的需求,而語音互動則成為智慧型電視最佳的互動方式,通過語音控制實現換台、各項功能設定、搜尋視頻資源等都已經開始成為智慧型電視的標配,我們甚至可以根據語音來判斷用戶的屬性然後提供不同的內容給用戶。同時,作為家庭智慧型媒體中心,電視也不會僅僅用來看,還可以用來玩遊戲、購物、查資訊,所有的網際網路行為幾乎都可以在電視上實現。
百度的語音識別技術這個不用多說,更重要的是百度擁有的網路資源,例如用戶在電視上看到一款車非常漂亮想知道這輛車多少錢,一般情況下用戶會用電腦或者手機去搜尋,而和百度合作後可以直接使用語音查詢,百度就會給出令用戶滿意的結果。
百度語音的基本服務架構
功能特點描述
支持Android和iOS平台SDK
Android支持2.2及以上版本, iOS支持iOS 5.0及以上版本。
針對場景深度最佳化
支持適用於搜尋及指令場景的短文本識別和適用於簡訊、微博等輸入的長文本識別模式。
針對領域最佳化,使垂直類套用有更好的識別效果
基於百度海量的數據資源,提供針對音樂、視頻、套用、網站搜尋及地圖POI的識別最佳化。
特定場景的語義解析
支持提醒、電話、套用、日曆、通訊錄、航班、酒店、簡訊、音樂、手機設定、社交網路、火車、旅遊、天氣、網址、地圖、通用指令等19個場景。
自動端點斷點檢測和數據傳輸,極致最佳化流量消耗
智慧型VAD檢測技術,分析用戶說話的起點、尾點同時計算出聲音強度, 只傳輸有效數據,節約流量。
豐富可配置的UI組件
提供語音識別UI組件,自動音量反饋,並提供支持亮藍、暗橙、亮紅等八種主題,讓開發者最低成本集成。
提供底層API,更加靈活強大提供底層識別API,使用方式更加靈活強大
開放原始API接口, 開發者可以靈活構建語音識別使用場景,不干擾當前互動流程。開放底層API接口,開發者可以靈活實現各種語音識別互動方式。彈窗或對話式,一切由你而定。
詳盡的服務統計及API使用管理
服務控制台支持詳細的服務統計查詢及服務使用頻次管理,方便開發者掌握服務使用情況及變化趨勢。
核心技術特色
用戶個性化的聲音建模技術和海量數據的區分度訓練技術
- 區分度的GMM模型訓練LDA, MPE, SAT, FMLLR, FMPE等
- 上萬小時的聲學模型訓練數據,覆蓋主要漢語國語使用人群
海量語言模型的高速訓練和自適應更新技術
- 支持T級語料的統計語言模型的高速訓練和更新
- 支持簡訊,微博,地圖,音樂,旅遊,視頻,APP等垂直領域的綜合建模
支持複雜漢語語義空間的一遍解碼技術
- 支持百億文法的語言模型的一遍解碼
- 支持包含語義信息的語法模型和普通統計語言模型混合解碼
- 能夠支持數百萬量級詞典的複雜語義空間建模
- 精度和速度統一的解碼算法
深度神經網路聲學建模技術
- 支持海量數據的深度神經網路並行訓練
- 支持個性化的深度神經網路建模技術
深度語義理解
- 融合依存句法分析、信息抽取、短文本分類等自然語言處理技術以及多種機器學習算法
- 多領域的深度語義解析,領域無關的信息抽取、專名識別、語義歸一化等淺層語義標註
- 基於海量網頁、搜尋以及社區數據挖掘,具備智慧型糾錯、推理等技術