百度語音開放
百度正式宣布對外開放語音技術,百度掌門人李彥宏稱之為平台化和接口化的典型,自此,中國的語音市場上, 又新添一個實力強勁的Player。
百度語音技術開放概述
隨著智慧型移動設備的普及,語音互動作為一種新型的人機互動方式,正越來越引起整個IT業界的重視。特別是Apple的Siri推出後,語音互動更取得了突飛猛進的廣泛套用。但同時,語音互動作為一個需要長期積累的專業技術領域,對非專業的開發者來說是一個難以逾越的門檻。
百度憑藉在語音核心技術上的長期積累,為廣大開發者提供了業界領先的語音技術服務,
百度語音技術在之前已經套用在眾多的自家產品上,10月25日百度正式宣布對外開放語音技術,通過百度語音技術服務,開發者可以輕易獲取強大的語音技術能力,拋開繁複的技術細節,專注於業務邏輯的最佳化,快速構建各種語音互動套用,開發者可以在
百度開發者中心上申請開發自己的語音產品。
永久免費與深度定製
2013年8月22日百度世界大會上,百度宣布語音識別技術及能力全面開放。在百度的引領下,圍繞語音識別的全新體系和大數據生態正式開始在移動網際網路領域發光發熱。時隔兩個月,百度語音識別SDK正式發布,這一點是對套用開發者是最具誘惑力的。它可以向開發者提供長文本語音輸入,語音搜尋詞識別,垂直領域識別等多方面的語音識別服務。另外,語音識別SDK還支持“即說即得”的技術,在用戶輸入語音的同時就返回給用戶連續的中間結果,提升用戶體驗。而最為吸引人的是,相較於其他同類語音識別技術以授權費方式獲取收入的方式,百度將面向開發者無條件免費開放整個語音生態系統,同時支持針對不同套用所進行的深度定製。
據了解,此次百度語音識別SDK剛剛開始發放,便已與多家手機套用進行了合作,包括彩虹公交等。通過“永久免費”與“深度定製”的合作理念已獲得了開發者的一致好評。而後續,百度還將會繼續開放語義理解和TTS(語音合成)等多項面對套用開發者的服務,包括支持用戶定製化語音識別,幫助開發者定製自己的語音套用。
百度語音開放平台將會用戶提供更多便利,讓用戶解放雙手,真正實現完全的語音操控.也會讓更多移動開發者享受技術進步帶來的紅利,踏上幸福創業的道路.
各界巨頭與百度語音深度合作
福特汽車如是說:
首先,福特汽車不僅僅是一家汽車公司, 也是一家科技公司, 致力於為消費者打造即有趣又安全的駕駛體驗。調查顯示,移動出行成為人們越來越重要的生活與工作方式,對於在出行路途上的移動通信,智慧型辦公的需求也越來越多樣化。福特針對這樣的需求,開發了支持MyFord Touch功能的SYNC車載多媒體通訊娛樂系統,該套智慧型互聯繫統讓駕駛者僅需通過語音指令就能輕鬆控制車內影音娛樂及溫度調節等功能,在此基礎上,我們又面向中國市場推出了SYNC® AppLink™的功能,實現智慧型手機應用程式與搭載AppLink的車輛之間更好的互聯。這樣,通過AppLink,車主可以把他們的智慧型手機連線到車內,使用福特SYNC語音指令連線系統,在他們的駕駛座上控制智慧型手機上的應用程式。
我們此次和百度的合作目標就是通過百度的強大語音套用能力讓用戶在駕車過程中,與外界實現無縫連線,同時又保持目不離路,手不離方向盤。如果這塊能做好,未來就有很多可想像的空間。比如我開車要去另一個城市,那么這個城市現在的天氣狀況如何呢,通過和百度的合作,我們就可以做到用語音直接查詢,而不是之前的聽廣播或者停車打開天氣類app去查,類似這種場景還有很多,這也需要兩個行業之間不斷的碰撞和創新。
中興手機如是說:
作為全球做大的手機終端廠商之一,中興一直以來都以為用戶打造完美體驗為最終目標,而我們這次是要打造的產品專為開車用戶打造,該產品的最終目的是希望人們在車載環境中實現手機操作的handfree,接打電話、收發簡訊、查地圖、導航這些在車載環境中經常被使用的手機功能全部通過語音操控來實現。
我們對合作方有兩個要求,一是語音技術要過硬,二是要有相應的資源尤其是地圖和導航,如果語音和資源的提供方屬於兩家公司的話這個產品幾乎是無法完成的,而百度是所有網際網路公司中唯一符合要求的,經過我們的測試,百度的語音識別技術已經達到了一流水準,並且滿足我們語音喚醒、離線識別等各種要求,除了語音技術外,百度還可以提供導航資源,可以提供眾多城市的離線下載包,直接將語音互動和導航進行結合。
康佳電視如是說:
智慧型電視是未來的潮流,未來將會成為家庭智慧型媒體中心,而康佳作為電視行業的一支勁旅也早早的覺察到了這一點,我們認為智慧型電視不僅僅是內容收看模式的變革,同時也是人機互動的一個革命,傳統的遙控器已經遠遠不能滿足智慧型電視用戶的需求,而語音互動則成為智慧型電視最佳的互動方式,通過語音控制實現換台、各項功能設定、搜尋視頻資源等都已經開始成為智慧型電視的標配,我們甚至可以根據語音來判斷用戶的屬性然後提供不同的內容給用戶。同時,作為家庭智慧型媒體中心,電視也不會僅僅用來看,還可以用來玩遊戲、購物、查資訊,所有的網際網路行為幾乎都可以在電視上實現。
百度的語音識別技術這個不用多說,更重要的是百度擁有的網路資源,例如用戶在電視上看到一款車非常漂亮想知道這輛車多少錢,一般情況下用戶會用電腦或者手機去搜尋,而和百度合作後可以直接使用語音查詢,百度就會給出令用戶滿意的結果。
百度語音的基本服務架構
功能特點描述
支持Android和iOS平台SDK
Android支持2.2及以上版本, iOS支持iOS 5.0及以上版本。
針對場景深度最佳化
支持適用於搜尋及指令場景的短文本識別和適用於簡訊、微博等輸入的長文本識別模式。
針對領域最佳化,使垂直類套用有更好的識別效果
基於百度海量的數據資源,提供針對音樂、視頻、套用、網站搜尋及地圖POI的識別最佳化。
特定場景的語義解析
支持提醒、電話、套用、日曆、通訊錄、航班、酒店、簡訊、音樂、手機設定、社交網路、火車、旅遊、天氣、網址、地圖、通用指令等19個場景。
自動端點斷點檢測和數據傳輸,極致最佳化流量消耗
智慧型VAD檢測技術,分析用戶說話的起點、尾點同時計算出聲音強度, 只傳輸有效數據,節約流量。
豐富可配置的UI組件
提供語音識別UI組件,自動音量反饋,並提供支持亮藍、暗橙、亮紅等八種主題,讓開發者最低成本集成。
提供底層API,更加靈活強大提供底層識別API,使用方式更加靈活強大
開放原始API接口, 開發者可以靈活構建語音識別使用場景,不干擾當前互動流程。開放底層API接口,開發者可以靈活實現各種語音識別互動方式。彈窗或對話式,一切由你而定。
詳盡的服務統計及API使用管理
服務控制台支持詳細的服務統計查詢及服務使用頻次管理,方便開發者掌握服務使用情況及變化趨勢。
核心技術特色
用戶個性化的聲音建模技術和海量數據的區分度訓練技術
- 區分度的GMM模型訓練LDA, MPE, SAT, FMLLR, FMPE等
- 上萬小時的聲學模型訓練數據,覆蓋主要漢語國語使用人群
海量語言模型的高速訓練和自適應更新技術
- 支持T級語料的統計語言模型的高速訓練和更新
- 支持簡訊,微博,地圖,音樂,旅遊,視頻,APP等垂直領域的綜合建模
支持複雜漢語語義空間的一遍解碼技術
- 支持百億文法的語言模型的一遍解碼
- 支持包含語義信息的語法模型和普通統計語言模型混合解碼
- 能夠支持數百萬量級詞典的複雜語義空間建模
- 精度和速度統一的解碼算法
深度神經網路聲學建模技術
- 支持海量數據的深度神經網路並行訓練
- 支持個性化的深度神經網路建模技術
深度語義理解
- 融合依存句法分析、信息抽取、短文本分類等自然語言處理技術以及多種機器學習算法
- 多領域的深度語義解析,領域無關的信息抽取、專名識別、語義歸一化等淺層語義標註
- 基於海量網頁、搜尋以及社區數據挖掘,具備智慧型糾錯、推理等技術