一種語音處理方法、裝置及系統:專利背景,發明內容,專利目的,技術方案,改善效果,附

《一種語音處理方法、裝置及系統》是騰訊科技（深圳）有限公司於2013年6月6日申請的發明專利，該專利的申請號為2013102226830，公布號為CN103327014A，授權公布日為2013年9月25日，發明人是彭遠疆、劉洪。

《一種語音處理方法、裝置及系統》涉及一種語音處理方法，包括：獲取要傳送的語音碼流；對應於該語音碼流獲取用於供語音伺服器決定混音策略的語音控制信息；將獲取的語音碼流及語音控制信息傳送至語音伺服器中；接收該伺服器返回的至少一路語音碼流；以及輸出該至少一路語音碼流。此外，該發明實施例還提供一種語音處理裝置及系統。上述的語音處理方法、裝置及系統可減輕語音伺服器的資源消耗，並能提升混音質量。

2016年12月7日，《一種語音處理方法、裝置及系統》獲得第十八屆中國專利優秀獎。

（概述圖為《一種語音處理方法、裝置及系統》摘要附圖）

基本介紹

中文名：一種語音處理方法、裝置及系統
公布號：CN103327014A
公布日：2013年9月25日
申請號：2013102226830
申請日：2013年6月6日
申請人：騰訊科技（深圳）有限公司
地址：廣東省深圳市福田區振興路賽格科技園2棟東403室
發明人：彭遠疆、劉洪
Int.Cl.：H04L29/06(2006.01)I、G10L19/00(2013.01)I
代理機構：上海波拓智慧財產權代理有限公司
代理人：韓紹君

專利背景,發明內容,專利目的,技術方案,改善效果,附圖說明,技術領域,權利要求,實施方式,榮譽表彰,

專利背景

在語音處理系統中，當需要支持多方語音交流時，經常需要進行多路語音的混音處理。多路混音是指把多路語音波形疊加成單獨一路語音的方法或過程。最簡單的混音即是把所有輸入通道的語音原始波形直接相加，得到一路混音後語音原始波形。但在實際的多路混音系統中，由於參與混音的輸入通道路數一般比較多，簡單地把所有輸入語音的原始波形直接相加，會導致輸出背景噪音變大和輸出溢出等一系列問題。所以實際的混音系統往往會按照一定的第一混音策略，在同一時刻僅選取少數幾路（一般選2-5路）輸入語音進行實際混音，以儘量避免背景噪聲增大和輸出溢出等問題。

在實際語音通訊系統中，按混音處理所處的不同位置，可以分為伺服器混音和客戶端混音這兩種方式。其中，伺服器混音具有較高的混音質量，但由混音處理帶來的資源消耗大，尤其是在語音用戶數量大時伺服器不堪重負。客戶端混音可以減少伺服器的資源負擔，但其混音質量較低，無法滿足高品質需求場合例如語音視頻會議。

發明內容

專利目的

《一種語音處理方法、裝置及系統》提供一種語音處理方法、裝置及系統，其可減輕語音伺服器的資源消耗，並能提升混音質量。

技術方案

一種語音處理方法，包括：獲取要傳送的語音碼流；對應於該語音碼流獲取用於供語音伺服器決定混音策略的語音控制信息；將獲取的語音碼流及語音控制信息傳送至語音伺服器中；接收該伺服器返回的至少一路語音碼流；以及輸出該至少一路語音碼流。

一種語音處理方法，用於語音伺服器中，包括：接收多個客戶端傳送的語音碼流以及用於供該語音伺服器決定混音策略的語音控制信息；混音策略生成步驟：參考該語音控制信息生成第一混音策略及第二混音策略；根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流；根據該第二混音策略將該要進行混音處理的多路語音碼流返回至對應的客戶端，或者對該要進行混音處理的多路語音碼流進行混音處理後返回至對應的客戶端。

一種語音處理方法，包括：在多個客戶端中分別進行以下步驟：獲取要傳送的語音碼流；對應於該語音碼流獲取用於供語音伺服器決定混音策略的語音控制信息；以及將該語音碼流及語音控制信息傳送至一個語音伺服器中；在該語音伺服器中進行以下步驟：接收該多個客戶端傳送的語音碼流以及語音控制信息；參考該語音控制信息生成第一混音策略及第二混音策略；根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流；根據該第二混音策略將該要進行混音處理的多路語音碼流返回至對應的客戶端，或者對該要進行混音處理的多路語音碼流進行混音處理後返回至對應的客戶端。

一種語音處理裝置，包括：第一獲取單元，用於獲取要傳送的語音碼流；第二獲取單元，用於對應於該語音碼流獲取用於供語音伺服器決定混音策略的語音控制信息；傳送單元，用於將獲取的語音碼流及語音控制信息傳送至語音伺服器中；接收單元，用於接收該伺服器返回的至少一路語音碼流；以及輸出單元，用於輸出該至少一路語音碼流。

一種語音處理裝置，用於語音伺服器中，該裝置包括：接收單元，用於接收多個客戶端傳送的語音碼流以及用於供語音伺服器決定混音策略的語音控制信息；混音策略生成單元，用於參考該語音控制信息生成第一混音策略及第二混音策略；選擇單元，用於根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流；混音處理單元，用於根據該第二混音策略將該要進行混音處理的多路語音碼流返回至對應的客戶端，或者對該要進行混音處理的多路語音碼流進行混音處理後返回至對應的客戶端。

一種語音處理系統，包括：客戶端模組以及伺服器模組，分別位於一個客戶端以及語音伺服器中；該客戶端模組包括：第一獲取單元，用於獲取要傳送的語音碼流；第二獲取單元，用於對應於該語音碼流獲取用於供該伺服器模組決定混音策略的語音控制信息；傳送單元，用於將獲取的語音碼流及語音控制信息傳送至該伺服器模組；該伺服器模組包括：接收單元，用於接收多個客戶端傳送的語音碼流以及用於供該伺服器模組決定混音策略的語音控制信息；混音策略生成單元，用於參考該語音控制信息生成第一混音策略及第二混音策略；選擇單元，用於根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流；混音處理單元，用於根據該第二混音策略將該要進行混音處理的多路語音碼流返回至對應的客戶端模組，或者對該要進行混音處理的多路語音碼流進行混音處理後返回至對應的客戶端模組。

改善效果

根據上述的語音處理方法、裝置及系統，客戶端將用於供伺服器決定混音策略的語音控制信息提交至語音伺服器，語音伺服器可以動態地根據多種因素決定混音策略，既可以減少語音伺服器的硬體資源消耗，也能夠保證客戶端混音的效果。

附圖說明

圖1為《一種語音處理方法、裝置及系統》實施例提供的語音處理方法、裝置及系統的運行環境示意圖。

圖2為一種客戶端的結構框圖。

圖3為第一實施例提供的語音處理方法的流程圖。

圖4為第二實施例提供的語音處理裝置的結構框圖。

圖5為第三實施例提供的語音處理方法的流程圖。

圖6為一種多級級聯混音架構示意圖。

圖7為第四實施例提供的語音處理裝置的結構框圖。

圖8為第五實施例提供的語音處理方法的流程圖。

圖9為第六實施例提供的語音處理系統的結構框圖。

技術領域

《一種語音處理方法、裝置及系統》涉及語音處理技術，特別涉及一種語音處理方法、裝置及系統。

權利要求

1.一種語音處理方法，其特徵在於，包括：獲取要傳送的語音碼流；對應於該語音碼流獲取用於供語音伺服器決定混音策略的語音控制信息，所述語音控制信息包括直接從所述語音碼流內提取出的第一語音控制信息、以及根據其他方式獲取的與當前用戶或會話關聯的第二語音控制信息，所述第二語音控制信息包括用戶語音輸入具有的優先權、以及用於使所述語音伺服器決定混音處理是否在伺服器端進行的信息；將獲取的語音碼流及語音控制信息傳送至其對應的語音伺服器中；接收該語音伺服器返回的至少一路語音碼流；以及輸出該至少一路語音碼流。

2.如權利要求1所述的語音處理方法，其特徵在於，若該至少一路語音碼流包括多路語音碼流則在輸出該至少一路語音碼流之前還包括：對該至少一種語音碼流進行混音處理。

3.如權利要求1所述的語音處理方法，其特徵在於，該第二語音控制信息包括用於指定要在伺服器端進行混音的請求。

4.如權利要求1所述的語音處理方法，其特徵在於，該第一語音控制信息包括短時幅度能量、長時幅度能量、語音活性檢測信息或其組合。

5.一種語音處理方法，用於語音伺服器中，其特徵在於，該方法包括：接收多個客戶端傳送的語音碼流以及用於供語音伺服器決定混音策略的語音控制信息，所述語音控制信息包括直接從所述語音碼流內提取出的第一語音控制信息、以及根據其他方式獲取的與當前用戶或會話關聯的第二語音控制信息，所述第二語音控制信息包括用戶語音輸入具有的優先權、以及用於使所述語音伺服器決定混音處理是否在伺服器端進行的信息；分別根據所述第一語音控制信息與第二語音控制信息生成第一混音策略及第二混音策略，根據所述第二語音控制信息生成第二混音策略包括：檢測與每個客戶端對應的用戶的許可權，若某個用戶的許可權超過預設的級別，則在該第二混音策略中標記在該語音伺服器端進行混音，否則在該第二混音策略中標記在對應的客戶端進行混音；根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流；根據該第二混音策略將該要進行混音處理的多路語音碼流返回至對應的客戶端，或者對該要進行混音處理的多路語音碼流進行混音處理後返回至對應的客戶端。

6.如權利要求5所述的語音處理方法，其特徵在於，根據該第二語音控制信息生成該第二混音策略還包括：檢測該語音伺服器是否具有足夠的硬體資源，若是，則在該第二混音策略中標記在該語音伺服器端進行混音，若否，則在該第二混音策略中標記在客戶端進行混音。

7.如權利要求6所述的語音處理方法，其特徵在於，還包括：若檢測到硬體資源狀態變化則相應改變該第二混音策略。

8.一種語音處理方法，其特徵在於，包括：在多個客戶端中分別進行以下步驟：獲取要傳送的語音碼流；對應於該語音碼流獲取用於供語音伺服器決定混音策略的語音控制信息，所述語音控制信息包括直接從所述語音碼流內提取出的第一語音控制信息、以及根據其他方式獲取的與當前用戶或會話關聯的第二語音控制信息，所述第二語音控制信息包括用戶語音輸入具有的優先權、以及用於使所述語音伺服器決定混音處理是否在伺服器端進行的信息；以及將該語音碼流及語音控制信息傳送至其對應的語音伺服器中；在該語音伺服器中進行以下步驟：接收該多個客戶端傳送的語音碼流以及語音控制信息；分別根據所述第一語音控制信息與第二語音控制信息生成第一混音策略及第二混音策略，根據所述第二語音控制信息生成第二混音策略包括：檢測與每個客戶端對應的用戶的許可權，若某個用戶的許可權超過預設的級別，則在該第二混音策略中標記在該語音伺服器端進行混音，否則在該第二混音策略中標記在對應的客戶端進行混音；根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流；根據該第二混音策略將該要進行混音處理的多路語音碼流返回至對應的客戶端，或者對該要進行混音處理的多路語音碼流進行混音處理後返回至對應的客戶端。

9.一種語音處理裝置，其特徵在於，包括：第一獲取單元，用於獲取要傳送的語音碼流；第二獲取單元，用於對應於該語音碼流獲取用於供一個語音伺服器決定混音策略的語音控制信息，所述語音控制信息包括直接從所述語音碼流內提取出的第一語音控制信息、以及根據其他方式獲取的與當前用戶或會話關聯的第二語音控制信息，所述第二語音控制信息包括用戶語音輸入具有的優先權、以及用於使所述語音伺服器決定混音處理是否在伺服器端進行的信息；傳送單元，用於將獲取的語音碼流及語音控制信息傳送至一個語音伺服器中；接收單元，用於接收該伺服器返回的至少一路語音碼流；以及輸出單元，用於輸出該至少一路語音碼流。

10.如權利要求9所述的語音處理裝置，其特徵在於，還包括，混音單元，用於若該至少一路語音碼流包括多路語音碼流則對該至少一種語音碼流進行混音處理。

11.如權利要求9所述的語音處理裝置，其特徵在於，該第二語音控制信息包括用於指定要在伺服器端進行混音的請求。

12.如權利要求9所述的語音處理裝置，其特徵在於，該第一語音控制信息包括短時幅度能量、長時幅度能量、語音活性檢測信息或其組合。

13.一種語音處理裝置，用於一個語音伺服器中，其特徵在於，該裝置包括：接收單元，用於接收多個客戶端傳送的語音碼流以及用於供該語音伺服器決定混音策略的語音控制信息，所述語音控制信息包括直接從所述語音碼流內提取出的第一語音控制信息、以及根據其他方式獲取的與當前用戶或會話關聯的第二語音控制信息，所述第二語音控制信息包括用戶語音輸入具有的優先權、以及用於使所述語音伺服器決定混音處理是否在伺服器端進行的信息；混音策略生成單元，用於分別根據所述第一語音控制信息與第二語音控制信息生成第一混音策略及第二混音策略，根據所述第二語音控制信息生成第二混音策略包括：檢測與每個客戶端對應的用戶的許可權，若某個用戶的許可權超過預設的級別，則在該第二混音策略中標記在該語音伺服器端進行混音，否則在該第二混音策略中標記在對應的客戶端進行混4音；選擇單元，用於根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流；混音處理單元，用於根據該第二混音策略將該要進行混音處理的多路語音碼流返回至對應的客戶端，或者對該要進行混音處理的多路語音碼流進行混音處理後返回至對應的客戶端。

14.如權利要求13所述的語音處理裝置，其特徵在於，該混音策略生成單元還用於：檢測該語音伺服器是否具有足夠的硬體資源，若是，則在該第二混音策略中標記在該語音伺服器端進行混音，若否，則在該第二混音策略中標記在客戶端進行混音。

15.如權利要求13所述的語音處理裝置，其特徵在於，該混音策略生成單元還用於：若檢測到硬體資源狀態變化則相應改變該第二混音策略。

16.一種語音處理系統，其特徵在於，包括：客戶端模組以及伺服器模組，分別位於一個客戶端以及一個語音伺服器中；該客戶端模組包括：第一獲取單元，用於獲取要傳送的語音碼流；第二獲取單元，用於對應於該語音碼流獲取用於供該伺服器模組決定混音策略的語音控制信息，所述語音控制信息包括直接從所述語音碼流內提取出的第一語音控制信息、以及根據其他方式獲取的與當前用戶或會話關聯的第二語音控制信息，所述第二語音控制信息包括用戶語音輸入具有的優先權、以及用於使所述語音伺服器決定混音處理是否在伺服器端進行的信息；傳送單元，用於將獲取的語音碼流及語音控制信息傳送至該伺服器模組；該伺服器模組包括：接收單元，用於接收多個客戶端傳送的語音碼流以及用於供該伺服器模組決定混音策略的語音控制信息；混音策略生成單元，用於分別根據所述第一語音控制信息與第二語音控制信息生成第一混音策略及第二混音策略，根據所述第二語音控制信息生成第二混音策略包括：檢測與每個客戶端對應的用戶的許可權，若某個用戶的許可權超過預設的級別，則在該第二混音策略中標記在該語音伺服器端進行混音，否則在該第二混音策略中標記在對應的客戶端進行混音；選擇單元，用於根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流；混音處理單元，用於根據該第二混音策略將該要進行混音處理的多路語音碼流返回至對應的客戶端模組，或者對該要進行混音處理的多路語音碼流進行混音處理後返回至對應的客戶端模組。

實施方式

圖1為《一種語音處理方法、裝置及系統》實施例提供的語音處理方法、裝置及系統的運行環境示意圖。如圖1所示，多個客戶端21分別通過網路23與一個語音伺服器22進行通訊。具體地，客戶端21例如是指台式計算機、筆記型計算機、智慧型手機、個人數位助理、平板電腦等等，其內安裝/運行有一種或多種智慧型作業系統。上述網路23例如是網際網路、區域網路、移動通信網等等。

圖2示出了客戶端21的一種結構框圖。如圖2所示，客戶端21包括一個或多個（圖中僅示出一個）處理器102、存儲器104、傳輸模組106、及音頻電路110。該領域普通技術人員可以理解，圖1所示的結構僅為示意，其並不對客戶端21的結構造成限定。例如，客戶端21還可包括比圖2中所示更多或者更少的組件，或者具有與圖2所示不同的配置。

存儲器104可用於存儲軟體程式以及模組，如《一種語音處理方法、裝置及系統》實施例中的語音處理方法、裝置及系統對應的程式指令/模組，處理器102通過運行存儲在存儲器104內的軟體程式以及模組，從而執行各種功能套用以及數據處理，即實現上述的語音處理方法、裝置及系統。存儲器104可包括高速隨機存儲器，還可包括非易失性存儲器，如一個或者多個磁性存儲裝置、快閃記憶體、或者其他非易失性固態存儲器。在一些實例中，存儲器104可進一步包括相對於處理器102遠程設定的存儲器，這些遠程存儲器可以通過網路連線至電子裝置100。上述網路的實例包括但不限於網際網路、企業內部網、區域網路、移動通信網及其組合。

傳輸模組106用於經由一個網路接收或者傳送數據。上述的網路具體實例可包括有線網路及無線網路。在一個實例中，傳輸模組106包括一個網路適配器（Network Interface Controller，NIC），其可通過網線與其他網路設備與路由器、數據機等相連從而可與網際網路進行通訊。在一個實例中，傳輸模組106為射頻（Radio Frequency，RF）模組，其用於接收以及傳送電磁波，實現電磁波與電信號的相互轉換，從而與通訊網路或者其他設備進行通訊。射頻模組可包括各種現有的用於執行這些功能的電路元件，例如，天線、射頻收發器、數位訊號處理器、加密/解密晶片、用戶身份模組（SIM）卡、存儲器等等。射頻模組可與各種網路如網際網路、企業內部網、無線網路進行通訊或者通過無線網路與其他設備進行通訊。上述的無線網路可包括蜂窩式電話網、無線區域網路或者城域網。上述的無線網路可以使用各種通信標準、協定及技術，包括但並不限於全球移動通信系統（Global System for Mobile Communication，GSM）、增強型移動通信技術（Enhanced Data GSMEnvironment，EDGE），寬頻碼分多址技術（wideband code division multiple access，W-CDMA），碼分多址技術（Code division access，CDMA）、時分多址技術（time division multiple access，TDMA），無線保真技術（Wireless，Fidelity，WiFi）（如美國電氣和電子工程師協會標準IEEE802.11a，IEEE802.11b，IEEE802.11g和/或IEEE802.11n）、網路電話（Voice over internet protocal，VoIP）、全球微波互聯接入（Worldide Interoperability for Microwave Access，Wi-Max）、其他用於郵件、即時通訊及短訊息的協定，以及任何其他合適的通訊協定，甚至可包括那些當前仍未被開發出來的協定。

音頻電路110、揚聲器101、聲音插孔103、麥克風105共同提供用戶與電子裝置100之間的音頻接口。具體地，音頻電路110從處理器102處接收聲音數據，將聲音數據轉換為電信號，將電信號傳輸至揚聲器101。揚聲器101將電信號轉換為人耳能聽到的聲波。音頻電路110還從麥克風處接收電信號，將電信號轉換為聲音數據，並將聲音數據傳輸給處理器102以進行進一步的處理。音頻數據可以從存儲器104處或者通過傳輸模組106。此外，音頻數據也可以存儲至存儲器104中或者通過傳輸模組106進行傳送。

圖3為《一種語音處理方法、裝置及系統》第一實施例提供的語音處理方法的流程圖。該語音處理方法可用於客戶端21。如圖3所示，該方法包括以下步驟：

步驟S110、獲取要傳送的語音碼流。例如，在步驟S110中，通過麥克風103錄入聲音。可以理解，麥克風103的輸出為模擬電信號，首先要將其轉換為數位訊號，即上述的語音碼流。例如，可通過抽樣、量化、以及編碼形成音頻信號的脈衝編碼調製（Pulse-code modulation，PCM）碼流。進一步地，為了減少語音碼流的體積，還可以對PCM碼流進行壓縮處理。例如，採用適應性差分脈衝調變（Adaptive Differential Pulse Code Modulation，MSADPCM）算法、國際電報電話諮詢委員會（International Telephone and Telegraph Consultative Committee，CCITT）的音頻壓縮算法（如A-LAW算法、μ-law算法）、動態圖像專家組（Moving Pictures Experts Group，MPEG）壓縮算法進行壓縮處理。因此，上述的語音碼流的具體實例可包括PCM碼流或者經過其他算法壓縮的語音碼流。

此外，可以理解，上述的語音碼流並不限於由麥克風103輸入。例如，還可以通過直接讀取存儲於存儲器103內的音頻檔案獲取。

步驟S120、對應於該語音碼流獲取用於供語音伺服器決定混音策略的語音控制信息。語音控制信息可包括直接從語音碼流內提取出的第一語音控制信息，以及根據其他方式獲取的第二語音控制信息。

第一語音控制信息的具體實例可包括短時幅度能量（Short Time Energy）、長時幅度能量（Long Time Energy）、語音活性檢測（Voice Activity Detection）信息或其組合。

可以理解，音頻信號實質為一個離散時間信號，其可表示為X（n），其中n表示時間，該音頻信號的能量可定義為：

在以上公式中，求和的上下限為正負無窮，在實際的處理中，若只取某一短時間、及一長時間的範圍進行計算，則獲取的分別就是短時幅度能量以及長時幅度能量。在實際的語音處理過程中，短時幅度能量可以用於區分無聲、有聲、以及靜音的差異。長時幅度能量可以用於體現在一個較長時間段內的平均音量。

語音活性檢測是一項用於語音處理的技術，目的是檢測語音信號是否存在，進一步地，用於區分是正常的語音還是背景噪音，以及語音輸入是否持續等等。

第二語音控制信息例如是指與當前用戶或會話關聯的語音控制信息。

在一個實施例中，與某些客戶端對應的用戶具有更高的許可權或者等級，則其語音輸入會具有更高的優先權。例如，在一個語音會話中，參與的多個用戶會具有一個主持人，該主持人的語音會具有最高混音優先權。在另一個語音會話中，參與的用戶屬於收費用戶，則相對於免費用戶，其具有更高的優先權。

在一個實例中，第二語音控制信息還包括用於明確指定要在伺服器端進行混音的請求。例如，在客戶端21中建立語音會話時或者在會話進行過程中，可以提供選項讓用戶選擇語音會話的模式，當用戶選擇對於語音品質需求較高的模式例如語音會議時，則可在第二語音控制信息中包括上述的用於明確指定要在伺服器端進行混音的請求。

在一個實施例中，當前的語音會話相比於其他的一般會話具有較高的優先權。例如，該會話是付過費用的，需要保證該會話的混音質量，需要在伺服器端進行混音。

步驟S130、將獲取的語音碼流及語音控制信息傳送至語音伺服器中。具體地，將語音碼流及語音控制信息轉換成預定格式的網路數據包，然後通過傳輸模組106傳送至語音伺服器20中。相應地，語音伺服器20接收傳送的語音碼流以及語音控制信息。

步驟S140、接收該伺服器返回的至少一路語音碼流。語音伺服器20在接收到語音碼流及語音控制信息後，進行相應的混音處理，返回一路經過混音的語音碼流或者多路未經過混音的語音碼流，其具體處理過程描述如後。相應地，客戶端21接收語音伺服器20返回的語音碼流。

步驟S150、輸出該至少一路語音碼流。具體地，在步驟S150中，可先判斷語音碼流的路數，若只接收到一路語音碼流，則說明已經在語音伺服器20處進行了混音處理，或者當前語音會話的對端只有一人。此時，直接對語音碼流進行解碼、輸出即可。若接收到多路語音碼流，則還要由客戶端21先進行混音處理。混音處理的過程是指將多種語音碼流的原始波形（PCM碼流）相加。完成混音處理後，可進行輸出。上述的輸出是指將語音碼流通過音頻電路110轉換為模擬電信號輸出至揚聲器101或者聲音插孔105。如此，用戶即可直接聽到聲音輸出，或者通過連線至聲音插孔105的耳機、音箱聽到聲音輸出。

根據該實施例提供的語音處理方法，在語音通話的過程中，除了向語音伺服器傳送語音碼流之外，還傳送用於供一個語音伺服器決定混音策略的語音控制信息，相應地，語音伺服器無須再從語音碼流里提取這些語音控制信息，可以減輕語音伺服器的負擔。

圖4為第二實施例提供的語音處理裝置的結構框圖。如圖4所示，語音處理裝置200包括第一獲取單元210、第二獲取單元220、傳送單元230、接收單元240、以及輸出單元250。上述的各單元例如可以存儲於存儲器104內，從而可被處理器102執行。

第一獲取單元210用於獲取要傳送的語音碼流。

第二獲取單元220用於對應於該語音碼流獲取用於供一個語音伺服器決定混音策略的語音控制信息。

傳送單元230用於將獲取的語音碼流及語音控制信息傳送至一個語音伺服器中。

接收單元240用於接收該伺服器返回的至少一路語音碼流。

輸出單元250用於輸出該至少一路語音碼流。具體地，輸出單元250可先判斷語音碼流的路數，若只接收到一路語音碼流，則說明已經在語音伺服器20處進行了混音處理，或者當前語音會話的對端只有一人。此時，直接對語音碼流進行解碼、輸出即可。若接收到多路語音碼流，則還要先進行混音處理後進行輸出。因此，語音處理裝置200還可包括混音單元260，若該至少一路語音碼流包括多路語音碼流則對該至少一種語音碼流進行混音處理。

關於該實施例的語音處理裝置其他細節，還可進一步參考第一實施例的語音處理方法，在此不再贅述。

根據該實施例提供的語音處理裝置，在語音通話的過程中，除了向語音伺服器傳送語音碼流之外，還傳送用於供一個語音伺服器決定混音策略的語音控制信息，相應地，語音伺服器無須再從語音碼流里提取這些語音控制信息，可以減輕語音伺服器的負擔。

圖5為第三實施例提供的語音處理方法流程圖。該實施例的語音處理方法可用於語音伺服器20中。如圖5所示，該實施例的方法包括以下步驟：

步驟S310、接收多個客戶端傳送的語音碼流以及用於供語音伺服器決定混音策略的語音控制信息。如圖1所示，在一個語音會話中，參與的客戶端21具有多個。因此，多個客戶端21會同時向語音伺服器20傳送語音碼流以及語音控制信息，語音控制信息的具體內容可參考第一實施例中的相關描述。相應地，語音伺服器20接收多個客戶端21傳送的語音碼流以及語音控制信息。

步驟S320、根據該語音控制信息生成第一混音策略及第二混音策略。

第一混音策略可包括決定要對哪些語音碼流進行混音處理的信息。

例如，若一個語音會話中，參與的客戶端有五個，分別標記為A、B、C、D、E。在正常情形下，可將與其他所有客戶端對應的語音碼流進行混音處理。例如，對於客戶端A，則選擇對客戶端B、C、D、E的語音碼流進行混音處理；對於客戶端B，則選擇對客戶端A、C、D、E的語音碼流進行混音處理；其他的客戶端以此類推。但採用這種方式，會處理所有的語音碼流，資源消耗較大。

第一混音策略可根據但並不限於第一語音控制信息生成。

在一個實例中，根據第一語音控制信息找出語音輸入為有效輸入的語音碼流，在混音時僅針對有效的語音碼流進行處理。上述有效輸入例如是指有聲音輸入，且聲音不為背景音或噪音。而是否為有效輸入可根據第一語音控制信息內的短時幅度能量、長時幅度能量、語音活性檢測等信息決定。

在一個實例中，根據語音控制信息找出聲音最大（短時幅度能量或長時幅度能量最高）的預定路數（如2-5路）的語音碼流進行混音處理。

在一個實例中，先獲取與每個客戶端21對應的用戶的屬性信息。根據該屬性獲取用戶的混音優先權。例如，在一個語音會話中，參與的多個用戶會具有一個主持人，該主持人的語音會具有最高混音優先權。如此，在第二混音策略中，應至少包括該主持人登入的客戶端21的語音碼流。對於其他用戶，若其混音優先權超過預設的級別，則應包括至必須選擇的列表內。

第二混音策略可包括決定要在語音伺服器20中進行混音，還是由客戶端21進行混音的信息。

在一個實例中，第二混音策略是根據第二語音控制信息生成的。例如，第二語音控制信息內包括用於指定要在伺服器端進行混音的請求，則第二混音策略中，標記需要在語音伺服器20中進行混音；若未包括明確的請求，則默認標記由客戶端21進行混音處理。

在一個實施例中，當前的語音會話是付過費用的，具有較高的優先權，則在第二混音策略中標記需要在語音伺服器20中進行混音。

此外，可以理解，第二混音策略並不限於僅根據第二語音控制信息生成，例如，語音伺服器20還可根據其自身硬體資源狀態以及與客戶端21關聯的用戶的特徵生成第二混音策略。

在一個實例中，語音伺服器20可檢測其是否具有足夠的硬體資源。上述硬體資源例如是指處理器處理時間配額、存儲空間等。若硬體資源足夠，則在第二混音策略中，可標記在語音伺服器20中完成混音處理，否則標記由客戶端21進行混音處理。

上述過程還可以是動態變化的，例如，在第一時刻，根據硬體資源占用情況，第二混音策略是由客戶端進行混音。若在第二時刻，語音伺服器20檢測到硬體資源可用，則可以改變第二混音策略，直接標記在語音伺服器20中進行混音處理。

在一個實例中，語音伺服器20根據與客戶端21對應的用戶許可權決定第二混音策略。首先，可以獲取與每個客戶端對應的用戶的許可權。若某個用戶的許可權超過預設級別則在第二混音策略中，標記需要在語音伺服器20中完成混音處理，否則標記由客戶端進行混音處理。例如，在一個語音會話中，參與的多個用戶屬於收費用戶，則其相比於免費用戶具有更高的混音優先權。如此，在第二混音策略中，標記需要在語音伺服器20中完成混音處理，否則標記由客戶端進行混音處理。

以上針對如何根據實際情形決定相應的混音策略做出了示例性說明，但可以理解，具體的情形並不限於以上實例。而具體地，可以將如何根據實際情形決定混音策略的信息保存於上述的管理配置信息中，上述的管理配置信息即為描述如體根據第一語音控制信息及其他信息生成混音策略的檔案。

步驟S330、根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流。

步驟S340、根據該第二混音策略將該要進行混音處理的多路語音碼流返回至對應的客戶端，或者對該要進行混音處理的多路語音碼流進行混音處理後返回至對應的客戶端。

可以理解，上述的混音處理可以是單級伺服器完成的，即由語音伺服器20獨自完成所有的混音處理任務，並將混音完成後的語音碼流直接返回至對應的客戶端。混音處理還可以是由多級級聯的語音伺服器完成的。參閱圖6，其為一種多級級聯混音架構示意圖。語音伺服器20直接接收客戶端21輸入的語音，按照上述的混音策略完成混音處理後，其輸出並不是直接返回至客戶端21，而是作為其上級語音伺服器30的輸入。對於上級語音伺服器30來說，語音伺服器20相當於其客戶端，上級語音伺服器可以採用與上述類似的混音策略完成混音處理，完成混音處理後的語音碼流可以由上級語音伺服器30返回至語音伺服器20，然後由語音伺服器20完成必須的處理後轉發給對應的客戶端21。此外，可以理解，圖6中雖然僅為二級級聯結構為例進行說明，然而《一種語音處理方法、裝置及系統》實施例並不限於二級級聯結構，依據具體的需要，還可以採用更多級的級聯結構，在此不再贅述。

根據該實施例的語音處理方法，語音伺服器20可以動態地根據多種因素決定混音策略，既可以減少語音伺服器20的硬體資源消耗，也能夠保證客戶端混音的效果。

圖7為第四實施例提供的語音處理裝置的結構框圖。如圖7所示，語音處理裝置400包括接收單元410、混音策略生成單元420、選擇單元430、以及混音處理單元440。

接收單元410用於接收多個客戶端傳送的語音碼流以及用於供一個語音伺服器決定混音策略的語音控制信息。

混音策略生成單元420用於參考該語音控制信息生成第一混音策略及第二混音策略。

選擇單元430用於根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流。

混音處理單元440用於根據該第二混音策略將該要進行混音處理的多路語音碼流返回至對應的客戶端，或者對該要進行混音處理的多路語音碼流進行混音處理後返回至對應的客戶端。

關於語音處理裝置400的其他細節，還可進一步參考第三實施例中的相關描述，在此不再贅述。

根據該實施例的語音處理裝置，語音伺服器20可以動態地根據多種因素決定混音策略，既可以減少語音伺服器20的硬體資源消耗，也能夠保證客戶端混音的效果。

圖8為第五實施例提供的語音處理方法的流程圖。如圖8所示，該方法包括在多個客戶端中分別進行以下步驟：

步驟S110、獲取要傳送的語音碼流；

步驟S120、對應於該語音碼流獲取用於供一個語音伺服器決定混音策略的語音控制信息；以及

步驟S130、以及將該語音碼流及語音控制信息傳送至一個語音伺服器中。

對於以上各步驟的其他細節，還可進一步參考第一實施例及相關描述。

如圖8所示，該實施例的語音處理方法還包括在語音伺服器中進行以下步驟：

步驟S310、接收該多個客戶端傳送的語音碼流以及語音控制信息；

步驟S320、參考該語音控制信息生成第一混音策略及第二混音策略；

步驟S330、根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流；以及

對於以上各步驟的其他細節，還可進一步參考第三實施例及相關描述。

在步驟S340後，在客戶端中，還可包括以下步驟：

步驟S140、接收該伺服器返回的至少一路語音碼流；以及

步驟S150、輸出該至少一路語音碼流。

根據該實施例的語音處理方法，客戶端將用於供伺服器決定混音策略的語音控制信息提交至語音伺服器，語音伺服器可以動態地根據多種因素決定混音策略，既可以減少語音伺服器的硬體資源消耗，也能夠保證客戶端混音的效果。

圖9為第六實施例提供的語音處理系統的結構框圖。如圖9所示，語音處理系統600包括客戶端模組61及伺服器模組62。

客戶端模組61包括第一獲取單元210、第二獲取單元220、傳送單元230。

第一獲取單元210用於獲取要傳送的語音碼流；

第二獲取單元220用於對應於該語音碼流獲取用於供伺服器模組62決定混音策略的語音控制信息。

傳送單元230用於將獲取的語音碼流及語音控制信息傳送至伺服器模組62。

伺服器模組62包括接收單元410、混音策略生成單元420、選擇單元430、以及混音處理單元440。

接收單元410用於接收多個客戶端傳送的語音碼流以及用於供該語音伺服器決定混音策略的語音控制信息；

混音策略生成單元420用於參考該語音控制信息生成第一混音策略及第二混音策略；

選擇單元430用於根據該第一混音策略分別為每個客戶端選擇要進行混音處理的多路語音碼流；

混音處理單元440用於根據該第二混音策略將該要進行混音處理的多路語音碼流返回至對應的客戶端模組，或者對該要進行混音處理的多路語音碼流進行混音處理後返回至對應的客戶端模組。

此外，客戶端模組61還可包括接收單元240、以及輸出單元250。

接收單元240用於接收該伺服器返回的至少一路語音碼流。

輸出單元250用於輸出該至少一路語音碼流。

關於該實施例的其他細節，還可參考第二實施例以及第四實施例。

根據該實施例的語音處理系統，客戶端將用於供伺服器決定混音策略的語音控制信息提交至語音伺服器，語音伺服器可以動態地根據多種因素決定混音策略，既可以減少語音伺服器的硬體資源消耗，也能夠保證客戶端混音的效果。

榮譽表彰