一種基於滑鼠的語音識別人機互動方法:專利背景,發明內容,專利目的,技術方案,改善效

《一種基於滑鼠的語音識別人機互動方法》是徐敏於2015年4月09日申請的發明專利，該專利申請號為2015101657458，公布號為CN104731549A，專利公布日為2015年6月24日，發明人是徐敏。

《一種基於滑鼠的語音識別人機互動方法》包括集成語音採集功能的滑鼠和集成語音識別功能滑鼠驅動程式，滑鼠內集成有控制語音識別啟動、停止的語音按鍵、採集語音的專用麥克風、語音編解碼晶片、指示識別狀態的專用LED指示燈，滑鼠通訊用的USB HUB晶片或者RF晶片和滑鼠傳統功能的滑鼠晶片。所述滑鼠驅動程式包括離線命令詞語音識別模組、離線隨意語音轉寫模組、線上隨意語音轉寫模組、語音識別引擎自動選擇模組、語義理解模組和計算機操作控制模組。該發明的有益效果是通過該發明可以在滑鼠傳統功能基礎上充分發揮多種語音識別互動技術的優勢特點，降低人機互動的複雜度，提高人機互動效率。

2020年7月17日，《一種基於滑鼠的語音識別人機互動方法》獲得安徽省第七屆專利獎優秀獎。

（概述圖為《一種基於滑鼠的語音識別人機互動方法》的摘要附圖）

基本介紹

中文名：一種基於滑鼠的語音識別人機互動方法
公布號：CN104731549A
公布日：2015年6月24日
申請號：2015101657458
申請日：2015年4月9日
申請人：徐敏
地址：安徽省銅陵市銅官山區幸福新村23棟53號
發明人：徐敏
代理機構：銅陵市天成專利事務所
代理人：吳晨亮
Int.Cl.：G06F3/16(2006.01)I；G06F3/038(2013.01)I
類別：發明專利

專利背景,發明內容,專利目的,技術方案,改善效果,附圖說明,技術領域,權利要求,實施方式,榮譽表彰,

專利背景

截至2015年，滑鼠已經有幾十年歷史，其作為一種計算機的人機互動設備被廣泛套用，市場上的滑鼠基本功能是用來控制游標移動，和實現一些簡單按鍵功能，例如左鍵、右鍵、滾輪等，這些嚴重限制了滑鼠的人機互動能力，所以人們開始設計一些具備更多功能的滑鼠。具備語音識別能力的滑鼠一直是人們夢想的，在很多發明專利裡面也提出相關設計方案。主要概況起來有三大類：一是利用語音識別技術來實現滑鼠的功能，解決一些殘疾人無法用手操作滑鼠的問題，該方案不是提升滑鼠功能，是替代滑鼠操作方式。二是在滑鼠上集成語音識別處理模組，依賴滑鼠上的語音識別處理模組實現語音識別，從而達到語音控制計算機和滑鼠的目的，由於語音識別模組本身計算能力限制，不能實現複雜的語音識別算法，在識別準確率率和識別範圍方面都受到嚴重限制，在識別結果的二次處理方面也未提及，這也嚴重限制了用戶的語音互動效果。三是利用語音識別技術跟其它互動技術融合解決人機互動問題，例如：基於視覺跟蹤和語音識別結合的方案（專利號：ZL200710039996.7），在該專利里重點提到了如何利用視覺跟蹤和語音識別結合實現滑鼠控制的功能，語音識別也僅限制於“左鍵單機”、“右鍵單機”、“左鍵雙擊”等基本的功能，語音識別率也不是很高，只有86%，其在語音識別方面的研究不夠深入，具體如何套用語音識別方面更沒有詳細介紹。

發明內容

專利目的

《一種基於滑鼠的語音識別人機互動方法》要解決的技術問題是2015年4月之前的滑鼠集成語音技術功能單一、識別準確率低、識別範圍窄、人機互動的複雜度較高，互動效率較低，為此提供一種基於滑鼠的語音識別人機互動方法。

技術方案

《一種基於滑鼠的語音識別人機互動方法》包括語音採集功能的滑鼠和集成語音識別處理能力的滑鼠驅動程式，所述滑鼠內集成有滑鼠晶片、語音識別按鍵、麥克風、語音編解碼模組和LED指示燈，所述滑鼠晶片和語音編解碼模組通過USBHUB晶片/RF晶片與計算機內的滑鼠驅動程式通信，所述滑鼠驅動程式包括離線命令詞語音識別模組、離線隨意語音轉寫模組、線上隨意語音轉寫模組、語音識別引擎自動選擇模組、語義理解模組和計算機操作控制模組。

該發明包括以下步驟：

（1）在滑鼠內集成的麥克風實時採集語音信息，採集到的語音通過語音編解碼模組處理後上傳至計算機，計算機內安裝的滑鼠驅動程式實時接收語音信息；

（2）滑鼠驅動程式同時檢測滑鼠上的語音識別按鍵，當按鍵按下時，滑鼠驅動程式啟動錄音功能，LED指示燈亮，鬆開語音識別按鍵時，錄音結束；

（3）在啟動錄音功能同時啟動語音識別引擎自動選擇模組，根據特定的邏輯完成離線命令詞模組、離線隨意語音轉寫識別模組、線上隨意語音轉寫模組之間的自動選擇，具體選擇邏輯如下：首先判斷是否有文本輸入的游標聚焦，如無，則直接啟動離線命令詞識別模組，如有，判斷是否計算機線上，離線時，啟動離線隨意語音轉寫模組，線上時，啟動線上隨意語音轉寫模組；如果有文本輸入游標聚焦時，啟動離線命令詞語音識別模組，同時啟動線上或者離線隨意語音轉寫模組，獲得兩個識別結果返回值，再判斷離線命令詞語音識別模組返回的置信度，根據置信度判斷，當置信度高於設定的預值時，則將離線命令詞語音識別模組返回值作為我們的結果，並完成計算機控制操作；當置信度低於設定的預值時，則將線上或者離線隨意語音轉寫作為我們的結果，並完成文本輸入；

（4）在完成錄音和語音識別引擎自動選擇模組選擇後，將錄音信息提交給離線命令詞語音識別模組，返回識別結果，LED燈熄滅；

（5）對識別結果進行置信度判斷，判斷置信度是否達到我們設定的門限，如果高於門限值，啟動語義理解模組對識別結果進行分析處理，根據分析結果啟動計算機控制模組完成計算機控制操作；

（6）如果低於設定的門限值，啟動文本輸入功能，完成信息輸入，如果沒有文本輸入游標聚焦，放棄識別結果，不做任何操作。上述方案中滑鼠和計算機之間是有線或無線連線。

改善效果

《一種基於滑鼠的語音識別人機互動方法》的有益效果是提供了既具備傳統滑鼠功能又實現高性能語音識別功能的滑鼠產品。集成了多種語音識別功能，通過語音命令詞控制計算機，識別準確率達到95%以上，通過線上語音識別實現隨意文本輸入，識別範圍大幅擴大，識別準確率平均超過85%。通過該發明可以大大降低語音識別套用的使用門檻，並成為計算機輸入輸出方式的重要補充。通過該發明可以充分發揮語音識別互動技術的優勢特點，降低人機互動的複雜度，提高人機互動效率。

附圖說明

圖1是《一種基於滑鼠的語音識別人機互動方法》整體示意圖；

圖2是該發明硬體框圖；

圖3是該發明滑鼠驅動程式框圖；

圖4是該發明滑鼠驅動程式流程圖。

技術領域

《一種基於滑鼠的語音識別人機互動方法》涉及計算機輸入輸出設備，尤其涉及一種基於滑鼠的語音識別人機互動方法。

權利要求

1.《一種基於滑鼠的語音識別人機互動方法》包括具有語音採集功能的滑鼠和集成語音識別處理能力的滑鼠驅動程式，所述滑鼠內集成有滑鼠晶片、語音識別按鍵、麥克風、語音編解碼模組和LED指示燈，所述滑鼠晶片和語音編解碼模組通過USBHUB晶片/RF晶片與計算機內的滑鼠驅動程式通信，所述滑鼠驅動程式包括離線命令詞語音識別模組、離線隨意語音轉寫模組、線上隨意語音轉寫模組、語音識別引擎自動選擇模組、語義理解模組和計算機操作控制模組，該方法步驟如下：（1）、在滑鼠內集成的麥克風實時採集語音信息，採集到的語音通過語音編解碼模組處理後上傳至計算機，計算機內安裝的滑鼠驅動程式實時接收語音信息；（2）、滑鼠驅動程式同時檢測滑鼠上的語音識別按鍵，當按鍵按下時，滑鼠驅動程式啟動錄音功能，LED指示燈亮，鬆開語音識別按鍵時，錄音結束；（3）、在啟動錄音功能之後啟動語音識別引擎自動選擇模組，根據特定的邏輯完成離線命令詞語音識別模組、離線隨意語音轉寫模組、線上隨意語音轉寫模組之間的自動選擇，具體選擇邏輯如下：首先判斷是否有文本輸入的游標聚焦，如果沒有文本輸入游標聚集，啟動離線命令詞語音識別模組，將離線命令詞語音識別模組返回值作為我們的結果，啟動語義理解模組對識別結果進行分析處理，根據分析結果啟動計算機操作控制模組完成計算機控制操作；如果有文本輸入游標聚集時，啟動離線命令詞語音識別模組，並判斷是否計算機線上，離線時，啟動離線隨意語音轉寫模組，線上時，啟動線上隨意語音轉寫模組，獲得兩個識別結果返回值；再判斷離線命令詞語音識別模組返回的置信度，根據置信度判斷，當置信度高於設定的預設值時，則將離線命令詞語音識別模組返回值作為我們的結果，啟動語義理解模組對識別結果進行分析處理，根據分析結果啟動計算機操作控制模組完成計算機控制操作；當置信度低於設定的預設值時，則啟動文本輸入功能，將線上或離線隨意語音轉寫作為我們的結果，並完成文本輸入；（4）、在完成錄音和語音識別引擎自動選擇模組選擇後，將錄音信息提交給離線命令詞語音識別模組，返回識別結果，LED燈熄滅。

2.如權利要求1所述的一種基於滑鼠的語音識別人機互動的方法，其特徵是滑鼠和計算機之間是有線或無線連線。

實施方式

如圖1所示，《一種基於滑鼠的語音識別人機互動方法》包括滑鼠和滑鼠驅動程式兩大部分，首先滑鼠和滑鼠驅動程式保留傳統滑鼠要求的構成和功能，滑鼠和計算機之間可以是有線或無線連線。在此基礎上，該發明對其進行了創新設計。滑鼠上，該發明增加了語音控制按鍵、聲音採集麥克風、音頻編解碼模組以及LED指示燈。在滑鼠驅動程式上，該發明增加了離線命令詞語音識別模組、離線隨意語音轉寫模組、線上隨意語音轉寫模組、語音識別引擎自動選擇模組、語義理解模組和計算機操作控制模組等。

如圖2所示，該發明硬體包括語音按鍵、滑鼠晶片、LED指示燈、滑鼠其它功能鍵、採集語音麥克風、語音編解碼晶片、USB HUB晶片/RF晶片等部分組成。

語音按鍵：用來啟動語音識別的專用按鍵，按下該按鍵，開始採集語音，鬆開按鍵結束語音採集。

滑鼠晶片：主要用來實現滑鼠傳統功能，檢測滑鼠移動，檢查各按鍵，控制指示燈，並跟驅動程式之間進行數據互動。

LED指示燈：主要功能是指示識別狀態，開始語音採集，指示燈亮，返回識別結果，指示燈滅。

滑鼠其它功能鍵：主要指左鍵、右鍵、滾輪等。

採集語音麥克風：本方案中可以採用駐極體麥克風或者矽麥作為採集語音麥克風。

音頻編解碼模組：主要用來實現音頻模數轉換和壓縮編碼功能。

USB HUB晶片/RF晶片：根據滑鼠是USB有線滑鼠還是RF無線滑鼠進行適當選擇，實現滑鼠跟計算機之間的通訊問題。

如果3所示，該發明的滑鼠驅動程式處理語音數據框圖，滑鼠收到音頻數據後，首先啟動識別引擎自動選擇模組，判斷啟動哪個語音識別模組最合適用戶的需求，再啟動語義理解模組分析用戶意圖，最後啟動計算機控制模組完成計算機控制或文本輸入。

離線命令詞識別模組：指針對預置的特點詞語的語音識別。離線命令詞識別的優點是：占用資源低，識別速度快，識別準確率高，不依賴網路。缺點是：識別範圍小，要求用戶嚴格按照命令詞說語音。

離線隨意語音轉寫模組：指針對特定範圍的隨意語音識別轉寫，不依賴網路工作。優點是，不依賴網路，用戶可以隨意說口語，不限制用戶的語法結構；缺點是，識別占用資源較高，識別範圍受限，一般是預置的某些範圍，例如：常用口語等。

線上隨意語音轉寫模組：該識別方式主要依賴線上雲端語音識別服務實現的。優點是，識別範圍大，識別率較高，支持各類口音以及方言識別等。缺點是，識別率沒有命令詞識別率高，依賴網路工作，穩定性受網路環境影響。

語音識別引擎自動選擇模組：三個識別引擎需要根據用戶的需要進行自由切換，充分發揮各自引擎的優勢特點。所以該發明設計了語音識別引擎自動選擇模組，具體邏輯見流程圖。

語義理解模組：如果說語音識別解決的是語音轉化成文字的問題，那么語義理解解決模組解決的是判斷文字的內涵，理解用戶的真實意圖。例如：“聽音樂”背後的意圖是：打開音樂播放器，並播放音樂。

計算機操作控制模組：該模組是根據作業系統設計的控制軟體，語義理解模組可以直接調用該模組實現計算機的控制操作。

如圖4所示，該發明的驅動程式基本數據流程圖，從流程圖上可以看出以下幾個方面的創新。

該發明充分融合了多種語音識別技術，多種識別技術自由切換，充分發揮了語音識別的最佳效果。利用離線命令詞識別模組實現計算機的快速、準確控制；利用離線和線上的隨意語音轉寫模組實現複雜文本的輸入。這充分發揮命令詞識別算法的準確率高和速度快的特點，同時又發揮線上轉寫識別模組處理複雜語音識別的優勢。充分融合了多種語音識別技術的優勢特點，揚長避短，這是現階段語音技術在人機互動方面充分展示其優勢的關鍵設計。

該發明在人機互動方面大大降低對操作用戶的要求，設計了語義理解模組，根據識別的文本內容主動分析用戶意圖，大大提高設計的智慧型化程度，讓用戶獲得更加自然的互動體驗。這主要體現在以下幾個方面：

不同的語音口令，指向相同的計算機控制動作；例如：“關閉計算機”、“關計算機”“關機”等語音口令，經過語義理解模組處理後，都指向關機操作；

簡單的口令可以快速實現原本複雜的計算機操作；例如：計算機要實現卸載程式，需要這樣操作：開始選單-控制臺-卸載更改程式，現在可以語音口令“卸載程式”，一步到位。

以理解用戶問題的方式引導用戶操作計算機；例如：突然網路掉線了，用戶可以說口令：“網路掉線了”，計算機根據這個口令，打開網路設定界面，並引導用戶檢查網路。該發明保留傳統滑鼠的全部功能，例如游標控制、左右鍵、滾輪、有/無線等。這種設計儘量兼容用戶原來操作滑鼠的習慣，不會給用戶帶來使用上的不便。

該發明在滑鼠上增加語音採集電路、語音識別開關控制電路、語音識別指示燈電路。該設計有三個方面的優勢：a.電路設計方案成熟，成本低；b.語音按鍵啟動語音識別非常方便；c.建立專用的語音採集通道，不在對計算機其它外設有依賴和干擾。有的設計方案需要用戶戴耳機或者對著話筒說話，這給用戶使用語音識別帶來極大的不方便。該發明只需要用戶使用語音識別滑鼠，隨時啟動語音控制和語音輸入。

用戶在操作計算機時，突然想打開“控制臺”進行設定，可以這樣操作：按住滑鼠上的語音按鍵，說：“控制臺”，滑鼠驅動程式直接打開“控制臺”。在用語音控制時，用戶無需做任何退出在正在執行的操作界面。

在工作時，突然想聽音樂，可以這樣操作：按住滑鼠上的語音按鍵，說：“播放音樂”，滑鼠驅動程式直接打開音樂播放器，調出常聽的音樂。

在瀏覽網際網路時，想在百度上搜尋框裡輸入：“如何更高效地操作計算機”，用戶除了用鍵盤輸入方式，還可用這樣操作，按住滑鼠上的語音按鍵，說：“如何更高效地操作計算機”，滑鼠驅動程式自動完成語音識別，並將文本信息輸入到百度對話框裡。

榮譽表彰