專利背景
作為人際交流的重要媒介,口語語言在實際生活中占有極其重要的地位。隨著社會經濟的不斷發展和全球化趨勢的加劇,人們對語言學習的效率以及語言評估的客觀性、公正性和規模化測試提出了越來越高的要求。傳統的人工口語水平評測方法使教師和學生在教學時間和空間上受到很大限制,在師資力量、教學場地、經費支出等方面也存在諸多硬體上的差距和不平衡;人工評測無法避免評估者自身的個體偏差,從而不能保證評分標準的統一,有時甚至無法準確反映被測者的真實水平;而對於大規模口語測試,則需要大量的人力、物力和財力支持,限制了經常性、規模性的評估測試。為此,業界相繼開發出了一些語言教學和評測系統。
在2013年11月之前的技術中,口語評測系統通常採用單識別器對接收到的語音信號進行語音識別(如問答題)或者語音文本對齊(如朗讀題),從而獲取各基本語音單元對應的語音片斷。隨後系統從各語音片斷中分別提取描述各基本語音單元發音標準度或流暢度等衡量口語評測標準的特徵,最後基於所述特徵通過預測分析得到評測最終得分。
在安靜的環境下使用高保真的錄音設備時,語音識別系統由於能提供較高的識別準確率因而後續口語評測也能提供較為客觀準確的結果。然而在實際套用中特別是對於大規模口語考試,錄音環境不可避免會受到考場噪聲、環境噪聲等因素的影響,語音識別準確率下降導致口語評測過程中會出現一定比例的異常評分語音。顯然這種現象使得大規模口語考試中計算機自動評分很難真正實用,限制了口語評測系統的套用範圍和推廣,對很多至關重要的考試無法套用,否則一旦出現異常評分就會造成評卷事故。
發明內容
專利目的
《口語評測方法及系統》實施例提供一種口語評測方法及系統,以提高口語評測的準確性,減少異常評分。
技術方案
《口語評測方法及系統》包括:
接收待評測的語音信號;
利用至少兩種不同的語音識別系統分別獲取所述語音信號中各基本語音單元對應的語音片斷;
從所述語音片斷中分別提取對應不同特徵類型的評測特徵;
計算所述評測特徵的原始得分;
按照所述特徵類型對基於不同語音識別系統得到的所述原始得分進行最佳化融合,得到所述評測特徵的綜合得分;
根據不同評測特徵的綜合得分計算所述語音信號的得分。
優選地,所述特徵類型包括以下一種或多種:完整性特徵、發音準確性特徵、流利性特徵、韻律特徵。
優選地,所述計算所述評測特徵的原始得分包括:
載入與所述評測特徵的特徵類型相對應的評分預測模型;
計算所述評測特徵相應於所述評分預測模型的相似度,並將所述相似度作為所述評測特徵的原始得分。
優選地,對應不同題型的同一特徵類型的評分預測模型不同。
優選地,所述按照所述特徵類型對基於不同語音識別系統得到的所述原始得分進行最佳化融合,得到所述評測特徵的綜合得分包括:
針對同一特徵類型的基於不同語音識別系統得到的評測特徵的原始得分,取其中最大得分、或中位得分、或平均得分,作為所述評測特徵的綜合得分。
一種口語評測系統,包括:
接收模組,用於接收待評測的語音信號;
語音片斷獲取模組,用於利用至少兩種不同的語音識別系統分別獲取所述語音信號中各基本語音單元對應的語音片斷;
特徵提取模組,用於從所述語音片斷中分別提取對應不同特徵類型的評測特徵;
計算模組,用於計算所述評測特徵的原始得分;最佳化融合模組,用於按照所述特徵類型對基於不同語音識別系統得到的所述原始得分進行最佳化融合,得到所述評測特徵的綜合得分;評分模組,用於根據不同評測特徵的綜合得分計算所述語音信號的得分。
優選地,所述特徵類型包括以下一種或多種:完整性特徵、發音準確性特徵、流利性特徵、韻律特徵。
優選地,所述計算模組包括:載入單元,用於載入與所述評測特徵的特徵類型相對應的評分預測模型;相似度計算單元,用於計算所述評測特徵相應於所述評分預測模型的相似度,並將所述相似度作為所述評測特徵的原始得分。
優選地,對應不同題型的同一特徵類型的評分預測模型不同。
優選地,所述評分模組,具體用於針對同一特徵類型的基於不同語音識別系統得到的評測特徵的原始得分,取其中最大得分、或中位得分、或平均得分,作為所述評測特徵的綜合得分。
改善效果
《口語評測方法及系統》實施例提供的口語評測方法及系統,通過採用多語音識別系統分別評分綜合的方式,減少了單系統評分帶來的識別和評測特徵提取異常的情況,進而減少了識別錯誤帶來的評分誤差,實現了對用戶口語水平的全面準確評測。
附圖說明
圖1是《口語評測方法及系統》實施例口語評測方法的流程圖;
圖2是該發明實施例中構建評分預測模型的流程圖;
圖3是該發明實施例口語評測系統的結構示意圖。
技術領域
《口語評測方法及系統》涉及語音信號處理技術領域,具體涉及一種口語評測方法及系統。
權利要求
1.一種口語評測方法,其特徵在於,包括:接收待評測的語音信號;利用至少兩種不同的語音識別系統分別獲取所述語音信號中各基本語音單元對應的語音片斷;從所述語音片斷中分別提取對應不同特徵類型的評測特徵;計算所述評測特徵的原始得分;按照所述特徵類型對基於不同語音識別系統得到的所述原始得分進行最佳化融合,得到所述評測特徵的綜合得分;根據不同評測特徵的綜合得分計算所述語音信號的得分。
2.根據權利要求1所述的方法,其特徵在於,所述特徵類型包括以下一種或多種:完整性特徵、發音準確性特徵、流利性特徵、韻律特徵。
3.根據權利要求1所述的方法,其特徵在於,所述計算所述評測特徵的原始得分包括:載入與所述評測特徵的特徵類型相對應的評分預測模型;計算所述評測特徵相應於所述評分預測模型的相似度,並將所述相似度作為所述評測特徵的原始得分。
4.根據權利要求3所述的方法,其特徵在於,對應不同題型的同一特徵類型的評分預測模型不同。
5.根據權利要求1至4任一項所述的方法,其特徵在於,所述按照所述特徵類型對基於不同語音識別系統得到的所述原始得分進行最佳化融合,得到所述評測特徵的綜合得分包括:同一特徵類型的基於不同語音識別系統得到的評測特徵的原始得分,取其中最大得分、或中位得分、或平均得分,作為所述評測特徵的綜合得分。
6.一種口語評測系統,其特徵在於,包括:接收模組,用於接收待評測的語音信號;語音片斷獲取模組,用於利用至少兩種不同的語音識別系統分別獲取所述語音信號中各基本語音單元對應的語音片斷;特徵提取模組,用於從所述語音片斷中分別提取對應不同特徵類型的評測特徵;計算模組,用於計算所述評測特徵的原始得分;最佳化融合模組,用於按照所述特徵類型對基於不同語音識別系統得到的所述原始得分進行最佳化融合,得到所述評測特徵的綜合得分;評分模組,用於根據不同評測特徵的綜合得分計算所述語音信號的得分。
7.根據權利要求6所述的系統,其特徵在於,所述特徵類型包括以下一種或多種:完整性特徵、發音準確性特徵、流利性特徵、韻律特徵。
8.根據權利要求6所述的系統,其特徵在於,所述計算模組包括:載入單元,用於載入與所述評測特徵的特徵類型相對應的評分預測模型;相似度計算單元,用於計算所述評測特徵相應於所述評分預測模型的相似度,並將所述相似度作為所述評測特徵的原始得分。
9.根據權利要求8所述的系統,其特徵在於,對應不同題型的同一特徵類型的評分預測模型不同。
10.根據權利要求6至9任一項所述的系統,其特徵在於,所述評分模組,具體用於針對同一特徵類型的基於不同語音識別系統得到的評測特徵的原始得分,取其中最大得分、或中位得分、或平均得分,作為所述評測特徵的綜合得分。
實施方式
如圖1所示,是本《口語評測方法及系統》實施例口語評測方法的流程圖,包括以下步驟:
步驟101,接收待評測的語音信號。
步驟102,採用至少兩種不同的語音識別系統分別獲取所述語音信號中各基本語音單元對應的語音片斷。
所述基本語音單元可以是音節、音素等。不同的語音識別系統將基於不同的聲學特徵如基於MFCC(Mel-Frequency Cepstrum Coefficients,美爾倒譜係數)特徵的聲學模型、基於PLP(Perceptual Linear Predictive,感知線性預測)特徵的聲學模型等,或採用不同的聲學模型如HMM-GMM(Hidden Markov Model-Gaussian MixtureModel,隱馬爾可夫模型-高斯混合模型)、基於DBN(Dynamic Beyesian Network,
動態貝葉斯網路)的神經網路聲學模型等,甚或採用不同的解碼方式如Viterbi搜尋,A*搜尋等,對語音信號解碼。這樣,可以得到所述語音信號的基本語音單元及對應的語音片斷序列。
具體地,對於問答題等沒有文本標註的語音信號可以通過連續語音識別獲取所述語音信號對應的文本即基本語音單元序列,以及各基本語音單元所對應的語音片斷。而對於朗讀題等具有標準答案的語音信號則採用語音對齊方式獲得各基本語音單元所對應的語音片斷的時間邊界。
由於不同的語音識別系統具有不同的解碼優勢,其識別結果之間往往具有一定的互補性。
步驟103,從所述語音片斷中分別提取對應不同特徵類型的評測特徵。
所述特徵類型可以包括以下一種或多種:完整性特徵、發音準確性特徵、流利性特徵、韻律特徵等。其中:
所述完整性特徵用於描述所述語音片斷序列對應的基本語音單元序列相應於標準答案的文本完整度。
在該發明實施例中,可以通過將所述基本語音單元序列與預先構建的標準答案網路進行匹配,獲得最優路徑,將最優路徑和語音單元序列的匹配度作為完整性特徵。 需要說明的是,針對不同的題型,所述標準答案網路的形式可以不同,比如,對朗讀題型,其標準答案為題面字詞序列,而對於問答題等半開放題型,其標準答案往往由確定的核心字詞及其它輔助性連線字詞構成。此外由於答案的不確定性,其表達形式往往較多,相應的標準答案網路通常由多個標準答案構成,表現為多個答案句式或格線形式的標準答案。
當然,在標準答案不唯一時,還可以根據各標準答案的出現機率構建一個帶權重的標準答案網路,並選擇相應的加權匹配率計算最優路徑和語音單元序列的匹配度,將對應各語音單元的匹配度作為完整性特徵。
更進一步地,在半開放題型的答案網路中,答案中確定的核心字詞對答案正確與否描述的重要性要遠高於其他連線性字詞,為了突顯核心字詞對答案完整度的重要性,可以分別對核心字詞以及連線字詞設定不同數值的權重,在帶權重的標準答案網路中搜尋所述基本語音單元序列的最優路徑,並將最優路徑的累計得分作為匹配度。
所述發音準確性特徵用於描述各語音片斷的發音標準度。具體地,可以分別計算各語音片斷相應於其所對應基本語音單元預設的發音聲學模型的相似度,將所述相似度作為發音準確性特徵。
所述流利性特徵用於描述用戶語句表述的通順性,包括但不限於語句平均語速(如語音時長和語音單元個數的比例等)、語句平均語流長度、語句有效停頓比例等。此外,為了補償不同發音人在語速上的差異,還可以採用音素段特徵,對所有發音部分進行歸一化後共同組成流利性特徵。具體地,可以通過統計上下文無關音素的時長離散機率分布,計算歸一化後時長評分的對數機率,得到音素的段長評分。
所述韻律特徵用於描述用戶發音的韻律特點,包括基頻變化起伏等特徵。具體地,可以提取各語音片斷的基頻特徵序列,也可以隨後進一步獲取其動態變化特徵,如提取一階差分、二階差分等作為補充韻律特徵。
上述對應不同特徵類型的評測特徵分別從不同角度描述了當前用戶發音的特點,彼此具有一定的互補性。
步驟104,計算每種評測特徵的原始得分。對於不同特徵類型的評測特徵可以分別載入對應的評分預測模型並計算所述評測特徵相應於該評分預測模型的相似度,將所述相似度作為所述評測特徵的原始得分。 需要說明的是,在實際套用中,還可以根據不同題型載入相應的評分預測模型,對應不同題型的同一特徵類型的評分預測模型可以相同,也可以不同,從而進一步提高評分的細緻度和準確性。各評分預測模型的構建將在後面詳細說明。
步驟105,按照所述特徵類型對基於不同語音識別系統得到的所述原始得分進行最佳化融合,得到所述評測特徵的綜合得分。由於不同的語音識別系統採用了不同的識別算法或聲學模型,往往具有不同的識別結果,相應的基於不同語音片斷提取的同一特徵類型的評測特徵也不盡相同,評測特徵的得分也存在一定的互補性(完整性、準確性、流利度、韻律等)。
在該發明實施例中,首先針對不同語音識別系統得到的針對同一特徵類型的評測特徵的原始得分進行最佳化融合,全面衡量該評測特徵表征的用戶發音水平。具體地,可以根據不同考試的需求和語音識別系統的個數,採用取最大、取中位數、取平均值等方式對所述得分進行最佳化融合。比如,如果基於不同語音識別系統得到的評測特徵的原始得分相差在設定的閾值內,則將各原始得分的平均值作為該評測特徵的綜合得分;如果某個或某些語音識別系統得到的評測特徵的原始得分高於其他語音識別系統得到的該評測特徵的原始得分,則取其中的最大值或最大值附近的平均值作為該評測特徵的綜合得分。
通過上述綜合得分,可以在一定程度上降低單個語音識別系統異常或者評測特徵提取異常導致的得分異常情況。
步驟106,根據不同評測特徵的綜合得分計算所述語音信號的得分。
經過上述步驟105的融合過程後,可以得不同評測特徵的綜合得分。在該發明實施例中,可以從實際套用出發,考慮到不同類型的評測特徵的綜合得分具有一定的相關性,基於線性回歸的轉換方法,計算總得分,即按以下公式計算語音信號的得分:
其中,wi是各評測特徵的相關參數,wi為正數,由系統預先設定且滿足si是各評測特徵的綜合得分;N是綜合得分的個數。
可見,該發明實施例的口語評測方法,通過採用多語音識別系統分別評分綜合的方式,減少了單系統評分帶來的識別和評測特徵提取異常的情況,進而減少了識別錯誤帶來的評分誤差,實現了對用戶口語水平的全面準確評測。
前面提到,在計算評測特徵的得分時,需要載入與所述評測特徵的特徵類型相對應的評分預測模型。需要說明的是,所述評分預測模型可以預先離線構建。
在該發明實施例中,評分預測模型是針對每個特徵類型分別設定的,其輸入是從語音片斷中提取的對應某一特定特徵的評測特徵(如完整性特徵,發音準確性特徵等),輸出是分數,實際上是建立了從評測特徵到評分的映射。需要說明的是,對每種評測特徵都分別建立了一個評分預測模型。進一步地,對應不同的題型的相同評分特徵類型,也可以分別建立對應的評分預測模型。
如圖2所示,是該發明實施例中構建評分預測模型的流程圖,包括以下步驟:
步驟201,採集評分訓練數據。具體地,可以對每個題目分別收集多個用戶的答題語音數據,作為評分訓練數據。步驟202,對所述訓練數據進行人工標註,包括文本標註和切分、以及口語評測人工打分等。
所述文本標註是指從語音到文本的轉換。切分是指通過人工監聽,對連續語音信號進行劃分,確定各基本語音單元對應的語音片斷。口語評測人工打分是指通過人工測聽的方式對口語水平進行評分。在實際套用中,可以分別對上述不同的評測特徵分別評分,所述評測特徵包括完整性特徵、發音準確性特徵、流利性特徵、韻律特徵等。
步驟203,根據標註結果分別提取不同特徵類型的評測特徵。也就是說,根據標註結果中的基本語音單元及對應的語音片斷,從所述語音片斷中按照前面介紹的方式分別提取不同特徵類型的評測特徵。
步驟204,利用所述評測特徵分別構建與所述特徵類型相關的評分預測模型。具體地,可以利用預測技術在人工評分的指導下訓練得到評分預測模型的參數,繼而得到評分預測模型。進一步地,還可以根據不同考試題型分別建立與題型相關的評分預測模型。
在該發明實施例中,需要分別對特定的評測特徵建立單獨的評分預測模型。構建過程大致如下:
首先假設評分預測模型為評測特徵的映射函式。如對完整性特徵,其特徵維數為1,則該預測模型為線性函式y=a*x+b,其中x為提取的完整性特徵,y為預測的評測得分,a,b是預測模型參數。
然後從預先獲取的訓練數據中提取得到各樣本的完整性特徵X及相應的人工完整性特徵評分Y。接著在LSE(LeastSquares Error,最小均方誤差)或MSE(Mean Squared Error)準則下訓練得到a,b的預測模型參數。
當然評分預測模型不局限於上述線性映射函式,還可以採用NN(Neural Network,
神經網路)等統計模型的方法,這裡不再詳細描述。
相應地,該發明實施例還提供一種口語評測系統,如圖3所示,是該系統的結構示意圖。
在該實施例中,所述系統包括:接收模組301,用於接收待評測的語音信號。
語音片斷獲取模組302,用於利用至少兩種不同的語音識別系統分別獲取所述語音信號中各基本語音單元對應的語音片斷。
上述基本語音單元可以是音節、音素等。不同的語音識別系統將基於不同的聲學特徵如基於MFCC特徵的聲學模型、基於PLP特徵的聲學模型等,或採用不同的聲學模型如HMM-GMM、基於DBN的神經網路聲學模型等,甚或採用不同的解碼方式如Viterbi搜尋,A*搜尋等,對語音信號解碼。這樣,可以得到所述語音信號的基本語音單元及對應的語音片斷序列。
具體地,對於問答題等沒有文本標註的語音信號可以通過連續語音識別獲取所述語音信號對應的文本即基本語音單元序列,以及各基本語音單元所對應的語音片斷。而對於朗讀題等具有標準答案的語音信號則採用語音對齊方式獲得各基本語音單元所對應的語音片斷的時間邊界。
由於不同的語音識別系統具有不同的解碼優勢,其識別結果之間往往具有一定的互補性。
特徵提取模組303,用於從所述語音片斷中分別提取對應不同特徵類型的評測特徵。
所述特徵類型可以包括以下一種或多種:完整性特徵、發音準確性特徵、流利性特徵、韻律特徵等,各種特徵類型的定義在前面已有詳細說明。
計算模組304,用於計算所述評測特徵的原始得分。
最佳化融合模組305,用於按照所述特徵類型對基於不同語音識別系統得到的所述原始得分進行最佳化融合,得到所述評測特徵的綜合得分。
由於不同的語音識別系統採用了不同的識別算法或聲學模型,往往具有不同的識別結果,相應的基於不同語音片斷提取的同一特徵類型的評測特徵也不盡相同,評測特徵的得分也存在一定的互補性。
為此,在該發明實施例中,最佳化融合模組305針對不同語音識別系統得到的針對同一特徵類型的評測特徵的原始得分進行最佳化融合,全面衡量該評測特徵表征的用戶發音水平。具體地,最佳化融合模組305可以根據不同考試的需求和語音識別系統的個數,採用取最大、取中位數、取平均值等方式對所述得分進行最佳化融合。比如,如果基於不同語音識別系統得到的評測特徵的原始得分相差在設定的閾值內,則最佳化融合模組305將各原始得分的平均值作為該評測特徵的綜合得分;如果某個或某些語音識別系統得到的評測特徵的原始得分高於其他語音識別系統得到的該評測特徵的原始得分,則最佳化融合模組305取其中的最大值或最大值附近的平均值作為該評測特徵的綜合得分。
通過上述綜合得分,可以在一定程度上降低單個語音識別系統異常或者評測特徵提取異常導致的得分異常情況。
評分模組306,根據不同評測特徵的綜合得分計算所述語音信號的得分。
評分模組306可以基於線性回歸的轉換方法,計算總得分,具體計算方式在前面該發明實施例口語評測方法中已做詳細說明。
可見,該發明實施例的口語評測系統,通過採用多語音識別系統分別評分綜合的方式,減少了單系統評分帶來的識別和評測特徵提取異常的情況,進而減少了識別錯誤帶來的評分誤差,實現了對用戶口語水平的全面準確評測。
需要說明的是,在該發明實施例中,上述計算模組304具體可以利用對應不同評測特徵的評分預測模型計算所述評測特徵相應於該評分預測模型的相似度,將所述相似度作為所述評測特徵的原始得分。
為此,所述計算模組304的一種實現方式包括:載入單元和相似度計算單元(未圖示)。其中:
所述載入單元,用於載入與所述評測特徵的特徵類型相對應的評分預測模型;
所述相似度計算單元,用於計算所述評測特徵相應於所述評分預測模型的相似度,並將所述相似度作為所述評測特徵的原始得分。
需要說明的是,在實際套用中,還可以根據不同題型載入相應的評分預測模型,對應不同題型的同一特徵類型的評分預測模型可以相同,也可以不同,從而進一步提高評分的細緻度和準確性。各評分預測模型的構建將在後面詳細說明。
該說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。以上所描述的系統實施例僅僅是示意性的,其中所述作為分離部件說明的模組或單元可以是或者也可以不是物理上分開的,作為模組或單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現該實施例方案的目的。本領域普通技術人員在不付出創造性勞動的情況下,即可以理解並實施。
該發明的各個部件實施例可以以硬體實現,或者以在一個或者多個處理器上運行的軟體模組實現,或者以它們的組合實現。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數位訊號處理器(DSP)來實現根據該發明實施例的口語評測系統中的一些或者全部部件的一些或者全部功能。該發明還可以實現為用於執行這裡所描述的方法的一部分或者全部的設備或者裝置程式(例如,電腦程式和電腦程式產品)。這樣實現該發明的程式可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從網際網路網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
榮譽表彰
2019年5月16日,《口語評測方法及系統》獲得安徽省第六屆專利獎優秀獎。