《基於信息幾何的說話人標記算法研究》是依託清華大學,由何亮擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於信息幾何的說話人標記算法研究
- 依託單位:清華大學
- 項目負責人:何亮
- 項目類別:青年科學基金項目
項目摘要,結題摘要,
項目摘要
本項目基於信息幾何理論對說話人標記算法進行創新性研究,以提高說話人標記系統的識別正確率和魯棒性。說話人標記是回答“who speak when”的語音標記任務,是語音識別系統中重要的前端處理部分,在信息檢索、語音監控等領域有廣泛套用。本項目的研究內容包括:(1)分析說話人標記系統的核心問題,並基於信息幾何理論提出說話人標記算法;(2)基於變分貝葉斯估計的統計模型參數估計算法;(3)解決Fisher信息矩陣的計算方法,並依此度量統計流形上近鄰統計模型的相似程度;(4)根據同類點和異類點,求解鑑別式的映射矩陣;(5)研究“軟信息”在分割、聚類過程的套用;(6)研究基於多類Logistic回歸的多系統融合策略。在理論研究的基礎上,構建面向實用的說話人標記系統。在NIST RT和NIST SRE資料庫上實驗,預期結果達到國際領先水平。
結題摘要
說話人標記旨在解決語音流中誰在什麼時候(Who speak when)說話的問題,在自動語音檢索、多人會議場景和說話人相關的自動語音識別等方面具有廣泛套用。 本項目圍繞說話人標記問題,在理論層面,對信息幾何、變分貝葉斯估計、潛在類別分析和深度神經網路進行研究,提出了PRISM框架、鑑別式局部信息距離保持映射、潛在類別分析、深度神經網路-支持向量機和深度神經網路-峰值密度等算法;在套用層面,對相關的活動語音檢測、語音增強、說話人識別和語種識別方向進行研究,提出了長時Pitch散度特徵、約束補償拉普拉斯、深度神經網路-計算聽感知相關模型、多粒度深度神經網路、基於無監督數據訓練深度神經網路以及深度神經網路-隱含馬爾科夫模型等算法。 與傳統算法相比,本項目提出的最優算法——潛在類別分析-總體變化空間-混合疊代(LCM-Ivec-Hybrid)算法,結構簡單,物理意義明確,在國際權威的NIST RT09說話人標記單聲道(SDPK SDM)資料庫上,與經典的VB系統相比,有43.0%的相對性能提升,是我們目前已知文獻中,識別錯誤率最低的算法(說話人錯誤,5.9%,說話人標記錯誤,17.8%),其技術指標已經達到國際領先水平。基於本項目,實驗室研發相關的說話人識別,在NIST SRE 2016,INTCC聯隊的最小檢測代價是評測單位中第三名;實驗室研發的相關語種識別,在NIST LRE 2015,THUEE團隊的最小檢測代價是評測單位中第四名。 對說話人標記的研究具有重要的科學意義。說話人標記隸屬於時間序列分類問題,涉及多個學科,如資訊理論、泛函分析、數位訊號處理、模式識別和信息幾何等。對該問題的深入研究,不僅可以深化相關理論基礎,擴展相關理論套用,也能為相關領域研究,例如,視頻識別、智慧型交通等,提供解決思路。 基於本項目研發成果,實驗室與華為公司合作。據華為公司反饋,華為2018年發布的手機,將搭載實驗室提供的說話人標記系統。實驗室與江蘇公安合作,使用該技術追捕帶有3條命案的殺人犯,該項工作正在進行中。