《聽覺場景分析及其噪聲環境下的語音識別》是依託東南大學,由吳鎮揚擔任項目負責人的面上項目。
基本介紹
- 中文名:聽覺場景分析及其噪聲環境下的語音識別
- 項目類別:面上項目
- 項目負責人:吳鎮揚
- 依託單位:東南大學
- 批准號:60272044
- 申請代碼:F0111
- 負責人職稱:教授
- 研究期限:2003-01-01 至 2005-12-31
- 支持經費:20(萬元)
《聽覺場景分析及其噪聲環境下的語音識別》是依託東南大學,由吳鎮揚擔任項目負責人的面上項目。
《聽覺場景分析及其噪聲環境下的語音識別》是依託東南大學,由吳鎮揚擔任項目負責人的面上項目。中文摘要本項研究工作將綜合聽覺場景分析和計算聽覺場景分析的理論以及語音識別技術的最新研究成果。用計算機模仿人類聽覺系統的處理機制,...
現代自動語音識別技術可以追溯到上世紀50年代貝爾實驗室的 研究員使用模擬元器件,提取分析元音的共振峰信息,實現了十個英文孤立數字的識別功能。到了50年代末,統計語法的概念被倫敦大學學院的研究者首次加入到語音識別中(Fry,1959),具有識別輔音和元音音素功能的識別器問世。在同一時期,用於特定環境中面向非特定人...
1.智慧型語音信息系統及人機互動技術:統計語言信息處理、智慧型人機對話、智慧型信息檢索、大辭彙連續語音識別、語音合成等。2.聽感知機理和聽覺計算模型:聽覺神經生理、聽覺神經心理、聽覺心理物理、聽覺場景分析計算模型等。近年來,在國際國內權威期刊和國際學術會議上發表了一批高水平的論文,在國際和國內學術評測中多次取得...
利用聲音的固有屬性將聲音分為三個基本模型,對輸入的混合聲進行預測、修正、分析歸類;利用聲音的空間屬性研究基於HRTF的聲源空間定位,並將它作為聲源分離的一個重要線索;試圖利用CASA解決語音識別系統在複雜環境下套用的難題。本項目對計算機聽覺等研究有重要意義,並有廣闊的套用前景。
模擬人耳聽覺系統的頻率選擇性,基於協方差矩陣,實現子帶噪聲估計,在定位模型中將子帶信噪比作為可信度度量,實現子帶頻率的自適應選擇,提高了混響和噪聲環境下雙耳聲源定位的魯棒性;同時研究了低信噪比環境下的端點檢測算法和多環境模型矢量泰勒級數VTS(Vector Taylor Series)語音識別算法,作為雙耳空間感知的前端和...
提出了一種採用感知語譜結構邊界參數(PSSB)的病理嗓音端點檢測算法及感知聽覺場景分析的缺失數據特徵提取方法,實驗表明該方法能夠更有效地檢測出語音的端點及提高語音信號的魯棒性,為在醫院嘈雜的環境下採集病人的嗓音提供了良好的環境基礎。 在特徵參數提取方面,所提出的巴克濾波器組及最大李雅普諾夫指數下的非線...
目前研究組的主要興趣在如下三個方面:(1)自然語言處理的基礎理論和方法研究、機器翻譯、信息檢索與信息提取、文本挖掘;(2)高性能的語音識別技術研究;(3)語音合成、計算聽覺場景分析、人機互動中情感計算、多媒體集成方法研究。目前該研究組有研究人員5名,博士研究生23名,碩士研究生14名,承擔和參與的主要...
利用邊緣機率估計和數據估計方法,實現分離語音的識別,說話人干擾下的識別性能有顯著提升。本項目研究工作基於空間信息的語音分離,提高了強混響、強噪聲、多說話人等複雜聲學環境下,目標聲源的感知質量和可懂度,為提高語音信號處理系統魯棒性提供了新的途徑。
本研究旨在通過模擬人的聽覺系統對聲音信號的處理和感知過程,提出一種混疊語音信號分離的新方法。研究內容包括:能反映聽覺心理特徵的新聽覺模型的建立;用計算聲場景分析方法從混疊語音信號中跟蹤並分離出感興趣源信號的原理與實現技術。本研究對提高實際環境中語音識別系統的性能、智慧型機器人技術中檢測聲源數目與聲源定位...
新模型將克服目前語音模型的不完整性的缺陷,為求解欠定的單通道語音分離問題提供更好的約束;同時新模型作為產生式模型,可以很自然結合高層知識,從而支持在語音分離中象圖式驅動的聽覺場景分析一樣,實現自下而上和自上而下的信息雙向流動。這些新舉措有望帶來單通道語音分離研究的新突破。結題摘要 本項目旨在發展...
其次,基於聲源定位的語音增強方案的研究探索也取得一定成果。 同時,在僅基於兩個麥克風的小孔徑麥克風陣列研究探索方面,力圖藉助聲場景分析技術,利用語音信號的時頻稀疏性、人耳聽覺掩蔽效應以及人耳聽覺注意機制,探索多聲源定位的高性能方法,從另一種意義上達到多陣元大孔徑麥克風陣的聲源定位效果。此外,基於...
內容簡介 雞尾酒會是一個典型的複雜聽覺場景:人聲鼎沸,酒杯碰撞,音樂流淌等。日常生活中的其他場景,包括繁忙的辦公室、擁擠的餐廳、嘈雜的教室和堵塞的城市街道,在聲學上同樣是複雜的。正常的聽覺系統在解析這些複雜場景過程中表現出卓越的能力。然而,即使相對輕微的聽力損傷也會影響這種聽覺場景分析能力。
單聲道和多聲道的語音增強和音源分離,語音識別、合成和轉換 生物特徵識別,說話人/人臉的定位、追蹤和識別 多模式信息(包括聲音,視頻,人體生物信號)人機互動處理 主持或參與項目 深港創新圈項目:“大規模生物特徵資料庫辨識識別的外觀流形模型化方法”瑞士自然科學基金項目:“真實會議環境下的語音分離和識別”瑞士...
2. 聽覺場景分析及其噪聲環境下的語音識別[60272044](國家自然科學基金,吳鎮揚)。3. 基於高斯混合模型的甚低碼率語音編碼器的研究[07KJD510110](江蘇省普通高校自然科學研究計畫資助項目,曾毓敏)。4. 低碼率寬頻語音編碼器的研究[02KJB510008] (江蘇省普通高校自然科學研究計畫資助項目,曾毓敏)。5. 漢語語音...
2007年-2009年“基於語音知識和全局最優準則指導的段模型漢語LVCSR方法研究,”國家自然科學基金項目項目負責人;2004年-2009年“音頻場景分析,”國家重點基礎研究發展(973)計畫,項目實施負責人;2007年-2008年“面向網路套用環境的口語翻譯關鍵技術與系統研究,” 863國家高技術研究發展計畫 (目標導向類項目),項目...
6.5語音識別 6.5.1語音識別概況 6.5.2語音識別系統結構 6.5.3基於深度神經網路的語音識別系統 6.6語音合成 6.6.1語音合成概況 6.6.2文字到語音合成系統 6.6.3概念語音轉換系統 6.7聽覺場景分析 6.7.1初級分析 6.7.2以圖式為基礎的知覺組織 6.7.3初級分析與圖式加工之間的關係 6.7.4場景分析的...
7.5 語音識別194 7.5.1 語音識別概況194 7.5.2 單詞識別理論197 7.5.3 中文語音識別系統198 7.6 語音合成201 7.6.1 語音合成概況201 7.6.2 語音合成的方法201 7.6.3 概念到語音轉換系統205 7.7 聽覺場景分析209 7.7.1 初級分析209 7.7.2 以圖式為基礎的知覺組織211 7.7.3 初級分析與圖式...
4.11 物體識別模型 4.12 人臉識別 第5章 聽覺和言語 5.1 聽覺通路 5.2 聽覺信息的中樞處理 5.3 語音編碼 5.4 韻律認知 5.5 語音識別 5.6 語音合成 5.7 聽覺場景分析 5.8 言語行為 第6章 記憶 6.1 記憶過程 6.2 記憶系統 6.3 長時記憶 6.4 工作記憶 6.5 遺忘理論 6.6 內隱記憶 6.7...
虛擬現實的實現需要硬體和軟體2 方面的支持 硬體方面主要包括數據手套、三維滑鼠、運動跟蹤器、力反饋裝置、語音識別及合成系統等。Virtools 軟體自帶了大量的行為模組供開發者使用,但是Virtools 軟體並未提供標準的數據通信模組,不能與虛擬現實仿真系統進行數據通信,因此,虛擬現實仿真系統設計的難點在於半實物接口的設計...
第7章 聽覺信息處理 7.1 聽覺的生理基礎 7.2 感聲機制 7.3 聽覺信息的中樞處理 7.4 語音編碼 7.5 韻律認知 7.6 語音識別 7.7 語音合成 7.7 聽覺場景分析 第8章語言 8.1 語言的性質 8.2 語言和思維 8.3 語言習得和發展 8.4 大腦語言處理 8.5 語言認知 8.6 喬姆斯基的形式文法 8...
[1]基於手勢和語音識別的遙感圖像處理與展示的人機互動方法,河南省科學技術廳科學技術成果,第二名(共四名),9412021Y1894 [2]高解析度衛星遙感影像灰霾顆粒物反演算法與估算模型研究(國家自然科學基金面上項目,主持,41571417,2016.01-2019.12,60萬),已結項。[3]地球表層系統科學研究套用示範系統(國家重大...