語音識別服務實戰

內容簡介

隨著語音算法技術的不斷發展與完善，如何進行工程落地成為語音商業套用中普遍面臨的問題。工程落地不僅要考慮模型效果，還要考慮資源占用、模組聯調且整個架構要具有可靠性、可擴展性和可維護性。本書圍繞如何從零構建一個完整的語音識別系統，深入淺出地介紹了語音識別前端算法、語音識別算法及說話人日誌算法原理；基於Kaldi的模型訓練；語音識別工程落地和服務搭建。本書適合作為語音技術研究人員及對語音技術感興趣的開發人員的參考用書。

圖書目錄

第1章語音識別概述 1

1.1 語音識別發展歷程 2

1.2 語音識別產業與套用 6

1.2.1 消費級市場 7

1.2.2 企業級市場 8

1.3 常用語音處理工具 10

1.3.1 WebRTC 10

1.3.2 Kaldi 12

1.3.3 端到端語音識別工具包 14

第2章語音信號基礎 16

2.1 語音信號的聲學基礎 17

2.1.1 語音產生機理 17

2.1.2 語音信號的產生模型 19

2.1.3 語音信號的感知 20

2.2 語音信號的數位化和時頻變換 22

2.2.1 語音信號的採樣、量化和編碼 22

2.2.2 語音信號的時頻變換 25

2.3 本章小結 31

第3章語音前端算法 32

3.1 語音前端算法概述 33

3.2 VAD 35

3.2.1 基於門限判決的VAD 36

3.2.2 基於高斯混合模型的VAD 38

3.2.3 基於神經網路的VAD 40

3.3 單通道降噪 43

3.3.1 譜減法 44

3.3.2 維納濾波法 46

3.3.3 音樂噪聲和參數譜減法 48

3.3.4 貝葉斯準則下的MMSE 51

3.3.5 噪聲估計 56

3.3.6 基於神經網路的單通道降噪 61

3.4 回聲消除 65

3.4.1 回聲消除概述 66

3.4.2 線性自適應濾波 69

3.4.3 分塊頻域自適應濾波器 70

3.4.4 雙講檢測 72

3.4.5 延遲估計 75

3.4.6 殘留回聲消除 76

3.4.7 基於神經網路的回聲消除 78

3.5 麥克風陣列與波束形成 79

3.5.1 麥克風陣列概述 80

3.5.2 延遲求和波束形成 86

3.5.3 小方差無失真回響波束形成 89

3.5.4 廣義旁瓣對消波束形成 92

語音識別服務實戰

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條