內容簡介
《人工智慧:語音識別理解與實踐》是全面且深入介紹語音識別及理解相關技術細節的專著。與我們在2014年出版的《
解析深度學習:語音識別實踐》相比,本書在它的基礎上做了大量改寫,並對內容有大幅補充,詳細總結了最新的語音識別算法及套用技術以及在口語對話系統研究中基於深度學習的自然語言處理技術。
全書首先概要介紹語音識別、口語理解和人機對話的基本概念與理論;接著全面深入地依次詳述傳統聲學模型、深層神經網路在語音識別中的套用及分析、先進深度學習模型在語音識別中的套用、高級語音識別方法、複雜場景下的語音識別、以及口語理解及對話系統的深度學習實踐。書中涉及的所有算法及技術細節都有詳盡的參考文獻,提供了深度學習在語音識別和口語對話理解中的套用全景。
本書適合有一定機器學習或語音識別基礎的學生、研究者或從業者閱讀。
圖書目錄
第1章 簡介
1.1.1 人類之間的交流
1.1.2 人機交流
1.3 口語理解與人機對話系統
1.4 全書結構
第 I部分 傳統聲學模型
第2章 混合高斯模型
2.1 隨機變數
2.2 高斯分布和混合高斯隨機變數
2.3 參數估計
2.4 採用混合高斯分布對語音特徵建模
3.1 介紹
3.2 馬爾可夫鏈
3.3 序列與模型
3.3.1 隱馬爾可夫模型的性質
3.3.2 隱馬爾可夫模型的仿真
3.3.3 隱馬爾可夫模型似然度的計算
3.3.4 計算似然度的高效算法
3.3.5 前向與後向遞歸式的證明
3.4 期望最大化算法及其在學習HMM參數中的套用
3.4.1 期望最大化算法介紹
3.4.2 使用EM算法來學習HMM參數——Baum-Welch算法
3.5.1 動態規劃和維特比算法
3.6 隱馬爾可夫模型和生成語音識別模型的變體
3.6.1 用於語音識別的GMM-HMM模型
3.6.2 基於軌跡和隱藏動態模型的語音建模和識別
3.6.3 使用生成模型HMM及其變體解決語音識別問題
第II部分 深層神經網路在語音識別中的套用及分析
第4章 全連線深層神經網路
4.1 全連線深層神經網路框架
4.2 使用誤差反向傳播進行參數訓練
4.2.1 訓練準則
4.2.2 訓練算法
4.3 實際套用
4.3.1 數據預處理
4.3.2 模型初始化
4.3.3 權重衰減
4.3.4 丟棄法
4.3.5 批規範化
4.3.6 批量塊大小的選擇
4.3.7 取樣隨機化
4.3.8 慣性係數
4.3.9 學習率和停止準則
4.3.10 網路結構
4.3.11 可復現性與可重啟性
第5章 高級模型初始化技術
5.1 受限玻爾茲曼機
5.1.1 受限玻爾茲曼機的屬性
5.1.2 受限玻爾茲曼機參數學習
5.2 深度置信網路預訓練
5.3 降噪自動編碼器預訓練
5.4 鑑別性預訓練
5.5 混合預訓練
5.6 採用丟棄法的預訓練
第6章 深層神經網路–隱馬爾可夫模型混合系統
6.1 DNN-HMM混合系統
6.1.1 結構
6.1.2 用CD-DNN-HMM解碼
6.1.3 CD-DNN-HMM的訓練過程
6.1.4 上下文視窗的影響
6.2 CD-DNN-HMM的關鍵模組及分析
6.2.1 進行比較和分析的數據集和實驗
6.2.2 對單音素或者三音素的狀態進行建模
6.2.3 越深越好
6.2.4 利用相鄰的語音幀
6.2.5 預訓練
6.2.6 訓練數據的標註質量的影響
6.2.7 調整轉移機率
6.3 基於KL距離的隱馬爾可夫模型
第7章 訓練加速和解碼加速
7.1 訓練加速
7.1.1 使用多GPU流水線反向傳播
7.1.2 異步隨機梯度下降
7.1.3 增廣拉格朗日算法及乘子方向交替算法
7.1.4 塊動量方法
7.1.5 減小模型規模
7.1.6 其他方法
7.2 解碼加速
7.2.1 並行計算
7.2.2 稀疏網路
7.2.3 低秩近似
7.2.4 用大尺寸DNN訓練小尺寸DNN
7.2.5 多幀DNN
第8章 深層神經網路中的特徵表示學習
8.1 特徵和分類器的聯合學習
8.2 特徵層級
8.3 使用隨意輸入特徵的靈活性
8.4 特徵的魯棒性
8.4.1 對說話人變化的魯棒性
8.4.2 對環境變化的魯棒性
8.5 對環境的魯棒性
8.5.1 對噪聲的魯棒性
8.5.2 對語速變化的魯棒性
8.6 信號嚴重失真情況下的推廣能力
8.7 使用合成數據提升魯棒性
8.7.1 基於原始音頻的數據合成方法
8.7.2 基於頻譜特徵的數據合成方法
8.7.3 基於生成式機器學習模型的數據合成方法
第9章 深層神經網路和混合高斯模型的融合
9.1 在GMM-HMM系統中使用由DNN衍生的特徵
9.1.1 使用Tandem和瓶頸特徵的GMM-HMM模型
9.1.2 DNN-HMM混合系統與採用深度特徵的GMM-HMM系統的比較
9.2 識別結果融合技術
9.2.1 識別錯誤票選降低技術
9.2.2 分段條件隨機場(SCARF)
9.2.3 最小貝葉斯風險詞圖融合
9.3 幀級別的聲學分數融合
9.4 多流語音識別
第10章 VAD和喚醒詞識別
10.1 基於信號處理的VAD
10.2 基於DNN的VAD
10.2.1 聲學特徵提取
10.2.2 基於DNN的語音端點檢測建模
10.2.3 語音端點檢測的決策算法
10.2.4 噪聲自適應訓練
10.3 喚醒詞識別的解碼器方案
10.4 只用DNN的喚醒詞識別
10.5 可定製的喚醒詞識別
10.6 多階段喚醒詞識別
10.7 喚醒詞識別的位置
第 III部分 先進深度學習模型在語音識別中的套用
第11章 卷積神經網路
11.1 概述
11.2.1 卷積層
11.2.2 池化層
11.3 卷積神經網路的訓練
11.4 時間延遲神經網路
11.5 時頻域上的卷積
11.6 時域上的卷積
11.7 深層卷積神經網路
第12章 循環神經網路及相關模型
12.1 概述
12.2 基本循環神經網路中的狀態–空間公式
12.3 沿時反向傳播學習算法
12.3.1 最小化目標函式
12.3.2 誤差項的遞歸計算
12.3.3 循環神經網路權重的更新
12.4 一種用於學習循環神經網路的原始對偶技術
12.4.1 循環神經網路學習的難點
12.4.2 回聲狀態性質及其充分條件
12.4.3 將循環神經網路的學習轉化為帶約束的最佳化問題
12.4.4 一種用於學習RNN的原始對偶方法
12.5 結合長短時記憶單元的循環神經網路
12.5.1 動機與套用
12.5.2 長短時記憶單元的神經元架構
12.5.3 LSTM-RNN的訓練
12.6 高速公路LSTM和格線LSTM
12.7 雙向LSTM
12.8 GRU循環神經網路
12.9 循環神經網路的對比分析
12.9.1 信息流方向的對比:自上而下還是自下而上
12.9.2 信息表示的對比:集中式還是分散式
12.9.3 解釋能力的對比:隱層推斷還是端到端學習
12.9.4 參數化方式的對比:吝嗇參數集合還是大規模參數矩陣
12.9.5 模型學習方法的對比:變分推理還是梯度下降
12.9.6 識別正確率的比較
12.10 討論
第13章 基於深度學習的語言模型
13.1 統計語言模型簡介
13.2 DNN語言模型
13.2.1 詞嵌入
13.2.2 DNN
13.2.3 輸出層
13.3 RNN和LSTM語言模型
13.4 CNN語言模型
13.5 語言模型的建模單元
13.5.1 詞嵌入生成
13.5.2 字元與BPE級別的語言模型
13.6 雙向語言模型
13.7 深度學習語言模型的使用
13.7.1 重打分
13.7.2 融合
13.7.3 神經網路初始化
13.8 語言模型與聲學模型的聯合最佳化
第IV部分 高級語音識別方法
第14章 深層神經網路的自適應技術
14.1 深層神經網路中的自適應問題
14.2 線性變換
14.2.1 線性輸入網路
14.2.2 線性輸出網路
14.2.3 線性隱層網路
14.3 保守訓練
14.3.1 L2正則項
14.3.2 KL距離正則項
14.3.3 減少每個說話人的模型開銷
14.4 子空間方法
14.4.1 通過主成分分析構建子空間
14.4.2 噪聲感知、說話人感知及設備感知訓練
14.4.3 張量
14.5 DNN說話人自適應的效果
14.5.1 基於KL距離的正則化方法
14.5.2 說話人感知訓練
第15章 深層神經網路序列鑑別性訓練
15.1 序列鑑別性訓練準則
15.1.1 最大互信息
15.1.2 增強型MMI
15.1.3 最小音素錯誤/狀態級最小貝葉斯風險
15.1.4 統一的公式
15.2 具體實現中的考量
15.2.1 詞圖產生
15.2.2 詞圖補償
15.2.3 幀平滑
15.2.4 學習率調整
15.2.5 訓練準則選擇
15.2.6 其他考量
15.3 無須詞圖的神經網路序列鑑別性訓練
15.4 噪聲對比估計
15.4.1 將機率密度估計問題轉換為二分類設計問題
15.4.2 拓展到未歸一化的模型
15.4.3 在深度學習網路訓練中套用噪聲對比估計算法
第16章 端到端模型
16.1 連線時序分類模型
16.1.1 基本原理和表現
16.1.2 建模單元的選擇
16.1.3 建模單元的自動習得
16.1.4 訓練穩定性的實際考慮
16.1.5 CTC模型上的序列鑑別性訓練
16.1.6 不需要語言模型的直接解碼
16.2 帶注意力機制的“編碼–解碼”模型
16.2.1 編碼–解碼架構
16.2.2 注意力機制
16.2.3 金字塔結構
16.2.4 束搜尋
16.3 聯合CTC–注意力模型
16.3.1 聯合CTC–基於注意力的端到端語音識別
16.3.2 聯合CTC–注意力多任務學習的解碼
第 V部分 複雜場景下的語音識別
第17章 深層神經網路中的表征共享和遷移
17.1 多任務和遷移學習
17.1.1 多任務學習
17.1.2 遷移學習
17.2 多語言和跨語言語音識別
17.2.1 基於Tandem或瓶頸特徵的跨語言語音識別
17.2.2 共享隱層的多語言深層神經網路
17.2.3 跨語言模型遷移
17.3 語音識別中深層神經網路的多目標學習
17.3.1 使用多任務學習的魯棒語音識別
17.3.2 使用多任務學習改善音素識別
17.3.3 同時識別音素和字素
17.4 使用視聽信息的魯棒語音識別
第18章 基於深度學習的單通道語音增強和分離技術
18.1 單通道語音增強技術
18.2 單通道多說話人的語音分離和標註置換問題
18.3 深度聚類
18.4 深度吸引子
18.5 排列不變性訓練
18.6 將排列不變性訓練用於多說話人語音識別
18.6.1 基於語音特徵分離的多說話人語音識別模型
18.6.2 基於CD-DNN-HMM混合結構的多說話人語音識別模型
18.6.3 基於端到端結構的多說話人語音識別模型
18.7 時域音頻分離網路
第19章 遠場語音識別的前端技術
19.1 遠場識別的前端鏈路
19.1.1 遠場拾音的失真
19.1.2 魯棒性的解決思路
19.2 DOA算法
19.2.1 傳統的DOA算法
19.2.2 深度學習的DOA估計方法
19.3 波束形成的信號處理方法
19.3.1 固定波束形成
19.3.2 自適應波束形成
19.3.3 後置自適應濾波
19.4 結合信號處理和深度學習方法
19.4.1 深度學習波束形成參數學習
19.4.2 基於深度學習時頻掩蔽的波束形成
19.5 前後端聯合最佳化
第 VI部分 口語理解及對話系統的深度學習實踐
第20章 基於深度學習的口語理解
20.1 自然語言處理及深度學習
20.1.1 從語音識別過渡到自然語言處理的重要性
20.1.2 自然語言處理及口語信息處理
20.1.3 語言處理中的深度學習框架
20.2 口語理解任務
20.2.1 基於語義框架的理解
20.2.2 典型的口語理解任務
20.2.3 傳統方法回顧
20.3 基於深度學習的口語理解
20.3.1 口語理解中的深度學習方法
20.3.2 口語理解中的不確定性建模
20.3.3 基於對話上下文的口語理解
20.3.4 口語理解的領域自適應與擴展
第21章 對話狀態跟蹤及自然語言生成
21.1 口語對話系統概述
21.2 對話狀態跟蹤
21.2.1 對話狀態跟蹤與口語理解的異同
21.2.2 統計對話狀態跟蹤
21.2.3 基於規則的DST模型
21.2.4 統計與規則混合算法
21.2.5 端到端對話狀態跟蹤
21.3 自然語言生成
21.3.1 自然語言生成任務及其評價
21.3.2 基於深度學習的自然語言生成
第22章 對話策略最佳化
22.1 對話策略及對話系統評估
22.2 數據驅動的對話策略訓練
22.2.1 POMDP及強化學習
22.2.2 深度強化學習
22.2.3 結構化深度強化學習
22.3 統計對話系統的冷啟動技術
22.3.1 對話系統冷啟動的安全性和效率問題
22.3.2 有人類教師參與的伴隨學習
22.3.3 結合規則系統的伴隨學習
第VII部分 總結及展望
第23章 總結及未來研究方向
23.1 路線圖
23.1.1 語音識別中的深層神經網路啟蒙
23.1.2 深層神經網路訓練和解碼加速
23.1.3 序列鑑別性訓練
23.1.4 特徵處理
23.1.5 自適應
23.1.6 多任務和遷移學習
23.1.7 卷積神經網路
23.1.8 循環神經網路和長短時記憶神經網路
23.1.9 其他深度模型
23.1.10 自然語言和口語理解
23.1.11 對話系統及對話策略學習
23.2 技術前沿和未來方向
23.2.1 技術前沿簡析
23.2.2 未來方向
作者簡介
俞棟
電氣電子工程師學會會士(IEEE Fellow)、國際計算機學會傑出科學家(ACMDistinguished Scientist)。現任騰訊人工智慧實驗室副主任、騰訊公司傑出科學家,
香港中文大學(深圳)、
上海交通大學、浙江大學等多所高校的客座/兼職教授。加入騰訊前,是微軟雷德蒙研究院語音與對話系統首席研究員。
鄧力
人工智慧、機器學習和語音語言信號處理獲得者著名專家,曾任微軟首席人工智慧科學家和深度學習技術中心研究經理。在美國威斯康星大學先後獲得碩士和博士學位,然後在
加拿大滑鐵盧大學任教獲得終身正教授職務,並曾任
麻省理工學院研究員職位。
錢彥旻
上海交通大學計算機科學與工程系副教授,博士生導師,上海交大–思必馳聯合實驗室副主任。
華中科技大學學士、清華大學博士、
英國劍橋大學工程系博士後,上海市青年英才揚帆計畫獲得者。