內容簡介
《神經網路機器翻譯技術及產業套用》由百度首席技術官王海峰、百度人工智慧技術委員會主席何中軍、百度技術委員會主席吳華聯合撰寫,以產業需求為牽引,介紹了新時期機器翻譯的產業需求特點、神經網路機器翻譯的原理與方法、最新技術進展及產業套用。全書兼具理論與實踐,既有對原理與方法的介紹,又有豐富的產業套用案例。
《神經網路機器翻譯技術及產業套用》共九章:
第1章 緒論,首先闡述了機器翻譯發展的時代背景和技術發展脈絡,從多個角度回顧了機器翻譯的發展歷程,介紹了當前機器翻譯的發展現狀以及產業套用需求特點和挑戰。
第2章 翻譯語料獲取與譯文質量評價,介紹了翻譯語料獲取的相關技術以及機器翻譯常用的評價方法,包括人工評價、自動評價、面向產業套用的評價。
第3章 神經網路機器翻譯,首先介紹了神經網路機器翻譯的基本原理和模型結構,接下來介紹了多種翻譯模型,最後介紹了利用開源工具搭建一個神經網路機器翻譯系統的方法。
第4章 高性能機器翻譯,結合百度、谷歌等公司的機器翻譯系統實踐,首先介紹了神經網路機器翻譯的產業化進程,然後介紹了常用的提升系統性能的方法,最後介紹了開源工具平台中的高性能實現方案。
第5章 多語言機器翻譯,首先介紹了數據增強技術以擴充訓練數據規模,然後介紹了基於無監督的訓練方法以及多種翻譯模型,最後介紹了近年來快速發展的多語言預訓練技術及其在多語言機器翻譯上的套用。本章結尾還結合百度、谷歌、臉書等公司的實踐,介紹了大規模多語言機器翻譯系統。
第6章 領域自適應,介紹了領域自適應技術,通過數據增強、最佳化訓練等多種手段,使翻譯模型在具體領域上獲得較高的翻譯質量。
第7章 機器同聲傳譯,首先介紹了機器同傳的主要挑戰和發展現狀,然後介紹了目前常用的機器同傳數據集和評價方式,最後介紹了如何使用開源工具搭建一個機器同傳系統。
第8章 機器翻譯產業化套用,著重介紹了現實生活中機器翻譯豐富的產品形式和廣泛套用。
第9章 總結與展望,對全書進行了總結,並對機器翻譯的未來發展進行展望。
圖書目錄
第1章 緒論 1
1.1 機器翻譯發展簡介 3
1.2 機器翻譯代表性方法 6
1.2.1 基於規則的機器翻譯 6
1.2.2 統計機器翻譯 8
1.2.3 神經網路機器翻譯 11
1.3 發展現狀 13
1.4 產業套用需求特點及挑戰 15
4.4 模型壓縮 112
4.4.1 剪枝 112
4.4.2 量化 115
4.4.3 知識蒸餾 119
4.5 系統部署 121
4.5.1 分散式系統部署 121
4.5.2 智慧型硬體設備 122
4.6 開源工具 123
參考文獻 124
第5章 多語言機器翻譯 131
5.1 概述 133
5.2 數據增強 134
5.2.1 基於樞軸語言的合成語料庫方法 134
5.2.2 回譯技術 136
5.3 無監督機器翻譯 138
5.3.1 基本原理 139
5.3.2 跨語言向量映射 140
5.3.3 基於去噪自編碼器和回譯技術的翻譯模型 142
5.3.4 基於對偶學習的機器翻譯模型 144
5.4 多語言翻譯統一建模 145
5.4.1 基於多任務學習的翻譯模型 146
5.4.2 基於語言標籤的多語言翻譯模型 148
5.5 多語言預訓練 151
5.5.1 預訓練技術簡介 152
5.5.2 多語言預訓練模型 158
5.5.3 方法比較 163
5.6 多語言機器翻譯系統 165
5.6.1 百度多語言機器翻譯 165
5.6.2 谷歌多語言機器翻譯 166
5.6.3 臉書多語言機器翻譯 168
參考文獻 169
第6章 領域自適應 177
6.1 概述 179
6.2 領域數據增強 180
6.2.1 領域數據聚類 180
6.2.2 領域數據篩選 182
6.2.3 領域數據擴充 184
6.3 模型訓練及最佳化 184
6.3.1 預訓練加微調技術 185
6.3.2 領域數據加權訓練 186
6.3.3 模型參數部分調優 187
6.3.4 基於知識蒸餾的領域自適應 188
6.3.5 基於課程表學習的領域自適應 189
6.4 專有名詞和術語的翻譯 190
6.4.1 前處理技術 191
6.4.2 後處理技術 193
6.4.3 融合專名/術語翻譯的解碼算法 193
6.5 翻譯記憶庫 195
6.5.1 基於記憶庫的數據增強 196
6.5.2 融合記憶庫的翻譯模型 197
6.5.3 k-近鄰翻譯模型 198
6.6 面向產業套用的領域自適應解決方案 199
參考文獻 200
第7章 機器同聲傳譯 207
7.1 概述 209
7.2 主要挑戰 211
7.2.1 技術挑戰 211
7.2.2 數據挑戰 213
7.2.3 評價挑戰 214
7.3 級聯同傳模型 216
7.3.1 wait-k模型 216
7.3.2 語義單元驅動的同傳模型 220
7.3.3 基於強化學習的同傳模型 224
7.3.4 基於單調無限回溯注意力機制的同傳模型 226
7.4 端到端語音翻譯及同傳模型 228
7.4.1 從級聯模型至端到端模型的過渡 229
7.4.2 基於多任務學習的端到端模型 231
7.4.3 語音識別與翻譯互動解碼模型 234
7.4.4 端到端同傳模型 236
7.5 同傳模型魯棒性 241
7.5.1 融合音節信息的翻譯模型 241
7.5.2 語音識別糾錯 242
7.5.3 魯棒性翻譯模型 244
7.6 同傳數據 245
7.6.1 歐洲語言同傳語料庫 246
7.6.2 日英同傳語料庫 247
7.6.3 中英同傳語料庫 247
7.7 同傳評價 249
7.7.1 基於閱讀理解的翻譯質量評價 249
7.7.2 基於平均延遲的同傳時延評價 250
7.7.3 綜合翻譯質量和同傳時延的評價 252
7.8 機器同傳系統及產品 252
7.8.1 機器同傳系統 253
7.8.2 機器同傳產品形式 254
7.8.3 機器輔助同傳 254
7.9 搭建一個機器同傳系統 256
7.9.1 數據準備 256
7.9.2 訓練 257
7.9.3 解碼 257
參考文獻 258
第8章 機器翻譯產業化套用 265
8.1 面向產業套用的機器翻譯系統 267
8.2 機器翻譯產品形態 268
8.2.1 跨模態翻譯 269
8.2.2 翻譯硬體 270
8.2.3 機器翻譯技術開放平台 271
8.3 機器翻譯產業套用 272
8.3.1 在語言服務行業的套用 273
8.3.2 產業套用現狀及趨勢 275
第9章 總結與展望 277
作者簡介
王海峰,百度首席技術官,深度學習技術及套用國家工程研究中心主任。國際計算語言學學會(ACL)首位華人主席、ACL亞太分會創始主席、ACL Fellow、IEEE Fellow、CAAI Fellow。長期從事機器翻譯、自然語言處理、深度學習等人工智慧技術的研究及產業化工作。以第一完成人身份獲國家技術發明二等獎、國家科技進步二等獎、中國專利金獎、北京市科技進步一等獎、中國電子學會科技進步一等獎,獲光華工程科技獎、全國創新爭先獎、吳文俊人工智慧傑出貢獻獎等。
何中軍,百度人工智慧技術委員會主席。長期從事機器翻譯研究與開發,並致力於推動機器翻譯大規模產業化套用。曾獲國家科技進步二等獎、北京市科技進步一等獎、中國電子學會科技進步一等獎、中國專利銀獎等多項獎勵。被評為“中國電子學會優秀科技工作者”“北京青年榜樣”等。
吳華,百度技術委員會主席。長期從事機器翻譯、自然語言處理、機器學習等技術的研究及產業化工作。曾獲國家技術發明二等獎、國家科技進步二等獎、中國專利金獎、北京市科技進步一等獎、中國電子學會科技進步一等獎。被評為“傑出工程師”“青年北京學者”等。