學習機器翻譯

學習機器翻譯

《學習機器翻譯》是2014年科學出版社出版的圖書,作者是西里爾·古特。

基本介紹

  • 書名:學習機器翻譯
  • 又名:機器翻譯
  • 作者:(加)西里爾·古特(Cyril Goutte)等
  • 譯者:曹海龍等
  • ISBN:978-7-03-042297-2
  • 頁數:304
  • 定價:98.00  
  • 出版社:科學出版社
  • 出版時間:2014年11月
  • 裝幀:平裝
  • 開本:B5
  • 字數:362千字
內容簡介,目 錄,

內容簡介

本書內容是由在2006國際頂級學術會議NIPS(NeuralInformationProcessingSystemsConference)上發表的文章擴充而成,分為2個部分。第一部分是機器翻譯研究最新進展介紹,包括翻譯模型、平行語料庫和名實體挖掘、核方法套用等;第二部分是統計機器翻譯研究的高級題目,包括樹結構翻譯模型、全局辭彙選擇模型、判別式短語翻譯選擇模型等。

目 錄

譯者序
原書前言

1章 統計機器翻譯初步1 1
.1 背景1 1
.2 機器翻譯的評價3 1
.2.1 基於編輯距離的方法4 1
.2.2 基於狀元文法的方法5 1
.2.3 召回率的重要性6 1
.2.4 使用句法的方法6 1
.2.5 評價方法的評價與融合7 1
.2.6 統計顯著性檢驗7 1
.3 基於詞的機器翻譯7 1
.3.1 模型1?模型2和隱馬爾可夫模型8 1
.3.2 模型3?模型4和模型59 1
.3.3 搜尋9 1
.3.4 現狀10 1
.4 語言模型10 1
.4.1 狀元文法模型和平滑技術11 1
.4.2 最大熵模型13 1
.4.3 若干最新研究趨勢14 1
.5 基於短語的機器翻譯16 1
.5.1 對數線性模型17 1
.5.2 基於短語的翻譯模型17 1
.5.3 最小錯誤率訓練19 1
.5.4 搜尋20 1
.5.5 重打分22 1
.5.6 現狀23 1
.6 基於句法的統計機器翻譯23 1
.6.1 無需句法分析的方法24 1
.6.2 目標語言端進行句法分析25
1.6.3 源語言端進行句法分析25 1
.6.4 源語言端和目標語言端都進行句法分析26 1
.7 其他一些重要方向27 1
.7.1 因子化模型27 1
.7.2 模型自適應27 1
.7.3 系統融合28 1
.7.4 用於機器翻譯的核方法28 1
.8 用於統計機器翻譯的機器學習28 1
.8.1 翻譯作為一個學習問題29 1
.8.2 使用不精確損失函式的學習30 1
.8.3 用於統計機器翻譯的端到端學習31 1
.9 結論32 1
.10 附錄32 第一部分
:使能技術第
2章 挖掘專利構建平行語料庫35 2
.1 引言35 2
.2 相關工作36 2
.3 資源37 2
.4 對齊過程38 2
.4.1 句子對齊打分38 2
.4.2 降低句對齊中的噪聲40 2
.5 專利平行語料庫的數據統計41 2
.5.1 全集和源數據集的比較41 2
.5.2 基本的統計數據42 2
.5.3 關於機器翻譯的統計數據43 2
.6 機器翻譯實驗44 2
.6.1 機器翻譯系統44 2
.6.2 比較重排序限制45 2
.6.3 跨板塊的機器翻譯實驗46 2
.6.4 對原始對齊數據的基於任務的評估49 2
.7 結論51 第
3章 多語言名稱詞典的自動創建52 3
.1 引言和動機52 3
.1.1 內容53
3.1.2 專有名稱和機器翻譯54 3
.1.3 多語種名稱實體詞典與其他文本分析套用的相關性54 3
.1.4 存在名稱變體的原因55 3
.2 相關工作57 3
.2.1 現有的名稱詞典或建立詞典的相關探索57 3
.2.2 命名實體識別58 3
.2.3 名稱變體的匹配59 3
.3 新名稱的多語言識別60 3
.3.1 背景:多語言的新聞數據60 3
.3.2 一個允許多語言的輕量級識別過程61 3
.3.3 用維基百科擴充名稱資料庫62 3
.4 查找已知名稱和其形態變體62 3
.4.1 處理詞形變化62 3
.4.2 查找過程63 3
.5 人名識別的評價65 3
.6 名稱變體的識別和合併66 3
.6.1 非羅馬字元構成名稱的音譯66 3
.6.2 名稱變體的“標準化”67 3
.6.3 (標準化)名稱變體的近似匹配68 3
.7 總結與展望69 第
4章 多語語料庫中命名實體的音譯和發現71 4
.1 引言71 4
.2 前人工作73 4
.3 協同排序:命名實體發現的一個算法74 4
.3.1 時間序列生成和匹配76 4
.3.2 音譯模型76 4
.4 實驗性研究77 4
.4.1 命名實體發現78 4
.4.2 初始例子集合規模81 4
.4.3 時間序列打分函式的比較81 4
.5 結論82 4
.6 未來工作82 第
5章 基於多預處理機制的統計詞對齊融合84 5
.1 引言84 5
.2 相關工作84
5.3 阿拉伯語的預處理機制85 5
.4 對齊的預處理機制86 5
.4.1 犌犻狕犪++對齊86 5
.4.2 對齊重映射87 5
.5 對齊融合87 5
.6 評價89 5
.6.1 實驗數據和評價指標89 5
.6.2 對齊重映射的貢獻90 5
.6.3 融合特徵的貢獻91 5
.6.4 每個單一特徵的作用91 5
.6.5 對齊合併實驗92 5
.6.6 測試集評估93 5
.6.7 對齊規則分析94 5
.6.8 錯誤分析95 5
.7 後記:機器翻譯和詞對齊的改進96 5
.7.1 實驗設定97 5
.7.2 結果97 5
.8 結論99 第
6章 用於判別式語言建模的語言學增強的詞序列核100 6
.1 動機100 6
.2 增加語言學知識的詞序列核方法101 6
.2.1 詞序列核方法101 6
.2.2 因子化表示方法和核組合103 6
.2.3 因子化的核103 6
.2.4 實例說明105 6
.2.5 有理數核的解釋106 6
.3 實驗驗證107 6
.3.1 各個因子上的核108 6
.3.2 因子的整合109 6
.3.3 與狀元模型的比較111 6
.4 結論和未來的工作113 6
.5 附錄114 第二部分
:機器翻譯第
7章 走向樹結構翻譯模型的純粹判別式訓練119 7.1 引言119 7
.2 相關工作120 7
.3 學習方法121 7
.3.1 問題表征122 7
.3.2 目標函式122 7
.3.3 風險最小化123 7
.4 實驗127 7
.4.1 數據127 7
.4.2 詞轉錄128 7
.4.3 詞包轉錄131 7
.4.4 樹轉錄133 7
.5 結論135 第
8章 大規模統計機器翻譯重排序137 8
.1 引言137 8
.2 背景138 8
.3 相關工作138 8
.4 我們的方法140 8
.5 實驗1:漢譯英系統的重排序141 8
.5.1 重排序器的訓練142 8
.5.2 實驗結果142 8
.6 實驗2:法譯英系統的重排序145 8
.6.1 實驗結果146 8
.7 討論149 8
.8 結論150 8
.9 附錄150 第
9章 基於核的機器翻譯155 9
.1 引言155 9
.2 統計機器翻譯中的回歸模型156 9
.2.1 嶺回歸156 9
.2.2 狀元語法字元串核157 9
.2.3 大規模訓練158 9
.2.4 基於檢索的稀疏近似法158 9
.3 解碼160 9
.3.1 原像問題160 9
.3.2 柱搜尋160
9.3.3 複雜性分析161 9
.4 實驗162 9
.4.1 語料162 9
.4.2 系統配置163 9
.4.3 嶺回歸實驗163 9
.4.4 稀疏近似實驗165 9
.4.5 搜尋錯誤166 9
.5 進一步討論166 9
.5.1 語言模型166 9
.5.2 語言學知識167 9
.6 小結167 第
10章 通過全局辭彙選擇和句子重構實現統計機器翻譯169 1
0.1 簡介169 1
0.2 犛犉犛犜訓練和解碼170 1
0.2.1 單詞對齊170 1
0.2.2 雙語言表示法171 1
0.2.3 雙語短語獲取和局部重排序172 1
0.2.4 犛犉犛犜模型173 1
0.2.5 解碼173 1
0.2.6 單詞插入模型174 1
0.2.7 全局重排序174 1
0.3 辭彙選擇判別模型175 1
0.3.1 連續辭彙選擇模型176 1
0.3.2 詞袋辭彙選擇模型177 1
0.4 選擇分類器177 1
0.4.1 多元與二元分類器對比178 1
0.4.2 幾何與機率解釋178 1
0.4.3 犔1與犔2正則化179 1
0.5 數據和實驗180 1
0.5.1 聯合國和英國國會議事錄語料182 1
0.6 討論183 1
0.7 結論184 第
11章 統計機器翻譯的判別式短語選擇185 1
1.1 引言185 1
1.2 專用詞語選擇方法187
11.3 判別式短語翻譯188 1
1.3.1 問題的設定189 1
1.3.2 學習189 1
1.3.3 特徵設定190 1
1.4 局部短語翻譯192 1
1.4.1 數據集及設定192 1
1.4.2 評價193 1
1.4.3 參數調整193 1
1.4.4 性能比較194 1
1.4.5 整體性能195 1
1.5 為全局任務使用局部判別式短語翻譯模型197 1
1.5.1 基準系統197 1
1.5.2 軟集成判別式短語翻譯的預測結果198 1
1.5.3 設定200 1
1.5.4 評價200 1
1.5.5 參數調整205 1
1.5.6 結果206 1
1.6 結論211 第
12章 用於機器翻譯的半監督學習214 1
2.1 引言214 1
2.2 基線機器翻譯系統215 1
2.3 框架216 1
2.3.1 犢犪狉狅狑狊犽狔算法216 1
2.3.2 用於統計機器翻譯的半監督學習算法218 1
2.3.3 過濾器函式218 1
2.3.4 估計函式219 1
2.3.5 評分函式219 1
2.3.6 選擇函式220 1
2.4 實驗結果221 1
2.4.1 設定221 1
2.4.2 漢英翻譯結果223 1
2.4.3 法英結果226 1
2.4.4 翻譯例子228 1
2.5 先前工作229 1
2.6 結論與展望230
第13章 學習系統融合機器翻譯系統232 1
3.1 引言232 1
3.2 詞對齊234 1
3.2.1 問題表示234 1
3.2.2 詞對齊估計234 1
3.2.3 辭彙調序237 1
3.2.4 相關研究中的其他對齊方法238 1
3.3 犆犖的生成和評分239 1
3.3.1 建立犆犖239 1
3.3.2 機率估計241 1
3.3.3 帶有犚-犫犲狊狋譯文翻譯系統融合242 1
3.3.4 共識翻譯的抽取242 1
3.3.5 語言模型重評分243 1
3.3.6 保留單詞的大小寫信息244 1
3.3.7 系統融合的參數最佳化244 1
3.4 實驗244 1
3.4.1 翻譯任務及環境244 1
3.4.2 評價標準245 1
3.4.3 對比實驗245 1
3.4.4 最終結果247 1
3.5 結論248 參考文獻
249 中英文術語

相關詞條

熱門詞條

聯絡我們