本書是介紹統計機器翻譯理論和方法的教材。全書分三部分(總計11章),分別討論基礎知識、核心方法和前沿研究。全書首先簡要介紹語言學和機率論基礎知識,然後全面討論各種經典統計機器翻譯模型和系統實現方法,最後深入探討統計翻譯領域的最新進展和研究熱點。對核心方法的論述按照統計機器翻譯模型發展的過程逐步展開:基於詞的模型、基於短語的模型和基於句法樹的模型。從技術實現的角度,本書還介紹了統計翻譯模型的參數訓練方法、語言模型和參數平滑方法、解碼算法和譯文自動評測方法及系統整合方法等。
基本介紹
- 中文名:宗成慶 張霄軍
- 外文名:Statistical Machine Translation
- 書名:統計機器翻譯
- 作者:菲利普•科恩
- 出版社:電子工業出版社
- 頁數:301頁
- 定價:55.00
- 譯者:宗成慶 張霄軍
- 出版日期:2012年9月1日
- 語種:簡體中文
- ISBN:9787121175923, 7121175924
- 品牌:電子工業出版社
內容簡介
作者簡介
菲利普·科恩,英國愛丁堡大學信息學院講師(Iecturer)。歐洲EuroMatrix項目的科學協調員,同時參與了美國DARPA資助的研究項目。與機器翻譯領域的知名公司如Systran和AsiaOnline等都建立了合作。實現了廣為使用的解碼器Pharaoh,同時領導著開源機器翻譯工具Moses的開發
宗成慶,1998年3月畢業於中國科學院計算技術研究所,獲博士學位。1998年5月至2000年4月在中國科學院自動化研究所從事博士後研究,博士後出站後留自動化所工作至今,現為模式識別國家重點實驗室研究員、博士生導師。曾於1999年和2001年兩次在日本國際電氣通信基礎技術研究所(ATR)做客座研究員,2004年在法國Grenoble信息與套用數學研究院機器翻譯研究組(GETA—CLIPS,IMAG)做短期高訪。主要研究方向為自然語言處理基礎、機器翻譯、文本分類和自動文摘等相關技術。作為項目負責人承擔國家自然科學基金項目、國家“863”項目、國家支撐計畫項目和國際合作研究項目等l0餘項,在國內外重要學術期刊和會議上發表論文100餘篇,其中在ComputationalLinguistics、Information Sciences、IEEE TASLP、ACM TALIP、Machine Translation及ACL、COLING、EMNLP等本領域權威期刊和會議上發表論文20多篇,出版學術專著1部,獲8項國家發明專利。目前擔任國際計算語言學聯合會(ACL)漢語特別興趣組(SIGHAN)候任主席(ChairElect)和亞洲自然語言處理聯合會(AFNLP)執行理事,並擔任國際學術期刊IEEE IntelligentSystems副主編(Associate Editor)、ACM TALIP副主編、UCPOL副主編、Machine Translation編委、JCST編委、《自動化學報》編委,以及中國中文信息學會常務理事、中國人工智慧學會理事和中國計算機學會中文信息技術專委會副主任等職務。2008年獲中國科學院研究生院集中教學突出貢獻獎。2009年獲亞太地區語言、信息與計算國際會議(PACLIC)最佳論文獎,2010年獲中國科學院“朱李月華優秀教師”獎。
張霄軍,2008年6月畢業於南京師範大學,獲博士學位。現為陝西師範大學外國語學院副教授,碩士生導師。2010年至2011年在英國曼徹斯特大學訪學,研究方向為現代翻譯技術。目前承擔國家社科基金項目1項,參與國家自然科學基金項目1項及國家社科基金項目1項。在國際學術期刊Computational Linguistics、Information Retrieval、Language Learning&Technology和Applied Linguistics等發表學術論文4篇,在《當代語言學》和《計算機套用研究》等國內期刊發表學術論文50餘篇。出版學術專著《語義組合與機器翻譯》(科學出版社,2010),主(參)編教材多部。
圖書目錄
1.1概述
1.1.1第1章:緒論
1.1.2第2章:詞、句子和語料
1.1.3第3章:機率論
1.1.4第4章:基於詞的翻譯模型
1.1.5第5章:基於短語的翻譯模型
1.1.6第6章:解碼
1.1.7第7章:語言模型
1.1.8第8章:評測
1.1.9第9章:判別式訓練
1.1.10第10章:整合語言學信息
1.1.11第11章:基於樹的翻譯模型
1.2機器翻譯簡史
1.2.1肇始
1.2.2ALPAC報告及其後果
1.2.3首批商用系統
1.2.4基於中間語系統的研究
1.2.5數據驅動方法
1.2.6目前的開發商
1.2.7技術現狀
1.3套用
1.3.1全自動高質量機器翻譯
1.3.2要旨翻譯
1.3.3集成語音技術
1.3.4手持設備中的翻譯
1.3.5後編輯
1.3.6譯者的工具
1.4可用資源
1.4.1工具
1.4.2語料
1.4.3評測競賽
1.5小結
1.5.1核心概念
1.5.2延伸閱讀
1.6習題
第2章詞、句子和語料
2.1詞
2.1.1詞例化
2.1.2詞的分布
2.1.3詞性
2.1.4形態學
2.1.5辭彙語義學
2.2句子
2.2.1句子結構
2.2.2語法理論
2.2.3句子結構的翻譯
2.2.4語篇
2.3語料
2.3.1文本的類型
2.3.2獲取平行語料
2.3.3句子對齊
2.4小結
2.4.1核心概念
2.4.2延伸閱讀
2.4.3習題
第3章機率論
3.1機率分布估計
3.1.1估計分析
3.1.2常見機率分布
3.1.3基於統計的機率估計
3.2機率分布計算
3.2.1形式定義
3.2.2聯合機率分布
3.2.3條件機率分布
3.2.4貝葉斯法則
3.2.5插值
3.3機率分布的特性
3.3.1均值和方差
3.3.2期望和方差
3.3.3熵
3.3.4互信息
3.4小結
3.4.1核心概念
3.4.2延伸閱讀
3.4.3習題
第二部分核心方法
第4章基於詞的翻譯模型
4.1基於詞的機器翻譯
4.1.1辭彙翻譯
4.1.2數據統計
4.1.3估計機率分布
4.1.4對齊
4.1.5IBM模型1
4.2學習辭彙翻譯模型
4.2.1語料不完備問題
4.2.2期望最大化算法
4.2.3IBM模型1中的期望最大化算法
4.2.4困惑度
4.3確保流暢的輸出
4.3.1流利譯文的經驗證據
4.3.2語言模型
4.3.3噪聲信道模型
4.4更高級的IBM模型
4.4.1IBM模型2
4.4.2IBM模型3
4.4.3訓練模型3:採樣對齊空間
4.4.4IBM模型4
4.4.5IBM模型5
4.5詞對齊
4.5.1詞對齊任務
4.5.2詞對齊質量評估
4.5.3基於IBM模型的詞對齊
4.6小結
4.6.1核心概念
4.6.2延伸閱讀
4.6.3習題
第5章基於短語的翻譯模型
5.1標準模型
5.1.1基於短語的翻譯模型提出的動因
5.1.2數學定義
5.2學習短語翻譯表
5.2.1從詞對齊中抽取短語
5.2.2一致性定義
5.2.3短語抽取算法
5.2.4套用實例
5.2.5短語翻譯機率估計
5.3翻譯模型的擴展
5.3.1對數線性模型
5.3.2雙向翻譯機率
5.3.3辭彙化加權
5.3.4詞語懲罰
5.3.5短語懲罰
5.3.6作為分類問題的短語翻譯
5.4調序模型的擴展
5.4.1調序限制
5.4.2辭彙化調序
5.5基於短語模型的期望最大化訓練
5.5.1短語對齊的聯合模型
5.5.2對齊空間的複雜度
5.5.3模型訓練
5.6小結
5.6.1核心概念
5.6.2延伸閱讀
5.6.3習題
第6章解碼
6.1翻譯過程
6.1.1翻譯一個句子
6.1.2計算句子的翻譯機率
6.2柱搜尋
6.2.1翻譯選項
6.2.2通過假設擴展的解碼過程
6.2.3計算複雜度
6.2.4翻譯假設重組
6.2.5棧解碼
6.2.6直方圖剪枝和閾值剪枝
6.2.7調序限制
6.3未來代價估計
6.3.1不同的翻譯困難
6.3.2翻譯選項的未來代價估計
6.3.3任意輸入跨度的未來代價估計
6.3.4在搜尋中使用未來代價
6.4其他解碼算法
6.4.1基於覆蓋棧的柱搜尋算法
6.4.2A*搜尋算法
6.4.3貪婪爬山解碼
6.4.4有限狀態轉換機解碼
6.5小結
6.5.1核心概念
6.5.2延伸閱讀
6.5.3習題
第7章語言模型
7.1n元文法語言模型
7.1.1馬爾可夫鏈
7.1.2估計
7.1.3困惑度
7.2計數平滑
7.2.1加1平滑法
7.2.2刪除估計平滑法
7.2.3古德圖靈平滑法
7.2.4評估
7.3插值和後備
7.3.1插值
7.3.2遞歸插值
7.3.3後備
7.3.4預測詞的差異性
7.3.5歷史的差異性
7.3.6修正的Kneser—Ney平滑算法
7.3.7評估
7.4控制語言模型的大小
7.4.1不同的n元文法的數目
7.4.2在磁碟上進行估計
7.4.3高效的數據結構
7.4.4減小辭彙表規模
7.4.5抽取相關的n元文法
7.4.6根據需要載入n元文法
7.5小結
7.5.1核心概念
7.5.2延伸閱讀
7.5.3習題
第8章評測
8.1人工評測
8.1.1流利度和忠實度
8.1.2評測目的
8.1.3其他評測標準
8.2自動評測
8.2.1準確率和召回率
8.2.2詞錯誤率
8.2.3BLEU:一個雙語評測的替代指標
8.2.4METEOR
8.2.5關於評測的爭論
8.2.6評測指標的評測
8.2.7自動評測不足的證據
8.3假設檢驗
8.3.1計算置信區間
8.3.2成對比較
8.3.3自舉重採樣
8.4面向任務的評測
8.4.1後編輯的代價
8.4.2內容理解測試
8.5小結
8.5.1核心概念
8.5.2延伸閱讀
8.5.3習題
第三部分前沿研究
第9章判別式訓練
9.1尋找候選譯文
9.1.1搜尋圖
9.1.2詞格
9.1.3n—best列表
9.2判別式方法的原理
9.2.1譯文的特徵表示
9.2.2標註譯文的正確性
9.2.3監督學習
9.2.4最大熵
9.3參數調節
9.3.1實驗設定
9.3.2Powell搜尋方法
9.3.3單純型算法
9.4大規模判別式訓練
9.4.1訓練問題
9.4.2目標函式
9.4.3梯度下降
9.4.4感知機
9.4.5正則化
9.5後驗方法與系統融合
9.5.1最小貝葉斯風險
9.5.2置信度估計
9.5.3系統融合
9.6小結
9.6.1核心概念
9.6.2延伸閱讀
9.6.3習題
第10章整合語言學信息
10.1直譯
10.1.1數字和名字
10.1.2名字翻譯
10.1.3直譯的有限狀態方法
10.1.4資源
10.1.5反向直譯與翻譯
10.2形態學
10.2.1詞素
10.2.2簡化豐富的形態變化
10.2.3翻譯形態豐富的語言
10.2.4單詞拆分
10.3句法重構
10.3.1基於輸入語言句法的調序
10.3.2學習調序規則
10.3.3基於詞性標記的調序
10.3.4基於句法樹的調序
10.3.5預留選擇
10.4句法特徵
10.4.1方法論
10.4.2數的一致性
10.4.3一致性
10.4.4句法分析機率
10.5因子化翻譯模型
10.5.1因子化翻譯的分解
10.5.2因子化模型訓練
10.5.3模組的融合
10.5.4高效解碼
10.6小結
10.6.1核心概念
10.6.2延伸閱讀
10.6.3習題
第11章基於樹的翻譯模型
11.1同步文法
11.1.1短語結構語法
11.1.2同步短語結構語法
11.1.3同步樹替換文法
11.2同步文法的學習
11.2.1層次短語模型的學習
11.2.2句法翻譯規則的學習
11.2.3規則的簡化
11.2.4文法規則的打分
11.3基於句法分析算法的解碼
11.3.1線圖分析
11.3.2核心算法
11.3.3線圖的組織
11.3.4假設重組
11.3.5棧剪枝
11.3.6文法規則的使用
11.3.7立方剪枝
11.3.8文法二叉化
11.3.9外向代價估計
11.4小結
11.4.1核心概念
11.4.2延伸閱讀
11.4.3習題
參考文獻
索引