《漢英機器翻譯若干關鍵技術研究》是2008年清華大學出版社出版的圖書,作者是劉群。
基本介紹
- 書名:漢英機器翻譯若干關鍵技術研究
- 作者:劉群
- ISBN:9787302183587
- 類別:計算機與網際網路
- 頁數:153
- 出版社:清華大學出版社
- 出版時間:2008年10月1日
- 裝幀:平裝
- 開本:16
基本信息,內容簡介,目錄,前言,
基本信息
作 者:劉群 著叢 書 名:中文信息處理叢書出 版 社:清華大學出版社ISBN:9787302183587出版時間:2008-10-01版 次:1頁 數:153裝 幀:平裝開 本:16開所屬分類:圖書 > 計算機與網際網路 > 專用軟體
內容簡介
《漢英機器翻譯若干關鍵技術研究》是作者所在的課題組近年來在漢英機器翻譯研究方面所取得進展的一個階段性總結。內容涉及漢英機器翻譯的各個主要方面及關鍵技術,包括對目前國際上機器翻譯研究進展的綜述,漢語詞法分析技術、漢語句法分析技術、漢語辭彙語義相似度計算、漢英雙語語料庫的詞語對齊、語料庫的結構對齊、基於結構對齊語料庫的翻譯模板抽取、多引擎機器翻譯方法等多方面的研究成果。
目錄
第1章 機器翻譯方法綜述.1
1.1 機器翻譯的範式2
1.2 基於平行語法的機器翻譯方法2
1.2.1 Alshawi的基於加權中心詞轉錄機的統計機器翻譯方法2
1.2.2 吳德凱的反向轉錄語法3
1.2.3 Takeda的基於模式的機器翻譯上下文無關語法4
1.3 基於實例的機器翻譯方法5
1.3.1 起源與發展5
1.3.2 Sato和Nagao的方法6
1.3.3 Kaji的方法7
1.3.4 CMU的泛化的基於實例的機器翻譯方法7
1.3.5 基於實例的機器翻譯方法的優缺點8
1.4 基於信源信道模型的統計機器翻譯方法8
1.4.1 IBM的統計機器翻譯方法9
1.4.2 王野翊在卡內基?梅隆大學(CMU)的工作12
1.4.3 約翰?霍普金斯大學(JHU)的統計機器翻譯夏季研討班13
1.4.4 Yamada和Knight的工作——基於句法的統計翻譯模型14
1.4.5 Och等的工作14
1.5 基於對數線性模型的統計機器翻譯方法15
1.5.1 對數線性模型15
1.5.2 基於短語的統計翻譯模型16
1.5.3 基於句法的統計翻譯模型17
1.6 多引擎機器翻譯方法18
1.6.1 Pangloss系統18
1.6.2 Verbmobil系統19
1.7 機器翻譯方法的分類21
1.7.1 按翻譯轉換的層面進行分類21
1.7.2 按語言知識的表示形式進行分類22
1.8 小結23
第2章 基於層疊隱馬爾可夫模型的漢語詞法分析25
2.1 漢語分析技術概述25
2.1.1 漢語詞法分析的難點25
2.1.2 漢語詞法分析的任務和前人的工作26
2.2 漢語詞法分析的層疊隱馬爾可夫模型28
2.2.1 隱馬爾可夫模型簡介28
2.2.2 層疊隱馬爾可夫模型的結構29
2.2.3 層疊隱馬爾可夫模型的核心數據結構——詞圖30
2.2.4 層疊隱馬爾可夫模型的參數訓練30
2.3 粗切分:基於一元語法的N最短路徑方法31
2.4 未定義詞識別:基於角色的隱馬爾可夫模型32
2.4.1 模型的定義32
2.4.2 角色的選取32
2.4.3 角色的標註34
2.4.4 未定義詞的提取34
2.4.5 參數訓練35
2.5 未定義詞的機率估計:基於角色的詞語生成模型35
2.5.1 問題的由來35
2.5.2 模型的定義36
2.6 細切分:辭彙化的隱馬爾可夫模型36
2.6.1 模型的定義36
2.6.2 最短路徑的求解37
2.6.3 參數估計37
2.7 詞性標註:基於詞性的隱馬爾可夫模型38
2.7.1 基於隱馬爾可夫模型的詞性標註38
2.7.2 詞性標記集的選擇與轉換38
2.8 實驗結果42
2.8.1 各層隱馬爾可夫模型的對比實驗42
2.8.2 在國家“973”計畫評測中的測試結果43
2.8.3
第一屆國際分詞大賽的評測結果43
2.9 小結45
第3章 融合語義知識和辭彙化上下文機率語法的漢語句法分析46
3.1 前言46
3.2 Baseline句法分析器 46
3.3 語義知識集成48
3.3.1 語義類抽取48
3.3.2 構建基於類的選擇偏向模型49
3.3.3 實驗結果50
3.3.4 性能改進分析51
3.4 基於漢語賓州樹庫的句法分析相關工作52
3.5 小結53
第4章 漢語詞法分析與句法分析融合策略研究54
4.1 引言54
4.2 句法分析系統55
4.2.1 融合語義知識的辭彙化機率上下文無關語法模型55
4.2.2 結構上下文模型56
4.2.3 多子模型句法分析器..56
4.3 詞法分析系統(ICTCLAS) 57
4.4 融合策略57
4.4.1 切分轉換:基於轉換的錯誤驅動學習57
4.4.2 標記轉換:條件隨機場58
4.4.3 轉換實驗59
4.5 實驗與分析60
4.6 比較62
4.7 小結63
第5章 基於“知網”的辭彙語義相似度計算64
5.1 引言64
5.2 詞語相似度及其計算的方法64
5.2.1 什麼是詞語相似度64
5.2.2 詞語相似度與詞語距離65
5.2.3 詞語相似度與詞語相關性65
5.2.4 詞語相似度的計算方法66
5.3 “知網”簡介67
5.3.1 “知網”的結構67
5.3.2 “知網”的知識描述語言69
5.4 基於“知網”的語義相似度計算方法71
5.4.1 詞語相似度計算71
5.4.2 義原相似度計算71
5.4.3 虛詞概念的相似度的計算72
5.4.4 實詞概念的相似度的計算72
5.5 實驗及結果75
5.6 小結76
第6章 詞語對齊的對數線性模型78
6.1 引言78
6.2 對數線性模型79
6.3 特徵函式80
6.3.1 IBM翻譯模型80
6.3.2 詞性標記轉換模型80
6.3.3 雙語詞典81
6.4 訓練81
6.5 搜尋82
6.6 實驗結果83
6.7 小結87
第7章 一種雙語短語結構對齊搜尋算法88
7.1 雙語對齊技術概述88
7.1.1 各種層次的語言單位上的對齊技術88
7.1.2 短語結構對齊的定義89
7.1.3 短語結構對齊的過程91
7.1.4 短語結構對齊的問題和難點92
7.1.5 現有的短語結構對齊技術93
7.2 一種雙語短語結構對齊的搜尋算法96
7.2.1 算法簡介96
7.2.2 局部對齊97
7.2.3 短語結構對齊的柱形搜尋(beam search)算法99
7.2.4 局部對齊的歸併99
7.2.5 局部對齊的評分100
7.2.6 搜尋算法的時間複雜度分析100
7.3 實驗及結果分析100
7.3.1 實驗方案100
7.3.2 實驗語料來源及規模102
7.3.3 短語結構對齊的實例分析102
7.3.4 實驗結果及分析106
7.3.5 實驗結果的進一步分析108
7.4 小結109
第8章 短語結構轉換模板的提取與套用110
8.1 基於模板的機器翻譯概述110
8.2 短語結構轉換模板定義111
8.3 短語結構轉換模板舉例112
8.4 短語結構轉換模板的提取112
8.5 短語結構轉換模板的套用——基於模板的轉換115
8.6 實驗結果117
8.6.1 實驗語料的來源及規模117
8.6.2 實驗結果分析117
8.7 小結124
第9章 微引擎流水線機器翻譯系統結構125
9.1 微引擎流水線的基本思想125
9.2 微引擎流水線的系統結構126
9.3 微引擎流水線的公共數據結構127
9.4 各種微引擎的程式接口和功能說明129
9.5 微引擎調度算法130
9.6 面向新聞領域的漢英機器翻譯系統131
9.6.1 研究背景131
9.6.2 系統實現方案132
9.7 實驗結果及分析134
9.8 小結135
第10章 總結及今後的工作136
附錄 漢語詞性標記集ICTPOS138
參考文獻143
後記
前言
自然語言處理技術的產生可以追溯到20世紀50年代,它是一門集語言學、數學、計算機科學和認知科學等於一體的綜合性交又學科。近幾年來,隨著計算機網路技術和通信技術的迅速發展和普及,自然語言處理技術的套用需求急劇增加,人們迫切需要實用的自然語言處理技術來幫助人們打破語言屏障,為人際之間、人機之問的信息交流提供便捷、自然、有效的人性化服務。但是,自然語言處理中的若干科學問題和技術難題尚未得到解決,有待於來自不同領域的學者深入研究和探索。