《中文文本信息處理的原理與套用》是2007年清華大學出版社出版的圖書,作者是苗奪謙、衛志華。本書主要講述了自然語言處理的基本理論和自然語言理解在相關領域的套用。
基本介紹
- 書名:中文文本信息處理的原理與套用
- 作者:苗奪謙 、衛志華
- ISBN:10位[7302154988] 13位[9787302154983]
- 定價:¥29.00 元
- 出版社:清華大學出版社
- 出版時間:2007-09
- 開本:16
內容簡介,編輯推薦,目錄,
內容簡介
本書是一本全面系統地介紹中文文本信息處理的教材,內容豐富,由淺入深地講述了中文文本信息處理的原理與套用。本書不僅介紹了基於規則的自然語言分析方法,也介紹了基於統計學的方法。本書涉及內容廣泛,能滿足不同水平讀者群的需求,可以作為計算機、信息類高年級本科生的教材,也可作為自然語言處理方向研究生的教材,也非常適合作為自然語言處理套用領域的研究人員和技術人員的參考資料。
全書共分為四大部分,分別是詞法分析、語法處理、語義分析和套用與技術。其中第一部分針對中文處理中特有的分詞問題,介紹了自動分詞算法、分詞中歧義的消除和未登錄詞的識別算法,另外還介紹了語料庫的相關知識。第二部分和第三部分都是從語法(語義)的表示入手,將自然語言形式化,再給出語法(語義)分析的算法,並針對該過程中的歧義問題給出了一些成熟的解決方案。最後一部分講述自然語言理解在信息檢索、信息抽取、自動文摘和文本分類等領域的套用。本書思路清晰,在每部分及每章的開始都介紹了該部分知識與其他部分之間的關係,以及該部分的知識點之間的關係,以幫助讀者從整體上把握中文文本信息處理的思路,並能根據不同的需求或不同的問題選擇適當的算法。
編輯推薦
本書是一本全面系統地介紹中文文本信息處理的教材,內容豐富,由淺入深地講述了中文文本信息處理的原理與套用。本書不僅介紹了基於規則的自然語言分析方法,也介紹了基於統計學的方法。全書共分為四大部分,分別是詞法分析、語法處理、語義分析和套用與技術。
其中前三部分是自然語言處理的基本理論,第一部分針對中文處理中特有的分詞問題,介紹了自動分詞算法、分詞中歧義的消除和未登錄詞的識別算法,另外還介紹了語料庫的相關知識。第二部分和第三部分都是從語法(語義)的表示入手,將自然語言形式化,再給出語法(語義)分析的算法,並針對該過程中的歧義問題給出了一些成熟的解決方案。最後一部分講述自然語言理解在信息檢索、信息抽取、自動文摘和文本分類等領域的套用。本書思路清晰,在每部分及每章的開始都介紹了該部分知識與其他部分之間的關係,以及該部分的知識點之間的關係,以幫助讀者從整體上把握中文文本信息處理的思路,並能根據不同的需求或不同的問題選擇適當的算法。
本書涉及內容廣泛,能滿足不同水平讀者群的需求,可以作為計算機、信息類高年級本科生的教材,也可作為自然語言處理方向研究生的教材,也非常適合作為自然語言處理套用領域的研究人員和技術人員的參考資料。
目錄
第1章 概論
1.1 自然語言處理與中文信息處理
1.2 自然語言處理的新趨勢
1.3 本書內容組織
第一部分 詞法分析
第2章 自動分詞
2.1 關於自動分詞
2.2 分詞詞典
2.3 機械分詞方法
第3章 分詞歧義消解
3.1 關於分詞歧義
3.2 基於規則的分詞消歧
3.3 基於統計方法的分詞消歧
第4章 未登錄詞獲取
4.1 關於未登錄詞
4.2 基於統計學的未登錄詞獲取方法
4.3 中文姓名的自動辨識
4.4 中文統計辭彙獲取
4.5 無詞典分詞方法
第5章 語料庫的構建
5.1 關於語料庫
5.2 漢語語料庫的基本加工規範
5.3 建設語料庫的其他問題
第一部分習題
第二部分 語法處理
第6章 自動標註
6.1 關於自動標註
6.2 馬爾可夫模型和隱馬爾可夫模型
6.3 馬爾可夫模型標註器
6.4 隱馬爾可夫模型標註器
第7章 語法表示
7.1 關於語法表示
7.2 形式語法描述
7.3 短語結構語法
7.4 轉移網路
7.5 短語結構與句法樹
第8章 語法分析
8.1 關於語法分析
8.2 基於符號串的句法分析
8.3 自底向上的圖句法分析
8.4 自頂向下的圖句法分析
8.5 基於轉移網路的句法分析
8.6 移進歸約句法分析器
8.7 機率上下文無關文法分析
第二部分習題
第三部分 語義分析
第9章 語義表示
9.1 關於語義表示
9.2 語義的邏輯表示方法
9.3 論旨角色
9.4 語義網路表示法
9.5 框架表示法
9.6 量詞的處理
第10章 語義分析
10.1 關於語義分析
10.2 組合理論與語義解釋
10.3 基於語義特徵的解釋方法
10.4 基於語法關係的語義分析
10.5 語義語法
10.6 模板匹配
10.7 語義驅動的分析技術
第11章 語義消歧
11.1 關於語義歧義
11.2 選擇限制法消歧
11.3 語義網路
11.4 統計詞義消歧
11.5 統計語義優選
第三部分習題
第四部分 套用與技術
第12章 文本分類
12.1 關於文本分類
12.2 文本分類方法
12.3 文本分類的評測
第13章 信息檢索
13.1 關於信息檢索
13.2 基於統計學的信息檢索模型
13.3 基於語義的信息檢索
13.4 典型信息檢索系統
13.5 信息檢索技術前沿
第14章 信息抽取
14.1 關於信息抽取
14.2 半結構化文本的信息抽取技術
14.3 典型信息抽取系統
14.4 Web信息抽取
第15章 自動文摘
15.1 關於自動文摘
15.2 自動文摘的方法
15.3 自動文摘系統的評測
15.4 自動文摘系統
第四部分習題
參考文獻