圖書簡介
本書全面系統地介紹了中文文本信息處理技術,由淺入深地講述了中文文本理解的原理與套用。全書共5個部分: 預備知識、詞法分析、語法分析、語義分析和套用與技術。預備知識部分介紹了本書所需的數學、語言學和形式語言與自動機方面的理論知識。詞法分析、語法分析和語義分析是自然語言處理的基礎。詞法分析部分針對中文信息處理中特有的分詞問題,介紹了若干分詞算法以及分詞歧義消除和未登錄詞識別算法。語法分析和語義分析兩部分從語法(語義)的表示入手,介紹自然語言的結構化和形式化,給出語法分析和語義分析的常用算法,並針對該過程中的歧義問題給出可行的解決思路。套用與技術部分講述中文信息處理的套用,尤其是在文本分類、信息檢索、問答系統和自動文摘等領域的套用技術。
圖書目錄
第1部分預 備 知 識
第1章概論/ 31.1自然語言處理與中文信息處理3
1.1.1自然語言處理3
1.1.2中文信息處理4
1.2研究內容6
1.3套用領域8
第2章預備知識/ 9
2.1數學基礎9
2.1.1機率論9
2.1.2隨機過程11
2.1.3資訊理論18
2.1.4形式語言與自動機21
2.2語言學基礎24
2.2.1計算語言學概述24
2.2.2語素和詞24
2.2.3句法與篇章語法25
2.2.4詞義與句義27
第2部分詞 法 分 析
第3章自動分詞概述/ 333.1自動分詞33
3.1.1分詞規範33
3.1.2自動分詞的研究內容及意義34
3.1.3自動分詞方法34
3.2分詞歧義問題35
3.3未登錄詞問題37
3.4自動分詞評測39〖1〗中文信息處理原理及套用(第2版)目錄[3]〖3〗第4章基於詞典的分詞方法/ 43
4.1分詞詞典43
4.1.1關於分詞詞典的構造43
4.1.2基於詞屬性的分詞詞典44
4.1.3基於逐字二分的分詞詞典45
4.2機械分詞方法46
4.2.1正向最大匹配算法46
4.2.2逆向最大匹配算法47
4.2.3鄰近匹配算法48
4.2.4最短路徑匹配算法49
4.3基於規則的分詞方法51
4.3.1分詞預處理中的規則51
4.3.2分詞規則52
4.4中文姓名切分54
4.4.1切分姓名中的當用資源54
4.4.2同源對表、互斥對表及其操作57
4.4.3姓名左右邊界的確定 57
4.4.4禁止與恢復 58
4.4.5同源對表和互斥對表的校正規則 58
4.4.6機率再篩選 59
4.4.7中文姓名切分系統59
第5章基於語料庫的分詞方法/ 61
5.1語料庫61
5.1.1語料庫概述61
5.1.2語料庫加工規範65
5.1.3現代漢語語料庫構建實例71
5.2基於統計的分詞方法72
5.2.1統計分詞概述72
5.2.2統計分詞消歧73
5.2.3統計未登錄詞獲取76
5.2.4統計分詞模型83
5.3基於機器學習的分詞方法85
5.3.1最大熵分詞86
5.3.2條件隨機場分詞88第2部分習題/ 91
第3部分語 法 分 析
第6章自動詞性標註/ 956.1詞性標註概述95
6.1.1詞性標註95
6.1.2詞性標記規範96
6.1.3詞性消歧97
6.1.4詞性標註評測98
6.2基於統計的詞性標註方法99
6.2.1統計模型的訓練99
6.2.2馬爾可夫模型標註方法100
6.2.3隱馬爾可夫模型標註方法103
6.3基於規則的詞性標註方法106
6.3.1按兼類詞搭配關係構造的規則106
6.3.2按詞語結構獲取的規則107
6.4其他標註方法108
6.4.1基於規則和統計相結合的標註方法108
6.4.2基於條件隨機場的詞性標註方法109
6.4.3詞性標註中的未登錄詞處理方法109
第7章語法表示方法/ 110
7.1語法表示概述110
7.2形式語法描述110
7.2.1重寫規則110
7.2.2轉移網路112
7.3短語結構語法113
7.4依存語法115
第8章句法分析方法/ 117
8.1句法分析概述117
8.1.1句法分析117
8.1.2結構歧義118
8.1.3句法分析評測119
8.2基於規則的句法分析方法120
8.2.1自頂向下句法分析121
8.2.2自底向上句法分析122
8.2.3線圖句法分析124
8.2.4轉移網路句法分析126
8.3基於統計的句法分析方法129
8.3.1機率上下文無關文法分析129
8.3.2依存句法分析137第3部分習題/ 142
第4部分語 義 分 析第9章概念標註/ 1479.1概念標註概述147
9.2語言知識庫148
9.3概念標註方法150
第10章語義表示/ 154
10.1語義表示概述154
10.2語義邏輯表示法155
10.2.1一階謂詞演算155
10.2.2基本邏輯形式語言157
10.2.3邏輯形式中的歧義表示159
10.2.4論旨角色160
10.3語義網路表示法161
10.4語義框架表示法162
第11章語義分析/ 166
11.1語義分析概述166
11.2基於語義特徵的語義分析167
11.2.1組合理論167
11.2.2λ表達式與語義解釋168
11.2.3帶語義解釋的簡單語法和詞典170
11.2.4語義角色172
11.2.5特徵合一的語義解釋173
11.3基於語法關係的語義分析176
11.4基於模板匹配的語義分析179
11.5語義消歧183
11.5.1語義消歧概述183
11.5.2基於規則的語義消歧184
11.5.3基於統計的語義消歧193第4部分習題/ 199
第5部分套用與技術第12章文本分類/ 203
12.1文本分類概述203
12.1.1自動文本分類定義203
12.1.2文本分類任務的特點204
12.1.3文本分類基本實現途徑204
12.1.4文本分類的組成205
12.1.5文本分類的套用領域206
12.1.6國內外研究現狀207
12.2文本分類方法208
12.2.1文本表示與文本特徵選擇208
12.2.2分類器設計211
12.2.3分類器的閾值選擇215
12.3文本分類評測216
12.3.1單類賦值216
12.3.2多類排序218
第13章信息檢索/ 219
13.1信息檢索概述219
13.1.1信息檢索的對象和任務219
13.1.2信息檢索的評測220
13.1.3信息檢索模型220
13.1.4中文信息檢索的特點222
13.2基於統計的信息檢索模型222
13.2.1布爾模型及其擴展222
13.2.2向量空間模型224
13.2.3機率模型232
13.3基於語義的信息檢索239
13.3.1基於NLP的方法239
13.3.2潛在語義索引241
13.3.3基於神經網路的信息檢索246
13.4信息檢索技術評測247
13.4.1文本檢索會議247
13.4.2亞洲語言信息檢索評測會議248
13.4.3863信息檢索評測項目248
13.5Web信息檢索249
13.5.1Web信息檢索的特點249
13.5.2搜尋引擎251
第14章問答系統/ 258
14.1問答系統概述258
14.1.1問答系統的發展258
14.1.2問答系統的定義259
14.1.3問答系統的研究趨勢260
14.2關鍵技術260
14.2.1關鍵字抽取261
14.2.2關鍵字擴展263
14.3問答系統評測 264
14.4Watson問答系統265
第15章自動文摘/ 267
15.1自動文摘概述267
15.1.1文摘的定義267
15.1.2文摘的分類268
15.1.3自動文摘的意義269
15.2自動文摘的方法269
15.2.1基於統計的自動文摘269
15.2.2基於理解的自動文摘270
15.2.3基於信息抽取的自動文摘方法271
15.2.4基於結構的自動文摘271
15.3自動文摘系統評測272
15.3.1內部評價272
15.3.2外部評價273
15.4自動文摘系統273第5部分習題/ 275
附錄A北京大學計算語言學研究所漢語詞性標註標記集/ 276附錄B哈爾濱工業大學CDT依存句法標註體系/ 278
參考文獻/ 279
第1章C語言程式設計概述/1
1.1程式設計語言1
1.1.1“存儲程式”原理1
1.1.2程式設計語言的發展3
1.1.3語言處理程式4
1.2C語言的發展和特點5
1.3C語言的語法單位6
1.3.1C語言的基本符號6
1.3.2關鍵字6
1.3.3標識符6
1.3.4C語言語句8
1.4C語言程式的基本結構8
1.4.1簡單的C語言程式介紹8
1.4.2C程式的結構與書寫規則11
1.5程式設計與算法13
1.5.1程式設計13
1.5.2算法概述14
1.5.3算法的描述15
1.5.4結構化程式設計方法19
1.6C語言程式的上機調試20
1.6.1C語言的編譯環境與運行程式的步驟20
1.6.2Turbo C開發環境21
1.6.3WinTC系統上機操作方法26
1.6.4Visual C++ 6.0系統上機操作方法28
本章小結34
習題34
上機實訓36
實訓項目: C語言開發環境的使用與程式調試 37
第2章數據類型、運算符與表達式/39
2.1C語言數據類型與數據的存儲39〖1〗C語言程式設計實用教程目錄[3]〖3〗2.1.1C語言的數據類型39
2.1.2數據在記憶體中的存儲形式41
2.2變數與常量43
2.2.1常量43
2.2.2變數47
2.3C語言的運算符和表達式53
2.3.1概述53
2.3.2算術運算符和算術表達式55
2.3.3關係運算符和關係表達式57
2.3.4邏輯運算符和邏輯表達式58
2.3.5賦值運算符和賦值表達式60
2.3.6條件運算符和條件表達式61
2.4不同類型數據間的混合運算63
2.5位運算64
2.5.1位邏輯運算64
2.5.2位移運算65
2.5.3位運算賦值運算符65
2.6常用數學庫函式的使用66
本章小結67
習題68
上機實訓70
第3章順序結構程式設計/72
3.1C語言簡單語句72
3.2數據的輸入與輸出73
3.3格式化輸入與輸出75
3.3.1格式化輸出函式printf()75
3.3.2格式化輸入函式scanf()80
3.4字元數據的輸入與輸出84
3.4.1字元輸出函式putchar()84
3.4.2字元輸入函式getchar()85
3.5順序結構程式設計舉例87
本章小結90
習題90
上機實訓93
第4章選擇結構程式設計/95
4.1if語句95
4.1.1單分支if語句95
4.1.2雙分支if語句96
4.1.3if語句的嵌套97
4.2switch語句100
4.3選擇結構程式設計舉例102
本章小結106
習題107
上機實訓110
第5章循環結構程式設計/112
5.1循環的概念112
5.2for語句113
5.3while語句117
5.4do…while語句119
5.5break與continue語句121
5.5.1break語句121
5.5.2continue語句123
5.6循環的嵌套124
5.7程式舉例126
本章小結128
習題128
上機實訓134
第6章數組/136
6.1概述136
6.2一維數組137
6.2.1一維數組的定義137
6.2.2一維數組的引用138
6.2.3一維數組的初始化139
6.2.4套用舉例141
6.3二維數組145
6.3.1二維數組的定義145
6.3.2二維數組的引用147
6.3.3二維數組的初始化147
6.3.4二維數組的套用舉例148
6.4字元數組與字元串150
6.4.1字元數組150
6.4.2字元串152
6.4.3字元串處理函式153
本章小結156
習題157
上機實訓160
第7章函式/162
7.1函式的定義與調用162
7.1.1函式的分類162
7.1.2函式定義的一般形式164
7.1.3函式的調用167
7.1.4函式的參數傳遞168
7.2函式的嵌套調用與遞歸調用172
7.2.1函式的嵌套調用172
7.2.2函式的遞歸調用173
7.3變數的作用域和存儲類別175
7.3.1變數的作用域175
7.3.2變數的存儲類別177
7.4內部函式與外部函式178
7.4.1內部函式179
7.4.2外部函式179
7.5程式的多檔案結構180
7.6程式舉例185
本章小結189
習題189
上機實訓192
第8章編譯預處理/194
8.1宏定義命令194
8.2檔案包含200
8.3條件編譯203
本章小結205
習題205
上機實訓209
第9章指針/210
9.1地址與指針類型210
9.1.1地址及取地址運算210
9.1.2指針類型與指針運算211
9.2指針變數213
9.2.1指針變數的定義213
9.2.2指針變數的運算214
9.3指針與數組217
9.3.1指向數組元素的指針217
9.3.2用指針法引用數組元素218
9.3.3多維數組與指針220
9.4指針與字元串224
9.5指針與函式227
9.5.1指針變數作函式的參數227
9.5.2指向函式的指針變數232
9.5.3指針型函式235
9.6指針型數組237
9.7多級指針240
本章小結241
習題242
上機實訓245
第10章結構體、共用體和枚舉類型/247
10.1結構體類型247
10.1.1結構體類型的定義247
10.1.2結構體變數的說明與引用249
10.1.3位段253
10.2結構體數組255
10.2.1結構體數組的定義與初始化255
10.2.2套用舉例257
10.3結構體與指針259
10.3.1結構體類型的指針變數259
10.3.2指向結構體數組的指針261
10.3.3結構體類型變數作函式的參數262
10.4動態數據結構與鍊表264
10.4.1鍊表的相關概念264
10.4.2動態記憶體分配函式265
10.4.3鍊表的建立與操作267
10.5共用體272
10.5.1共用體類型的定義與變數說明272
10.5.2共用體變數的引用273
10.6枚舉類型275
10.7用typedef說明一種新類型名277
本章小結280
習題280
上機實訓283
第11章檔案操作/285
11.1C語言檔案概述285
11.2檔案的打開與關閉288
11.3檔案的讀寫291
11.3.1字元的輸入和輸出291
11.3.2格式化輸入和輸出294
11.3.3字元串的輸入和輸出298
11.4隨機檔案的讀寫301
11.4.1檔案的定位301
11.4.2fread函式與fwrite函式302
11.5出錯檢測函式305
11.5.1ferror()函式305
11.5.2clearerror()函式305
本章小結306
習題307
上機實訓311
第12章課程設計/313
12.1課程設計的目的313
12.2課程設計的選題與實施過程314
12.2.1選題314
12.2.2實施過程314
12.3課程設計報告的內容315
12.4課程設計參考題目315
本章小結321
綜合項目實訓321
附錄AC常用庫函式/325
附錄B全國計算機等級考試二級C語言考試大綱/333
附錄C計算機二級C語言考試模擬題/336
模擬題參考答案350
附錄D習題參考答案/351第1章習題解答351
第2章習題解答353
第3章習題解答354
第4章習題解答356
第5章習題解答359
第6章習題解答364
第7章習題解答367
第8章習題解答371
第9章習題解答372
第10章習題解答375
第11章習題解答378
參考文獻/382