Python自然語言處理與開發

Python自然語言處理與開發

《Python自然語言處理與開發》是清華大學出版社於2020年1月1日出版的一本圖書,作者葉虎。

基本介紹

  • 書名:Python自然語言處理與開發
  • 作者:葉虎
  • ISBN:9787302543428
  • 定價:89元
  • 出版時間:2020.01.01
圖書內容,圖書目錄,

圖書內容

自然語言處理技術在構建智慧型社會中發揮越來越重要的作用。本書介紹如何學頁踏墓習和使用流行的Python程式語言開發自然語言處理套用。主要內容包括面向自然語言處理開發的Python程式語言入門,使用Python開發中文分詞,實現Word文檔自動校對基礎,文本相似度計算和排重的原理與實現,文本摘要的原理與實現,問答式聊天機器人算法與代碼實現、機器翻譯技術及其實現與評測。本書是獵兔搜尋技術在Python自然語言處理領域的實際套用。

圖書目錄

第1章 Python自然語言處理技術基礎 1
1.1 體驗自然語言處理技術 1
1.2 Linux基礎 3
1.2.1 常用命令 3
1.2.2 Micro編輯器 5
1.3 開發環境 5
1.4 變數 6
1.5 注釋 6
1.6 簡單數據類型 6
1.6.1 數值 6
1.6.2 字元串 9
1.6.3 數組 10
1.7 字面值 11
1.8 控制流 11
1.8.1 if語句 12
1.8.2 循環 13
1.9 列表 14
1.10 元組 14
1.11 集合 16
1.12 字典 17
1.13 位數組 18
1.14 模組 19
1.15 函式 20
1.15.1 print函式 20
1.15.2 定義函式 22
1.16 面向對象編程 24
1.17 檔案操作 26
1.17.1 讀寫檔案 26
1.17.2 重命名檔案 28
1.17.3 遍歷檔案 28
1.18 疊代器 29
1.18.1 zip函式 30
1.18.2 itertools模組 31
1.19 資料庫 32
1.20 讀取Excel檔案 34
1.21 pytest單元測試 36
1.22 異常處理 37
1.23 日誌 37
1.24 Flask Web框架 39
1.25 本只項乃蘭章小結 40
第2章 中文分詞原理與實現 41
2.1 切分方案 41
2.2 查找詞典算法 42
2.2.1 標準檢索樹 42
2.2.2三叉檢索樹 45
2.3最長匹配中文分詞 51
2.3.1正向最大長度匹配法 51
2.3.2逆向最大長度匹配章幾拔法 53
2.4機率語言模型的分詞方法 57
2.4.1一元模型 58
2.4.2數據基礎 67
2.4.3二元詞典 70
2.4.4用二元連線改進一元模型 75
2.4.5N元模型 79
2.4.6N元分詞 80
2.4.7生成語言模型 84
2.4.8評估語言模捉埋坑照型 85
2.4.9有限狀態機識別未登錄串 87
2.4.10機率分詞的流程與結構 94
2.5詞性標註 95
2.5.1數據基礎 99
2.5.3存儲數據 108
2.5.4整合切分與詞性標註 114
2.5.5基於轉換的錯誤學習方法 118
2.6詞類模型 119
2.7命名實體識別 120
2.7.1人名識別 121
2.7.2地名識別 140
2.8地名切分 140
2.8.1識別未登錄地名 141
2.8.2整體流程 145
2.9結果評測 147
2.10本章小結雅籃斷 148
第3章文檔分析 150
3.1自動校對 150
3.1.1讀取Word文檔 150
3.1.2ARPA檔案格式 151
3.1.3使用KenLM語言模型工具包 157
3.1.4拼寫糾錯 161
3.1.5模糊匹配問題 162
3.1.6正確詞表 172
3.1.7英文拼寫檢查 173
3.1.8中文拼寫檢查 174
3.2句子結構分析 175
3.2.1句法分析樹 175
3.2.2依存文法 180
3.2.3中文依存文法 180
3.2.4英文依存文法 185
3.2.5機器學習的方法 196
3.3本章小結 196
第4章文檔排重 197
4.1相似度計算 197
4.1.1夾角餘弦 198
4.1.2最長店兆槓公共子串 203
4.1.3同義詞替換 205
4.2SimHash文檔排重 206
4.3本笑灶章小結 213
第5章信息提取 214
5.1指代消解 214
5.2關鍵字提取 216
5.2.1關鍵字提取的TF-IDF算法 216
5.2.2textrank算法 218
5.2.3從網頁中提取關鍵字 221
5.3從網際網路提取信息 222
5.4從日期字元串提取信息 223
5.5本章小結 223
第6章自動摘要 224
6.1自動摘要技術 224
6.1.1英文文本摘要 226
6.1.2中文文本摘要 229
6.1.3基於篇章結構的自動摘要 231
6.1.4句子壓縮 231
6.2評測 232
6.3本章小結 233
第7章文本分類 234
7.2TensorFlow實現文本分類 240
7.3本章小結 242
第8章情感分析 243
8.1情感詞 246
8.1.1確定詞語的褒貶傾向 246
8.1.2匹配情感詞 247
8.2情感識別 248
8.3本章小結 248
第9章語音識別 249
9.1語音信號處理 249
9.1.1WAV檔案格式 249
9.1.2語音活動檢測 250
9.2JSGF語言模型 251
9.3DeepSpeech語音識別引擎 253
9.4強制對齊 254
9.5本章小結 256
第10章開發聊天機器人 257
10.1問答系統 257
10.1.1問句類型 258
10.1.2答案提取 259
10.2AIML聊天機器人 259
10.3意圖 261
10.4使用DeepPavlov構建對話系統 266
10.5本章小結 267
第11章機器翻譯 268
11.1語言檢測 268
11.2信道模型 268
11.3詞表 269
11.4詞義消歧 270
11.5詞對齊 271
11.6神經網路機器翻譯 276
11.7機器翻譯的評價 286
11.8本章小結 286
後記 287
參考文獻 288
參考網址 288
2.4.10機率分詞的流程與結構 94
2.5詞性標註 95
2.5.1數據基礎 99
2.5.3存儲數據 108
2.5.4整合切分與詞性標註 114
2.5.5基於轉換的錯誤學習方法 118
2.6詞類模型 119
2.7命名實體識別 120
2.7.1人名識別 121
2.7.2地名識別 140
2.8地名切分 140
2.8.1識別未登錄地名 141
2.8.2整體流程 145
2.9結果評測 147
2.10本章小結 148
第3章文檔分析 150
3.1自動校對 150
3.1.1讀取Word文檔 150
3.1.2ARPA檔案格式 151
3.1.3使用KenLM語言模型工具包 157
3.1.4拼寫糾錯 161
3.1.5模糊匹配問題 162
3.1.6正確詞表 172
3.1.7英文拼寫檢查 173
3.1.8中文拼寫檢查 174
3.2句子結構分析 175
3.2.1句法分析樹 175
3.2.2依存文法 180
3.2.3中文依存文法 180
3.2.4英文依存文法 185
3.2.5機器學習的方法 196
3.3本章小結 196
第4章文檔排重 197
4.1相似度計算 197
4.1.1夾角餘弦 198
4.1.2最長公共子串 203
4.1.3同義詞替換 205
4.2SimHash文檔排重 206
4.3本章小結 213
第5章信息提取 214
5.1指代消解 214
5.2關鍵字提取 216
5.2.1關鍵字提取的TF-IDF算法 216
5.2.2textrank算法 218
5.2.3從網頁中提取關鍵字 221
5.3從網際網路提取信息 222
5.4從日期字元串提取信息 223
5.5本章小結 223
第6章自動摘要 224
6.1自動摘要技術 224
6.1.1英文文本摘要 226
6.1.2中文文本摘要 229
6.1.3基於篇章結構的自動摘要 231
6.1.4句子壓縮 231
6.2評測 232
6.3本章小結 233
第7章文本分類 234
7.2TensorFlow實現文本分類 240
7.3本章小結 242
第8章情感分析 243
8.1情感詞 246
8.1.1確定詞語的褒貶傾向 246
8.1.2匹配情感詞 247
8.2情感識別 248
8.3本章小結 248
第9章語音識別 249
9.1語音信號處理 249
9.1.1WAV檔案格式 249
9.1.2語音活動檢測 250
9.2JSGF語言模型 251
9.3DeepSpeech語音識別引擎 253
9.4強制對齊 254
9.5本章小結 256
第10章開發聊天機器人 257
10.1問答系統 257
10.1.1問句類型 258
10.1.2答案提取 259
10.2AIML聊天機器人 259
10.3意圖 261
10.4使用DeepPavlov構建對話系統 266
10.5本章小結 267
第11章機器翻譯 268
11.1語言檢測 268
11.2信道模型 268
11.3詞表 269
11.4詞義消歧 270
11.5詞對齊 271
11.6神經網路機器翻譯 276
11.7機器翻譯的評價 286
11.8本章小結 286
後記 287
參考文獻 288
參考網址 288

相關詞條

熱門詞條

聯絡我們