Python中文自然語言處理基礎與實戰

Python中文自然語言處理基礎與實戰

《Python中文自然語言處理基礎與實戰》是2022年人民郵電出版社出版的圖書。

基本介紹

  • 中文名:Python中文自然語言處理基礎與實戰
  • 作者:肖剛,張良均
  • 出版社:人民郵電出版社
  • 出版時間:2022年1月1日
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787115566881
內容簡介,圖書目錄,作者簡介,

內容簡介

本書以Python自然語言處理的常用技術與真實案例相結合的方式,深入淺出地介紹Python自然語言處理的重要內容。全書共12章,內容包括緒論、語料庫、正則表達式、中文分詞技術、詞性標註與命名實體識別、關鍵字提取、文本向量化、文本分類與文本聚類、文本情感分析、NLP中的深度學習技術、智慧型問答系統,以及基於TipDM大數據挖掘建模平台實現垃圾簡訊分類。本書包含實訓和課後習題,幫助讀者通過練習和操作實踐,鞏固所學內容。
本書可作為“1+X”證書制度試點工作中“大數據套用開發(Python)”職業技能等級證書的教學和培訓用書,也可以作為高校數據科學或人工智慧相關專業的教材,還可作為機器學習愛好者的自學用書。

圖書目錄

第 1章 緒論 1
1.1 自然語言處理概述 1
1.1.1 NLP的發展歷程 2
1.1.2 NLP研究內容 3
1.1.3 NLP的幾個套用場景 4
1.1.4 NLP與人工智慧技術 5
1.1.5 學習NLP的難點 6
1.2 NLP基本流程 6
1.2.1 語料獲取 6
1.2.2 語料預處理 7
1.2.3 文本向量化 7
1.2.4 模型構建 7
1.2.5 模型訓練 7
1.2.6 模訂組姜型評價 8
1.3 NLP的開發環境 8
1.3.1 Anaconda安少協道漿裝 8
1.3.2 Anaconda套用介紹 9
小結 14
課後習題 14
第 2章 語料庫 16
2.1 語料庫概述 16
2.1.1 語料庫簡介 16
2.1.2 語料庫的用途 17
2.2 語料庫的種類與構建原則 17
2.2.1 語料庫的種類 17
2.2.2 語料庫的構建原則 18
2.3 NLTK 19
2.3.1 NLTK簡介 19
2.3.2 安裝步驟 19
2.3.3 NLTK中函式的使用 21
2.4 語料庫的獲取 23
2.4.1 獲取NLTK語料庫 23
2.4.2 獲取網路線上語料庫 30
2.5 任務:語料庫的構建與套用 32
2.5.1 構建作品集語料庫 32
2.5.2 武俠小說語料庫分析 33
小結 35
實多和祝滲訓 35
實訓1 構建語料庫 35
實訓2 《七劍下天山》語料庫分析 36
課後習題 36
第遷洪擊3章 正則表達式 38
3.1 正則表達式的概念 38
3.1.1 正則表達式函式 38
3.1.2 正則表達式的元字元 40
3.2 任務:正則表達式的套用 43
3.2.1 《西遊記》字元過濾 43
3.2.2 自動提取人名與電話號碼 44
3.2.3 提取網頁標籤信息 45
小結 46
實訓 46
實訓1 過濾《三國志》中的字元 46
實訓2 提取地名與郵編 46
實訓3 提取網頁標籤中的文本 46
課後習題 47
第4章 中文分詞技術 48
4.1 中文分詞簡介 48
4.2 基於規則分詞 48
4.2.1 正向最大匹配法 49
4.2.2 逆向最大匹配法 49
4.2.3 雙向最大匹配法 50
4.3 基於統計分詞 51
4.3.1 n元語法模型 51
4.去白全3.2 隱馬爾可夫模型相關概念 55
4.4 中文分詞工具jieba 62
4.4.1 基本步驟 63
4.4.2 分詞模式 63
4.5 任務:中文分詞的套用 64
4.5.1 HMM中文分詞 64
4.5.2 提取新聞文本中的高頻詞 68
小結 69
實訓 70
實訓1 使用HMM進行中文分詞 70
實訓2 提取文本中的高頻詞 70
課後習題 70
第5章 詞性標註與命名實體識別 72
5.1 詞性標註 72
5.1.1 詞性標註簡介 72
5.1.2 詞性標註規範 73
5.1.3 jieba詞性茅籃境標註 74
5.2 命名實體識別 77
5.2.1 命名實體識別簡介 背察77
5.2.2 CRF模型 78
5.3 任務:中文命名實體識別 82
5.3.1 sklearn-crfsuite庫簡介 83
5.3.2 命名實體識別流程 83
小結 90
實訓 中文命名實體識別 90
課後習題 91
第6章 關鍵字提取 92
6.1 關鍵字提取技術簡介 92
6.2 關鍵字提取算法 93
6.2.1 TF-IDF算法 93
6.2.2 TextRank算法 94
6.2.3 LSA與LDA算法 96
6.3 任務:自動提取文本關鍵字 103
小結 109
實訓 109
實訓1 文本預處理 109
實訓2 使用TF-IDF算法提取關鍵字 109
實訓3 使用TextRank算法提取關鍵字 110
實訓4 使用LSA算法提取關鍵字 110
課後習題 110
第7章 文本向量化 112
7.1 文本向量化簡介 112
7.2 文本離散表示 113
7.2.1 獨熱表示 113
7.2.2 BOW模型 113
7.2.3 TF-IDF表示 114
7.3 文本分散式表示 114
7.3.1 Word2Vec模型 114
7.3.2 Doc2Vec模型 118
7.4 任務:文本相似度計算 120
7.4.1 Word2Vec詞向量的訓練 121
7.4.2 Doc2Vec段落向量的訓練 122
7.4.3 計算文本的相似度 124
小結 128
實訓 128
實訓1 實現基於Word2Vec模型的新聞語料詞向量訓練 128
實訓2 實現基於Doc2Vec模型的新聞語料段落向量訓練 128
實訓3 使用Word2Vec模型和Doc2Vec模型計算新聞文本的相似度 129
課後習題 129
第8章 文本分類與文本聚類 131
8.1 文本挖掘簡介 131
8.2 文本分類常用算法 132
8.3 文本聚類常用算法 133
8.4 文本分類與文本聚類的步驟 135
8.5 任務:垃圾簡訊分類 136
8.6 任務:新聞文本聚類 141
小結 144
實訓 144
實訓1 基於樸素貝葉斯的新聞分類 144
實訓2 食品種類安全問題聚類分析 145
課後習題 145
第9章 文本情感分析 147
9.1 文本情感分析簡介 147
9.1.1 文本情感分析的主要內容 147
9.1.2 文本情感分析的常見套用 148
9.2 情感分析的常用方法 149
9.2.1 基於情感詞典的方法 149
9.2.2 基於文本分類的方法 150
9.2.3 基於LDA主題模型的方法 151
9.3 任務:基於情感詞典的情感分析 151
9.4 任務:基於文本分類的情感分析 154
9.4.1 基於樸素貝葉斯分類的情感分析 154
9.4.2 基於SnowNLP庫的情感分析 156
9.5 任務:基於LDA主題模型的情感分析 157
9.5.1 數據處理 157
9.5.2 模型訓練 158
9.5.3 結果分析 159
小結 160
實訓 160
實訓1 基於詞典的豆瓣評論文本情感分析 160
實訓2 基於樸素貝葉斯算法的豆瓣評論文本情感分析 160
實訓3 基於SnowNLP的豆瓣評論文本情感分析 161
實訓4 基於LDA主題模型的豆瓣評論文本情感分析 161
課後習題 161
第 10章 NLP中的深度學習技術 163
10.1 循環神經網路概述 163
10.2 RNN結構 164
10.2.1 多對一結構 164
10.2.2 等長的多對多結構 164
10.2.3 非等長結構(Seq2Seq模型) 169
10.3 深度學習工具 171
10.3.1 TensorFlow簡介 171
10.3.2 基於TensorFlow的深度學習庫Keras 172
10.4 任務:基於LSTM的文本分類與情感分析 172
10.4.1 文本分類 172
10.4.2 情感分析 181
10.5 任務:基於Seq2Seq的機器翻譯 185
10.5.1 語料預處理 185
10.5.2 構建模型 188
10.5.3 定義最佳化器和損失函式 191
10.5.4 訓練模型 191
10.5.5 翻譯 194
小結 195
實訓 195
實訓1 實現基於LSTM模型的新聞分類 195
實訓2 實現基於LSTM模型的攜程網評論情感分析 196
實訓3 實現基於Seq2Seq和GPU的機器翻譯 196
課後習題 197
第 11章 智慧型問答系統 198
11.1 智慧型問答系統簡介 198
11.2 智慧型問答系統的主要組成部分 198
11.2.1 問題理解 199
11.2.2 知識檢索 199
11.2.3 答案生成 200
11.3 任務:基於Seq2Seq模型的聊天機器人 201
11.3.1 讀取語料庫 201
11.3.2 文本預處理 202
11.3.3 模型構建 206
11.3.4 模型訓練 211
11.3.5 模型評價 218
小結 218
實訓 基於Seq2Seq模型的聊天機器人 218
課後習題 219
第 12章 基於TipDM大數據挖掘建模平台實現垃圾簡訊分類 220
12.1 平台簡介 220
12.1.1 實訓庫 221
12.1.2 數據連線 222
12.1.3 實訓數據 222
12.1.4 我的實訓 223
12.1.5 系統算法 223
12.1.6 個人算法 225
12.2 實現垃圾簡訊分類 226
12.2.1 數據源配置 227
12.2.2 文本預處理 229
12.2.3 樸素貝葉斯分類模型 234
小結 235
實訓 實現基於樸素貝葉斯的新聞分類 235
課後習題 236

作者簡介

肖剛(1968-),博士,教授。韓山師範學院數學與統計學院院長、廣東省中小型企業大數據與智慧型化工程研究中心主任,華南師範大學、廣州大學兼職碩士生導師。中國醫學裝備協會磁共振成像裝備與技術專業委員會委員、廣東省生物醫學工程學會醫學信息工程分會委員、廣東省工業與套用數學學會、廣東省現場統計學會和廣東省計算數學學會理事,“泰迪杯”全國數據挖掘挑戰賽專家組成員。主要從事套用數學、數據挖掘和醫學影像學的研究工作以及創新創業競賽、數學建模競賽、數據挖掘挑戰賽的教學與指導工作。主持廣東省自然科學基金項目2項,主持廣東省教育廳項目4項。2016年廣東省科學技術進步獎三等獎、2018年汕頭科學技術獎一等獎、2019年廣東省科學技術進步獎優秀獎以及2019年廣東省教學成果(基礎教育)一等獎主要成員。 張良均。高級信息系統項目管理師,泰迪杯全國大學生數據挖掘競賽(www.tipdm.org)的發起人。華南師範大學、廣東工業大學兼職教授,廣東省工業與套用數學學會理事。兼有大型高科技企業和高校的工作經歷,主要從事大數據挖掘及其套用的策劃、研發及諮詢培訓。全國計算機技術與軟體專業技術資格(水平)考試繼續教育和CDA數據分析師培訓講師。發表數據挖掘相關論文數二十餘篇,已取得國家發明專利12項,主編圖書《神經網路實用教程》、《數據挖掘:實用案例分析》、《MATLAB數據分析與挖掘實戰》等9本圖書,主持並完成科技項目9項。獲得SAS、SPSS數據挖掘認證及Hadoop開發工程師證書,具有電力、電信、銀行、製造企業、電子商務和電子政務的項目經驗和行業背景。
3.2.3 提取網頁標籤信息 45
小結 46
實訓 46
實訓1 過濾《三國志》中的字元 46
實訓2 提取地名與郵編 46
實訓3 提取網頁標籤中的文本 46
課後習題 47
第4章 中文分詞技術 48
4.1 中文分詞簡介 48
4.2 基於規則分詞 48
4.2.1 正向最大匹配法 49
4.2.2 逆向最大匹配法 49
4.2.3 雙向最大匹配法 50
4.3 基於統計分詞 51
4.3.1 n元語法模型 51
4.3.2 隱馬爾可夫模型相關概念 55
4.4 中文分詞工具jieba 62
4.4.1 基本步驟 63
4.4.2 分詞模式 63
4.5 任務:中文分詞的套用 64
4.5.1 HMM中文分詞 64
4.5.2 提取新聞文本中的高頻詞 68
小結 69
實訓 70
實訓1 使用HMM進行中文分詞 70
實訓2 提取文本中的高頻詞 70
課後習題 70
第5章 詞性標註與命名實體識別 72
5.1 詞性標註 72
5.1.1 詞性標註簡介 72
5.1.2 詞性標註規範 73
5.1.3 jieba詞性標註 74
5.2 命名實體識別 77
5.2.1 命名實體識別簡介 77
5.2.2 CRF模型 78
5.3 任務:中文命名實體識別 82
5.3.1 sklearn-crfsuite庫簡介 83
5.3.2 命名實體識別流程 83
小結 90
實訓 中文命名實體識別 90
課後習題 91
第6章 關鍵字提取 92
6.1 關鍵字提取技術簡介 92
6.2 關鍵字提取算法 93
6.2.1 TF-IDF算法 93
6.2.2 TextRank算法 94
6.2.3 LSA與LDA算法 96
6.3 任務:自動提取文本關鍵字 103
小結 109
實訓 109
實訓1 文本預處理 109
實訓2 使用TF-IDF算法提取關鍵字 109
實訓3 使用TextRank算法提取關鍵字 110
實訓4 使用LSA算法提取關鍵字 110
課後習題 110
第7章 文本向量化 112
7.1 文本向量化簡介 112
7.2 文本離散表示 113
7.2.1 獨熱表示 113
7.2.2 BOW模型 113
7.2.3 TF-IDF表示 114
7.3 文本分散式表示 114
7.3.1 Word2Vec模型 114
7.3.2 Doc2Vec模型 118
7.4 任務:文本相似度計算 120
7.4.1 Word2Vec詞向量的訓練 121
7.4.2 Doc2Vec段落向量的訓練 122
7.4.3 計算文本的相似度 124
小結 128
實訓 128
實訓1 實現基於Word2Vec模型的新聞語料詞向量訓練 128
實訓2 實現基於Doc2Vec模型的新聞語料段落向量訓練 128
實訓3 使用Word2Vec模型和Doc2Vec模型計算新聞文本的相似度 129
課後習題 129
第8章 文本分類與文本聚類 131
8.1 文本挖掘簡介 131
8.2 文本分類常用算法 132
8.3 文本聚類常用算法 133
8.4 文本分類與文本聚類的步驟 135
8.5 任務:垃圾簡訊分類 136
8.6 任務:新聞文本聚類 141
小結 144
實訓 144
實訓1 基於樸素貝葉斯的新聞分類 144
實訓2 食品種類安全問題聚類分析 145
課後習題 145
第9章 文本情感分析 147
9.1 文本情感分析簡介 147
9.1.1 文本情感分析的主要內容 147
9.1.2 文本情感分析的常見套用 148
9.2 情感分析的常用方法 149
9.2.1 基於情感詞典的方法 149
9.2.2 基於文本分類的方法 150
9.2.3 基於LDA主題模型的方法 151
9.3 任務:基於情感詞典的情感分析 151
9.4 任務:基於文本分類的情感分析 154
9.4.1 基於樸素貝葉斯分類的情感分析 154
9.4.2 基於SnowNLP庫的情感分析 156
9.5 任務:基於LDA主題模型的情感分析 157
9.5.1 數據處理 157
9.5.2 模型訓練 158
9.5.3 結果分析 159
小結 160
實訓 160
實訓1 基於詞典的豆瓣評論文本情感分析 160
實訓2 基於樸素貝葉斯算法的豆瓣評論文本情感分析 160
實訓3 基於SnowNLP的豆瓣評論文本情感分析 161
實訓4 基於LDA主題模型的豆瓣評論文本情感分析 161
課後習題 161
第 10章 NLP中的深度學習技術 163
10.1 循環神經網路概述 163
10.2 RNN結構 164
10.2.1 多對一結構 164
10.2.2 等長的多對多結構 164
10.2.3 非等長結構(Seq2Seq模型) 169
10.3 深度學習工具 171
10.3.1 TensorFlow簡介 171
10.3.2 基於TensorFlow的深度學習庫Keras 172
10.4 任務:基於LSTM的文本分類與情感分析 172
10.4.1 文本分類 172
10.4.2 情感分析 181
10.5 任務:基於Seq2Seq的機器翻譯 185
10.5.1 語料預處理 185
10.5.2 構建模型 188
10.5.3 定義最佳化器和損失函式 191
10.5.4 訓練模型 191
10.5.5 翻譯 194
小結 195
實訓 195
實訓1 實現基於LSTM模型的新聞分類 195
實訓2 實現基於LSTM模型的攜程網評論情感分析 196
實訓3 實現基於Seq2Seq和GPU的機器翻譯 196
課後習題 197
第 11章 智慧型問答系統 198
11.1 智慧型問答系統簡介 198
11.2 智慧型問答系統的主要組成部分 198
11.2.1 問題理解 199
11.2.2 知識檢索 199
11.2.3 答案生成 200
11.3 任務:基於Seq2Seq模型的聊天機器人 201
11.3.1 讀取語料庫 201
11.3.2 文本預處理 202
11.3.3 模型構建 206
11.3.4 模型訓練 211
11.3.5 模型評價 218
小結 218
實訓 基於Seq2Seq模型的聊天機器人 218
課後習題 219
第 12章 基於TipDM大數據挖掘建模平台實現垃圾簡訊分類 220
12.1 平台簡介 220
12.1.1 實訓庫 221
12.1.2 數據連線 222
12.1.3 實訓數據 222
12.1.4 我的實訓 223
12.1.5 系統算法 223
12.1.6 個人算法 225
12.2 實現垃圾簡訊分類 226
12.2.1 數據源配置 227
12.2.2 文本預處理 229
12.2.3 樸素貝葉斯分類模型 234
小結 235
實訓 實現基於樸素貝葉斯的新聞分類 235
課後習題 236

作者簡介

肖剛(1968-),博士,教授。韓山師範學院數學與統計學院院長、廣東省中小型企業大數據與智慧型化工程研究中心主任,華南師範大學、廣州大學兼職碩士生導師。中國醫學裝備協會磁共振成像裝備與技術專業委員會委員、廣東省生物醫學工程學會醫學信息工程分會委員、廣東省工業與套用數學學會、廣東省現場統計學會和廣東省計算數學學會理事,“泰迪杯”全國數據挖掘挑戰賽專家組成員。主要從事套用數學、數據挖掘和醫學影像學的研究工作以及創新創業競賽、數學建模競賽、數據挖掘挑戰賽的教學與指導工作。主持廣東省自然科學基金項目2項,主持廣東省教育廳項目4項。2016年廣東省科學技術進步獎三等獎、2018年汕頭科學技術獎一等獎、2019年廣東省科學技術進步獎優秀獎以及2019年廣東省教學成果(基礎教育)一等獎主要成員。 張良均。高級信息系統項目管理師,泰迪杯全國大學生數據挖掘競賽(www.tipdm.org)的發起人。華南師範大學、廣東工業大學兼職教授,廣東省工業與套用數學學會理事。兼有大型高科技企業和高校的工作經歷,主要從事大數據挖掘及其套用的策劃、研發及諮詢培訓。全國計算機技術與軟體專業技術資格(水平)考試繼續教育和CDA數據分析師培訓講師。發表數據挖掘相關論文數二十餘篇,已取得國家發明專利12項,主編圖書《神經網路實用教程》、《數據挖掘:實用案例分析》、《MATLAB數據分析與挖掘實戰》等9本圖書,主持並完成科技項目9項。獲得SAS、SPSS數據挖掘認證及Hadoop開發工程師證書,具有電力、電信、銀行、製造企業、電子商務和電子政務的項目經驗和行業背景。

相關詞條

熱門詞條

聯絡我們