NLTK基礎教程用NLTK和Python庫構建機器學習套用

圖書簡介,圖書目錄,

圖書簡介

NLTK 庫是當前自然語言處理(NLP)領域zui為流行、使用zui為廣泛的庫之一, 同時Python語言經過一段時間的發展也已逐漸成為主流的程式語言之一。
本書主要介紹如何通過NLTK庫與一些Python庫的結合從而實現複雜的NLP任務和機器學習套用。全書共分為10章。第1章對NLP進行了簡單介紹。第2章、第3章和第4章主要介紹一些通用的預處理技術、專屬於NLP領域的預處理技術以及命名實體識別技術等。第5章之後的內容側重於介紹如何構建一些NLP套用,涉及文本分類、數據科學和數據處理、社交媒體挖掘和大規模文本挖掘等方面。
本書適合 NLP 和機器學習領域的愛好者、對文本處理感興趣的讀者、想要快速學習NLTK的zishenPython程式設計師以及機器學習領域的研究人員閱讀。

圖書目錄

第1章 自然語言處理簡介1
1.1 為什麼要學習NLP2
1.2 先從Python開始吧5
1.2.1 列表5
1.2.2 自助功能6
1.2.3 正則表達式8
1.2.4 字典9
1.2.5 編寫函式10
1.3 向NLTK邁進11
1.4 練習16
1.5 小結17
第2章 文本的歧義及其清理18
2.1 何謂文本歧義18
2.2 文本清理20
2.3 語句分離器21
2.4 標識化處理22
2.5 詞幹提取23
2.6 詞形還原24
2.7 停用詞移除25
2.8 罕見詞移除26
2.9 拼寫糾錯26
2.10 練習27
2.11 小結28
第3章 詞性標註29
3.1 何謂詞性標註29
3.1.1 Stanford標註器32
3.1.2 深入了解標註器33
3.1.3 順序性標註器35
3.1.4 Brill標註器37
3.1.5 基於機器學習的標註器37
3.2 命名實體識別(NER)38
3.3 練習40
3.4 小結41
第4章 文本結構解析43
4.1 淺解析與深解析43
4.2 兩種解析方法44
4.3 為什麼需要進行解析44
4.4 不同的解析器類型46
4.4.1 遞歸下降解析器46
4.4.2 移位-歸約解析器46
4.4.3 圖表解析器46
4.4.4 正則表達式解析器47
4.5 依存性文本解析48
4.6 語塊分解50
4.7 信息提取53
4.7.1 命名實體識別(NER)53
4.7.2 關係提取54
4.8 小結55
第5章 NLP套用56
5.1 構建第一個NLP套用57
5.2 其他NLP套用60
5.2.1 機器翻譯60
5.2.2 統計型機器翻譯61
5.2.3 信息檢索62
5.2.4 語音識別64
5.2.5 文本分類65
5.2.6 信息提取66
5.2.7 問答系統67
5.2.8 對話系統67
5.2.9 詞義消歧67
5.2.10 主題建模68
5.2.11 語言檢測68
5.2.12 光符識別68
5.3 小結68
第6章 文本分類70
6.1 機器學習71
6.2 文本分類72
6.3 取樣操作74
6.3.1 樸素貝葉斯法76
6.3.2 決策樹79
6.3.3 隨機梯度下降法80
6.3.4 邏輯回歸81
6.3.5 支持向量機81
6.4 隨機森林算法83
6.5 文本聚類83
6.6 文本中的主題建模84
6.7 參考資料87
6.8 小結87
第7章 Web爬蟲88
7.1 Web爬蟲88
7.2 編寫第一個爬蟲程式89
7.3 Scrapy庫中的數據流92
7.3.1 Scrapy庫的shell93
7.3.2 目標項98
7.4 生成網站地圖的蜘蛛程式99
7.5 目標項管道100
7.6 參考資料102
7.7 小結102
第8章 NLTK與其他Python庫的搭配
運用104
8.1 NumPy104
8.1.1 多維數組105
8.1.2 基本運算106
8.1.3 從數組中提取數據107
8.1.4 複雜矩陣運算108
8.2 SciPy112
8.2.1 線性代數113
8.2.2 特徵值與特徵向量113
8.2.3 稀疏矩陣114
8.2.4 最佳化措施115
8.3 pandas117
8.3.1 讀取數據117
8.3.2 數列119
8.3.3 列轉換121
8.3.4 噪聲數據121
8.4 matplotlib123
8.4.1 子圖繪製123
8.4.2 添加坐標軸124
8.4.3 散點圖繪製125
8.4.4 條形圖繪製126
8.4.5 3D繪圖126
8.5 參考資料126
8.6 小結127
第9章 Python中的社交媒體挖掘128
9.1 數據收集128
9.2 數據提取132
9.3 地理可視化134
9.3.1 影響力檢測135
9.3.2 Facebook135
9.3.3 有影響力的朋友139
9.4 小結141
第10章 大規模文本挖掘142
10.1 在Hadoop上使用Python的
不同方式142
10.1.1 Python的流操作143
10.1.2 Hive/Pig下的UDF143
10.1.3 流封裝器143
10.2 Hadoop上的NLTK144
10.2.1 用戶定義函式
(UDF)144
10.2.2 Python的流操作146
10.3 Hadoop上的Scikit-learn147
10.4 PySpark150
10.5 小結153

相關詞條

熱門詞條

聯絡我們