Python數據分析與挖掘實戰(2021年清華大學出版社出版的圖書)

Python數據分析與挖掘實戰(2021年清華大學出版社出版的圖書)

本詞條是多義詞,共3個義項
更多義項 ▼ 收起列表 ▲

《Python數據分析與挖掘實戰》是2021年清華大學出版社出版的圖書,作者是鄧立國。本書涵蓋數據分析與數據挖掘的基礎知識、工具和有效實踐方法。

基本介紹

  • 中文名:Python數據分析與挖掘實戰
  • 作者:鄧立國
  • 出版社:清華大學出版社
  • ISBN:9787302577874
內容簡介,圖書目錄,作者簡介,

內容簡介

本書涵蓋數據分析與數據挖掘的基礎知識、工具和有效實踐方法,能讓讀者充分掌握數據分析與數據挖掘的基本技能。
本書共分為15章,主要內容包括大數據獲取、數據預處理、探索性數據分析、用Sklearn估計器分類、主流數據分析庫、大數據的資料庫類型、數據倉庫/商業智慧型、數據聚合與分組運算、數據挖掘工具、挖掘建模、模型評估、社會媒體挖掘、圖挖掘分類、基於深度學習的驗證碼識別、基於深度學習的文本分類挖掘實現。
本書採用理論與實踐相結合的方式,利用Python語言的強大功能,以*小的編程代價進行數據的提取、處理、分析和挖掘,既適合Python數據分析與數據挖掘初學者、大數據從業人員閱讀,也適合高等院校和培訓機構大數據與人工智慧相關專業的師生教學參考。

圖書目錄

第1章 大數據採集 1
1.1 大數據分類 1
1.2 大數據採集方法 2
1.3 Python爬蟲 3
1.3.1 審查元素 4
1.3.2 認識網頁結構 5
1.3.3 認識robots.txt的文檔 6
1.3.4 爬蟲的基本原理 11
1.3.5 Python爬蟲架構 11
1.3.6 用GET方式抓取數據 12
1.3.7 用POST方式抓取數據 15
1.3.8 用Beautiful Soup解析網頁 17
1.3.9 Python爬蟲案例 19
1.4 本章小結 25
第2章 數據預處理 26
2.1 數據清洗 26
2.1.1 缺失值處理 27
2.1.2 異常值處理 28
2.2 數據集成 30
2.3 數據轉換 32
2.4 數據規約 34
2.5 Python主要數據預處理函式 35
2.6 本章小結 37
第3章 探索性數據分析 38
3.1 異常值分析 38
3.2 缺失值分析 41
3.3 分布分析 43
3.4 相關性分析 46
3.5 對比分析 48
3.6 統計量分析 48
3.7 周期性分析 51
3.8 貢獻度分析 51
3.9 Python主要數據探索函式 52
3.10 本章小結 53
第4章 Sklearn估計器 54
4.1 Sklearn概述 54
4.2 使用Sklearn估計器分類 58
4.2.1 k近鄰算法 59
4.2.2 管道機制 63
4.2.3 Sklearn比較分類器 65
4.3 本章小結 69
第5章 主流數據分析庫 70
5.1 NumPy 70
5.2 Pandas 75
5.2.1 Pandas系列 76
5.2.2 Pandas數據幀 78
5.2.3 Pandas面板 84
5.3 SciPy 86
5.4 Matplotlib 90
5.5 本章小結 93
第6章 大數據:資料庫類型 94
6.1 關係型資料庫 94
6.2 關係型資料庫與非關係型資料庫的關係 95
6.3 SQLite 96
6.3.1 SQLite安裝與配置 96
6.3.2 SQLite命令 97
6.3.3 SQLite語法 99
6.3.4 SQLite - Python 104
6.4 MySQL 111
6.4.1 MySQL安裝 111
6.4.2 MySQL管理 114
6.4.3 MySQL PHP語法 116
6.4.4 PHP腳本連線MySQL 116
6.4.5 Python操作MySQL資料庫 117
6.5 NoSQL資料庫 123
6.5.1 NoSQL概述 123
6.5.2 列存儲資料庫 125
6.5.3 文檔存儲資料庫 134
6.5.4 鍵值存儲資料庫 143
6.5.5 圖存儲資料庫 153
6.5.6 對象存儲資料庫 155
6.5.7 XML資料庫 155
6.6 本章小結 157
第7章 數據倉庫/商業智慧型 158
7.1 數據倉庫和商業智慧型簡介 158
7.2 數據倉庫架構 159
7.3 OLAP 160
7.4 數據集市 161
7.5 商業智慧型 162
7.6 本章小結 163
第8章 數據聚合與分組運算 164
8.1 GroupBy技術 164
8.1.1 通過函式進行分組 165
8.1.2 對分組進行疊代 167
8.1.3 選取一個或一組列 170
8.1.4 通過字典或Series進行分組 171
8.1.5 通過函式進行分組 172
8.1.6 根據索引級別分組 173
8.2 數據聚合 174
8.2.1 面向列的多函式套用 174
8.2.2 以無索引的方式返回聚合數據 177
8.2.3 分組級運算和轉換 178
8.3 透視表和交叉表 181
8.4 本章小結 183
第9章 數據挖掘工具 184
9.1 數據挖掘工具分類 184
9.2 數據挖掘經典算法 185
9.3 免費數據挖掘工具 186
9.4 Git和GitHub項目數據挖掘工具 188
9.5 Python數據挖掘工具 190
9.5.1 Gensim 190
9.5.2 TensorFlow 194
9.5.3 Keras 197
9.6 本章小結 197
第10章 挖掘建模 198
10.1 數據挖掘建模的一般過程 198
10.2 分類與預測 199
10.3 聚類分析 200
10.4 關聯分析 201
10.5 時序模式 202
10.6 離群點檢測 203
10.7 本章小結 204
第11章 模型評估 205
11.1 驗證 205
11.2 交叉驗證 206
11.3 自助法 206
11.4 回歸評估指標 207
11.5 分類評估指標 207
11.6 ROC曲線 208
11.7 本章小結 210
第12章 社會媒體挖掘 211
12.1 社會媒體與社會媒體數據 211
12.2 中國社會媒體核心用戶數據分析 212
12.3 社會媒體挖掘技術與研究熱點 213
12.4 社會媒體挖掘流程 214
12.5 Twitter情感分析 216
12.6 本章小結 221
第13章 圖挖掘分類 222
13.1 圖挖掘概述 222
13.2 圖挖掘技術基礎 224
13.3 網路度量 226
13.4 網路模型 229
13.5 圖挖掘與知識推理 230
13.6 圖挖掘算法簡介 231
13.7 社區檢測 232
13.7.1 模組度 233
13.7.2 社區發現算法 234
13.8 頻繁子圖挖掘算法gSpan的實現 237
13.9 基於networkx進行社交網路分析 239
13.10 本章小結 245
第14章 基於深度學習的驗證碼識別 246
14.1 獲取圖片驗證碼 246
14.2 驗證碼圖片預處理 248
14.3 依賴TensorFlow的深度學習驗證碼識別 255
14.4 本章小結 259
第15章 基於深度學習的文本分類挖掘實現 260
15.1 文本分類概念 260
15.2 文本分類挖掘算法概述 261
15.3 基於傳統機器學習的文本分類 262
15.4 基於深度學習的文本分類 263
15.4.1 FastText文本分類模型算法實現 264
15.4.2 TextCNN文本分類模型算法實現 268
15.4.3 Bert深度雙向Transformer構建語言理解預訓練模型 271
15.4.4 TextRNN文本分類 273
15.4.5 RCNN文本分類 275
15.4.6 Hierarchical Attention Network文本分類 278
15.4.7 seq2seq with attention文本分類 281
15.4.8 Transformer文本分類 283
15.4.9 Dynamic Memory Network文本分類 289
15.4.10 Recurrent Entity Network文本分類 292
15.4.11 Boosting文本分類 294
15.4.12 BiLstmTextRelation文本分析 294
15.4.13 twoCNNTextRelation文本分類 297
15.5 本章小結 297
參考文獻 298

作者簡介

鄧立國,東北大學計算機套用博士畢業。2005年開始在瀋陽師範大學軟體學院、教育技術學院任教,主要研究方向:數據挖掘、知識工程、大數據處理、雲計算、分散式計算等。以作者發表學術論文30多篇(26篇EI),主編教材 1 部,主持科研課題6項,經費10餘萬元,多次獲得校級科研優秀獎,作為九三社員提出的智慧城市提案被市政府採納,研究成果被教育廳等單位採用。

相關詞條

熱門詞條

聯絡我們