Python數據挖掘入門與實踐（第2版）

內容簡介

本書以實踐為宗旨，對數據挖掘進行了詳細地入門引導。本書囊括了比賽結果預測、電影推薦、特徵提取、好友推薦、破解驗證碼、作者歸屬、新聞聚類等大量經典案例，並以此為基礎提供了大量練習和額外活動。在練習中，本書介紹了數據挖掘的基本工具和基本方法；在額外活動中，本書為深入了解數據挖掘指明了方向。

本書適合希望套用Python進行數據挖掘的程式設計師閱讀。

圖書目錄

第 1 章數據挖掘入門 1

1.1 什麼是數據挖掘 1

1.2 使用 Python 和 Jupyter Notebook 3

1.2.1 安裝 Python 3

1.2.2 安裝 Jupyter Notebook 4

1.2.3 安裝 scikit-learn 5

1.3 親和性分析的簡單示例 6

1.4 商品推薦 6

1.4.1 用NumPy 載入數據集 7

1.4.2 實現規則的簡單排序 9

1.4.3 挑選最佳規則 11

1.5 分類的簡單示例 13

1.6 什麼是分類 14

1.6.1 準備數據集 14

1.6.2 實現 OneR 算法 15

1.6.3 測試算法功能 17

1.7 本章小結 19

第 2 章用 scikit-learn 估計器解決分類問題 20

2.1 scikit-learn 估計器 20

2.1.1 最近鄰算法 21

2.1.2 距離度量 22

2.1.3 載入數據集 24

2.1.4 形成標準的工作流程 25

2.1.5 運行算法 26

2.1.6 設定參數 27

2.2 預處理 29

2.2.1 標準預處理 30

2.2.2 組裝成型 31

2.3 流水線 31

2.4 本章小結 32

第 3 章用決策樹預測獲勝球隊 34

3.1 載入數據集34

3.1.1 收集數據35

3.1.2 用 pandas 載入數據集 35

3.1.3 清洗數據集 36

3.1.4 提取新特徵 37

3.2 決策樹 39

3.2.1 決策樹的參數 40

3.2.2 決策樹的使用 41

3.3 體育賽事結果預測 42

3.4 隨機森林 45

3.4.1 集成學習原理 46

3.4.2 設定隨機森林的參數 46

3.4.3 套用隨機森林 47

3.4.4 創建特徵 48

3.5 本章小結 49

第 4 章用親和性分析推薦電影 50

4.1 親和性分析 50

4.1.1 親和性分析算法 51

Python數據挖掘入門與實踐（第2版）

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條