內容簡介
《小白學數據挖掘與機器學習——SPSS Modeler案例篇》用生活中常見的例子、有趣的插圖和通俗的語言,把看上去晦澀難懂的數據挖掘與機器學習知識以通俗易懂的方式分享給讀者,讓讀者從入門學習階段就發現,原來數據挖掘與機器學習不但有用,還很有趣。 《小白學數據挖掘與機器學習——SPSS Modeler案例篇》以IBM SPSS Modeler 作為案例實踐工具,首先介紹了數據挖掘的基本概念及數據挖掘方法,然後介紹了IBM SPSS Modeler 工具的基本使用、數據探索、統計檢驗、回歸分析、分類算法、聚類算法、關聯規則、神經網路以及集成學習。每一章都會以漫畫形式介紹一些日常小例子並作為切入點,用通俗的語言介紹具體的算法理論,同時在每章最後都附上套用案例,讓讀者更輕鬆地閱讀《小白學數據挖掘與機器學習——SPSS Modeler案例篇》並掌握對應的算法和...(展開全部) 《小白學數據挖掘與機器學習——SPSS Modeler案例篇》用生活中常見的例子、有趣的插圖和通俗的語言,把看上去晦澀難懂的數據挖掘與機器學習知識以通俗易懂的方式分享給讀者,讓讀者從入門學習階段就發現,原來數據挖掘與機器學習不但有用,還很有趣。 《小白學數據挖掘與機器學習——SPSS Modeler案例篇》以IBM SPSS Modeler 作為案例實踐工具,首先介紹了數據挖掘的基本概念及數據挖掘方法,然後介紹了IBM SPSS Modeler 工具的基本使用、數據探索、統計檢驗、回歸分析、分類算法、聚類算法、關聯規則、神經網路以及集成學習。每一章都會以漫畫形式介紹一些日常小例子並作為切入點,用通俗的語言介紹具體的算法理論,同時在每章最後都附上套用案例,讓讀者更輕鬆地閱讀《小白學數據挖掘與機器學習——SPSS Modeler案例篇》並掌握對應的算法和實踐操作。 《小白學數據挖掘與機器學習——SPSS Modeler案例篇》內容循序漸進,完整覆蓋了數據挖掘與機器學習的主要知識點,適合數據挖掘與機器學習入門讀者閱讀。 張浩彬,數據分析/數據挖掘專家,目前任職於國際商業機器(中國)有限公司認知計算部門,曾張浩彬,人稱浩彬老撕,曾任IBM大中華區商業智慧型事業部SPSS分析工程師,認知解決方案事業部數據分析專家,現任廣東柯內特環境科技有限公司首席數據科學家,致力機器學習及SPSS技術分享,專注於人工智慧技術與套用。 微信公眾號:探數尋理(wetalkdata)
目錄
第 1 章 數據挖掘那些事兒 1
1.1 當我們在談數據挖掘時,其實在討論什麼 2
1.2 從 CRISP-DM 開啟數據挖掘實踐 7
第 2 章 數據挖掘之利器:SPSS Modeler 17
2.1 SPSS Modeler 簡介 18
2.2 SPSS Modeler 的下載與安裝 21
2.3 SPSS Modeler 的主界面及基本操作 23
2.3.1 SPSS Modeler 主界面介紹 23
2.3.2 滑鼠基本操作 31
2.4 將 SPSS Modeler 連線到伺服器端 31
第 3 章 巧婦難為無米之炊:數據,數據! 34
3.1 數據的身份 35
3.1.1 變數的測量級別 35
3.1.2 變數的角色 36
3.2 數據的讀取 37
3.2.1 讀取 Excel 檔案數據 37
3.2.2 讀取變數檔案數據 38
3.2.3 讀取 SPSS Statistics(.sav)檔案數據 40
3.2.4 讀取資料庫數據 42
3.3 數據的基本設定 45
3.3.1 變數角色的設定 45
3.3.2 欄位的篩選及命名 46
3.4 數據的集成 47
3.4.1 數據的變數集成:合併節點 47
3.4.2 數據的記錄集成:追加節點 50
第 4 章 一點都不簡單的描述性統計分析 53
4.1 分類變數的基本分析: “矩陣”節點 54
4.2 連續變數的基本分析:數據審核節點 57
4.2.1 連續變數基本分析指標介紹 57
4.2.2 “數據審核”節點 63
第 5 章 何為足夠大的差異:常用的統計檢驗 67
5.1 假設檢驗 68
5.1.1 假設檢驗的基本原理 68
5.1.2 假設檢驗的一般步驟 69
5.2 連續變數與分類變數之間的關係: t 檢驗 70
5.2.1 兩組獨立樣本均值比較 71
5.2.2 兩組配對樣本均值比較 72
5.2.3 使用 t 檢驗的前提條件 73
5.2.4 案例:使用均值比較分析電信客戶的流失情況 73
5.3 兩個連續變數之間的關係:相關分析 75
5.3.1 相關分析理論 76
5.3.2 案例:使用相關分析研究居民消費水平與國內生產總值的相關關係 77
5.4 兩個分類變數之間的關係:卡方檢驗 80
5.4.1 卡方檢驗的原理 80
5.4.2 卡方檢驗的前提條件 82
5.4.3 案例:使用卡方檢驗研究兩個分類欄位之間的關係 82
第 6 章 從身高和體重的關係談起:回歸分析 84
6.1 一元線性回歸分析 85
6.1.1 分析因變數與自變數的關係,構建回歸模型 85
6.1.2 估計模型係數,求解回歸模型 87
6.1.3 對模型係數進行檢驗,確認模型有效性 88
6.1.4 擬合優度檢驗,判斷模型解釋能力 89
6.1.5 藉助回歸模型進行預測 90
6.2 多元線性回歸分析 90
6.2.1 估計模型係數,求解回歸模型 91
6.2.2 對模型參數進行檢驗,確認模型有效性 92
6.2.3 擬合優度檢驗,判斷模型解釋能力 94
6.2.4 模型的變數選擇 95
6.3 使用線性回歸分析的注意事項 97
6.4 案例:使用回歸分析研究影響房屋價格的重要因素 98
第 7 章 回歸豈止這么簡單:回歸模型的進一步擴展 102
7.1 曲線回歸 103
7.2 Logistic 回歸 110
7.2.1 Logistic 回歸理論 110
7.2.2 案例:使用 Logistic 回歸模型分析個人收入水平影響因素 112
第 8 章 模型評估那些事兒:過擬合與欠擬合 117
8.1 過擬合與欠擬合 118
8.2 留出法與交叉驗證 122
8.2.1 留出法與分層抽樣 122
8.2.2 交叉驗證 124
第 9 章 從看電影的思考到決策樹的生成 126
9.1 決策樹概述 127
9.2 決策樹生成 129
9.2.1 從 ID3 算法到 C5.0 算法 131
9.2.2 CART 算法 134
9.3 決策樹的剪枝 136
9.3.1 預剪枝策略 137
9.3.2 後剪枝策略 137
9.3.3 代價敏感學習 138
9.4 案例:用決策樹分析客戶違約情況 140
9.5 關於信息熵的擴展 147
第 10 章 人工神經網路:從人腦神經元開始 151
10.1 從人腦神經元到人工神經網路 152
10.2 感知機 154
10.3 人工神經網路 159
10.3.1 隱藏層的作用 159
10.3.2 人工神經網路算法 160
10.4 案例:利用人工神經網路分析某電信運營商的客戶流失情況 164
第 11 章 物以類聚,人以群分:聚類分析 172
11.1 聚類思想的概述 173
11.2 聚類方法的關鍵:距離 175
11.3 K-Means 算法 176
11.3.1 K-Means 算法原理 176
11.3.2 輪廓係數(Silhouette coefficient) 177
11.4 案例:利用 K-Means 算法對不同型號汽車的屬性進行聚類分群研究 179
第 12 章 啤酒+尿布=關聯分析? 186
12.1 一個關於關聯分析的傳說 187
12.2 關聯分析的基本概念 188
12.3 關聯規則的有效性指標 190
12.4 Apriori 算法 192
12.4.1 生成頻繁項集 193
12.4.2 生成關聯規則 195
12.5 案例:利用 Apriori 算法對顧客的個人信息及購買記錄進行關聯分析 195
第 13 章 三個臭皮匠,賽過諸葛亮:集成學習算法 199
13.1 集成學習算法概述 200
13.2 3 種不同的集成學習算法 201
13.2.1 Bagging 算法 201
13.2.2 Boosting 算法 203
13.2.3 隨機森林 204
13.3 集成學習算法實踐 205
13.3.1 Bagging 算法和 Boosting 算法 205
13.3.2 隨機森林 211
13.3.3 集成學習算法結果比較 214