大數據分析實用教程——基於Python實現

內容簡介

本書對大數據分析的原理與Python程式榜婆求實現進行了系統的介紹，每種算法都採用sklearn和Matplotlib分別進行程式實現及數據可視化。本書共8章，內容包括大數據分析概述、Python數據分析與可視化基礎、關聯規則與推薦算法、聚類算法及其套用、分類算法及其套用、回歸與邏輯回歸、人工神經網路、支持向量機等。本書在理論上突出可讀性，在實紙牛兆踐上強調可操作性，實踐案例豐富，實用性強。隨書提供微課視頻（正文對應處掃碼可觀看）、教學課件、習題答案、教學大綱等教學資源。本書可作為高等院校相關專業大數據分析或大數據概論等課程的教材。也可供從事大數據分析、機器學習的人員作為參考書。

圖書目錄

第1章大數據分析概述1

1.1 大數據概述1

1.1.1 大數據的定義和特徵1

1.1.2 大數據處理的過程2

1.1.3 大數據的職業崗位4

1.2 雲計算—大數據的處理架構4

1.2.1 雲計算的定義和特點4

1.2.2 雲計算的體系結構6

1.2.3 雲計算的分類7

1.2.4 虛擬化技術9

1.3 Hadoop大數據處理平台11

1.3.1 Hadoop的發展歷史及版本11

1.3.2 HDFS的組成13

1.3.3 HDFS讀取和寫入檔案15

1.3.4 MapReduce並行編程框架16

1.3.5 YARN資源管理器19

1.3.6 Hadoop生態系統及其安裝22

1.4 NoSQL資料庫24

1.5 大數據分析技術26

1.5.1 大數據分析的方法26

1.5.2 大數據分析的種提廈類27

1.5.3 大數據分析的層次28

1.5.4 大數據分析的工具29

1.5.5 大數據分析面臨的挑戰29

1.5.6 大數據分析的數據類型30

習題與實驗31

第2章 Python數據分析與可視化基礎34

2.1 Python程式入門34

2.1.1 一些簡單的Python程式34

2.1.2 序列數據結構36

2.1.3 序列處理函式37

2.1.4 函式和類38

2.2 Python數據分析工具41

2.2.1 Anaconda的使用41

2.2.2 Spyder集成開發環境42

2.2.3 numpy庫42

2.3 數據可視化—基於Matplotlib庫45

2.3.1 繪製曲線圖46

2.3.2 繪製散點圖等其他圖形50

2.4 SciPy庫54

2.5 sklearn庫56

2.5.1 機器學習的概念和方法56

2.5.2 樣本及樣本的劃分58

2.5.3 導入或創建數據集62

2.5.4 數據預處理65

2.5.5 數據的降維68

2.5.6 調用機器學習模型70

習題與實驗71

第3章關聯規則與推薦算法73

3.1 關聯規則挖掘73

3.1.1 基本概念73

3.1.2 Apriori算法75

3.1.3 Apriori算法的程式實現79

3.1.4 FP-Growth算法80

3.2 推薦系統及算法83

3.2.1 協同過濾推薦算法84

3.2.2 協同過濾推薦算法套用實例86

3.2.3 推薦算法的MapReduce實現89

3.2.4 協同過濾算法的sklearn實現91

習題與實驗94

第4章聚類算法及其套用96

4.1 聚類的原理與實現96

4.1.1 聚類的概念影探陵察和類型96

4.1.2 如何度量距離96

4.1.3 聚類的基本步驟99

4.2 層次聚類算法103

4.2.1 層次聚類法舉例103

4.2.2 層次聚類法sklearn實現104

4.3 K-means聚類算法108

4.3.1 K-means聚類算法原理和實例108

4.3.2 K-means聚類算法的sklearn

實現114

4.4 K-medoids聚類兵贈慨算法115

4.4.1 K-medoids聚類算法原理和實例115

4.4.2 K-medoids聚類算法的sklearn

實現120

4.5 DBSCAN聚類算法121

4.5.1 DBSCAN聚類算法原理和實例121

4.5.2 DBSCAN聚類算法的sklearn

實現125

習題與實驗126

第5章遷主促分類算法及其套用128

5.1 分類的基本原理128

5.1.1 分類與殃宙戲境聚類的區別128

5.1.2 分類的步驟129

5.1.3 分類模型預測結果的評估131

5.1.4 sklearn庫的常用分類算法132

5.2 K-近鄰分類算法133

5.2.1 K-近鄰分類算法原理和實例133

5.2.2 sklearn中分類模型的編程步驟136

5.2.3 K-近鄰分類算法的sklearn實現138

5.2.4 繪製分類邊界圖139

5.2.5 確定最優的k值141

5.3 樸素貝葉斯分類算法142

5.3.1 樸素貝葉斯原理與實例143

5.3.2 樸素貝葉斯分類的常見問題146

5.3.3 樸素貝葉斯分類算法的sklearn

實現147

5.4 決策樹分類算法149

5.4.1 資訊理論基礎150

5.4.2 ID3算法153

5.4.3 C4.5算法157

5.4.4 CART算法160

5.4.5 決策樹分類算法的sklearn程式

實現162

5.5 隨機森林分類算法163

5.5.1 集成學習理論163

5.5.2 隨機森林分類的理論與實例165

5.5.3 隨機森林分類算法的sklearn

實現169

習題與實驗172

第6章回歸與邏輯回歸174

6.1 線性回歸174

6.1.1 相關與回歸174

6.1.2 線性回歸分析175

6.1.3 線性回歸方程參數的求法177

6.1.4 線性回歸模型的sklearn實現181

6.2 邏輯回歸185

6.2.1 線性分類模型的原理185

6.2.2 邏輯回歸模型及實例187

6.2.3 邏輯回歸模型的sklearn實現190

習題與實驗195

第7章人工神經網路196

7.1 神經元與感知機196

7.1.1 人工神經元與邏輯回歸模型197

7.1.2 感知機模型197

7.1.3 感知機模型的Python實現199

7.1.4 多層感知機模型201

7.2 人工神經網路的核心要素203

7.2.1 神經元的激活函式203

7.2.2 損失函式205

7.2.3 網路結構206

7.2.4 反向傳播207

7.2.5 人工神經網路的sklearn實現209

7.3 深度學習與深度神經網路213

7.3.1 深度學習的概念和原理213

7.3.2 TensorFlow概述214

7.3.3 卷積神經網路215

習題與實驗217

第8章支持向量機219

8.1 支持向量機的理論基礎219

8.1.1 支持向量的超平面220

8.1.2 支持向量機間隔及損失函式221

8.1.3 非線性支持向量機與核函式226

8.1.4 支持向量機分類的步驟227

8.2 支持向量機的sklearn實現228

8.2.1 繪製決策邊界229

8.2.2 繪製支持向量機的分類界面230

8.2.3 支持向量機參數對性能的影響231

習題與實驗236

參考文獻238

大數據分析實用教程——基於Python實現

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條