Python大數據與機器學習實戰:內容簡介,圖書目錄,作者簡介,

內容簡介

《Python大數據與機器學習實戰》講解13個基礎算法和7類統計學方法。囊括6大綜合實例，每個實例針對一種典型的問題

圖書目錄

第1章 Python大數據開發入門 1

1.1 大數據工程師必備技能 1

1.2 Python開發環境 5

1.2.1 Windows環境 5

1.2.2 Linux環境 7

1.2.3 Docker環境 10

1.3 Python開發工具 16

1.3.1 Python命令行環境 16

1.3.2 Jupyter環境 18

1.4 Python數據類型 23

1.4.1 數值 24

1.4.2 字元串 24

1.4.3 列表 25

1.4.4 元組 26

1.4.5 集合 26

1.4.6 字典 27

1.5 Python函式和類 27

1.5.1 定義和使用函式 28

1.5.2 lambda匿名函式 28

1.5.3 類和繼承 28

1.6 Python常用庫 29

1.6.1 Python內置庫 29

1.6.2 Python圖形圖像處理 30

1.6.3 Python自然語言處理 31

1.6.4 Python數據分析和處理 32

1.6.5 Python機器學習 33

1.7 Python技巧 34

1.7.1 Python程式調試 34

1.7.2 去掉警告信息 35

1.7.3 製作和導入模組 36

1.7.4 異常處理 37

1.8 Python常見問題 38

第2章科學計算Numpy 40

2.1 多維數組 40

2.1.1 創建數組 40

2.1.2 訪問數組 42

2.1.3 修改數組 43

2.2 數組元素運算 44

2.2.1 一元函式 44

2.2.2 二元函式 45

2.2.3 廣播 46

2.2.4 自定義ufunc函式 47

2.3 常用函式 48

2.3.1 分段函式 48

2.3.2 統計函式 49

2.3.3 組合與分割 51

2.3.4 矩陣與二維數組 52

2.3.5 其他常用函式 54

第3章數據操作Pandas 55

3.1 數據對象 55

3.1.1 Series對象 55

3.1.2 DataFrame對象 57

3.1.3 Index對象 60

3.2 數據存取 63

3.2.1 訪問數據表元素 63

3.2.2 修改數據表元素 66

3.3 分組運算 68

3.3.1 分組 69

3.3.2 聚合 70

3.3.3 轉換 71

3.3.4 過濾 72

3.3.5 套用 72

3.4 日期時間處理 73

3.4.1 Python日期時間處理 73

3.4.2 Pandas日期時間處理 75

3.4.3 時間序列操作 76

3.4.4 數據重排 84

第4章數據可視化 86

4.1 Matplotlib繪圖庫 87

4.1.1 準備工作 87

4.1.2 散點圖與氣泡圖 88

4.1.3 線圖 90

4.1.4 柱圖 92

4.1.5 餅圖 95

4.1.6 箱線圖和小提琴圖 96

4.1.7 三維圖 97

4.1.8 Matplotlib繪圖區域 100

4.1.9 文字顯示問題 103

4.1.10 導出圖表 104

4.1.11 Matplotlib技巧 105

4.2 Seaborn高級數據可視化 107

4.2.1 準備工作 107

4.2.2 連續變數相關圖 108

4.2.3 分類變數圖 109

4.2.4 回歸圖 113

4.2.5 多圖組合 115

4.2.6 熱力圖 118

4.2.7 印刷品作圖 119

4.3 PyEcharts互動圖 119

4.3.1 ECharts 119

4.3.2 準備工作 120

4.3.3 繪製互動圖 120

4.3.4 在網頁中顯示圖 123

第5章獲取數據 125

5.1 讀寫檔案 126

5.1.1 讀寫文本檔案 126

5.1.2 寫日誌檔案 127

5.1.3 讀寫XML檔案 128

5.1.4 讀寫Json檔案 130

5.1.5 讀寫CSV檔案 131

5.1.6 讀寫PKL檔案 132

5.1.7 讀寫HDF5檔案 133

5.1.8 讀寫Excel檔案 134

5.2 讀寫資料庫 135

5.2.1 資料庫基本操作 136

5.2.2 Python存取MySQL資料庫 138

5.2.3 Python存取SQL Server資料庫 140

5.2.4 Python存取Sqlite資料庫 143

5.2.5 Python存取Dbase資料庫 143

5.3 讀寫數據倉庫 144

5.3.1 讀取ElasticSearch數據 144

5.3.2 讀取S3雲存儲數據 146

5.3.3 讀取Hive數據 148

5.4 獲取網路數據 151

5.4.1 從網路接口讀取數據 151

5.4.2 抓取網站數據 152

5.4.3 使用POST方法抓取數據 153

5.4.4 轉換HTML檔案 153

5.5 選擇數據存儲方式 154

第6章數據預處理 155

6.1 數據類型識別與轉換 155

6.1.1 基本類型轉換 156

6.1.2 數據類型識別 157

6.2 數據清洗 158

6.2.1 缺失值處理 158

6.2.2 異常值處理 160

6.2.3 去重處理 162

6.3 數據歸約 163

6.3.1 經驗篩選特徵 163

6.3.2 統計學方法篩選特徵 163

6.3.3 模型篩選特徵 164

6.3.4 數學方法降維 165

6.4 數據抽樣 166

6.4.1 簡單隨機抽樣 167

6.4.2 系統抽樣 168

6.4.3 分層抽樣 168

6.4.4 整群抽樣 168

6.5 數據組合 169

6.5.1 merge函式 169

6.5.2 concat函式 170

6.6 特徵提取 171

6.6.1 數值型特徵 171

6.6.2 分類型特徵 171

6.6.3 字元型特徵 172

第7章數據分析 175

7.1 入門實例 175

7.2 假設檢驗 177

7.2.1 基本概念 177

7.2.2 假設檢驗的步驟 178

7.2.3 統計分析工具 178

7.3 參數檢驗與非參數檢驗 179

7.3.1 正態性檢驗 179

7.3.2 方差齊性檢驗 181

7.3.3 分析檢驗結果 182

7.4 T檢驗 182

7.4.1 單樣本T檢驗 182

7.4.2 獨立樣本T檢驗 183

7.4.3 配對樣本T檢驗 183

7.5 方差分析 184

7.6 秩和檢驗 185

7.7 卡方檢驗 186

7.8 相關性分析 187

7.8.1 圖形描述相關性 188

7.8.2 正態資料的相關分析 189

7.8.3 非正態資料的相關分析 190

7.9 變數分析 190

7.9.1 單變數分析 190

7.9.2 多變數分析 191

7.10 TableOne工具 193

7.11 統計方法總結 194

第8章機器學習基礎知識 196

8.1 基本概念 196

8.1.1 深度學習、機器學習、人工智慧 197

8.1.2 有監督學習、無監督學習、半監督學習 197

8.1.3 訓練集、驗證集、測試集 198

8.1.4 過擬合與欠擬合 198

8.1.5 常用術語 199

8.2 評價模型 199

8.2.1 方差、協方差、協方差矩陣 200

8.2.2 距離與範數 204

8.2.3 回歸效果評估 207

8.2.4 分類效果評估 210

第9章機器學習模型與工具 216

9.1 基於距離的算法 217

9.1.1 K近鄰算法 217

9.1.2 聚類算法 219

9.2 線性回歸與邏輯回歸 221

9.2.1 線性回歸 222

9.2.2 邏輯回歸 225

9.3 支持向量機 226

9.4 信息熵和決策樹 230

9.4.1 信息量和熵 231

9.4.2 決策樹 234

9.5 關聯規則 236

9.5.1 Apriori關聯規則 237

9.5.2 FP-Growth關聯分析 240

9.6 貝葉斯模型 242

9.6.1 貝葉斯公式 242

9.6.2 樸素貝葉斯算法 244

9.6.3 貝葉斯網路 248

9.7 隱馬爾可夫模型 250

9.8 集成算法 254

第10章模型選擇與相關技術 259

10.1 數據準備與模型選擇 259

10.1.1 預處理 259

10.1.2 選擇模型 260

10.2 自動機器學習框架 263

10.2.1 框架原理 263

10.2.2 Auto-Sklearn 264

10.2.3 Auto-ML 266

10.2.4 Auto-Keras 267

10.3 自然語言處理 269

10.3.1 分詞工具 269

10.3.2 TF-IDF 271

10.4 建模相關技術 274

10.4.1 切分數據集與交叉驗證 274

10.4.2 模型調參 276

10.4.3 學習曲線和驗證曲線 279

10.4.4 保存模型 282

第11章大數據競賽平台 283

11.1 定義問題 283

11.1.1 強人工智慧與弱人工智慧 284

11.1.2 Datathon競賽 285

11.2 算法競賽 286

11.2.1 大數據競賽平台優勢 287

11.2.2 Kaggle大數據平台 288

11.2.3 實戰鐵達尼號倖存問題 288

11.2.4 國內大數據平台 294

11.2.5 賽題選擇 294

11.2.6 比賽注意事項 295

第12章決策問題：幸福感挖掘 296

12.1 賽題解讀 296

12.2 模型初探 297

12.3 模型調優 299

12.3.1 模型粗調 299

12.3.2 模型精調 300

12.4 模型輸出 305

12.4.1 顯示決策樹 305

12.4.2 特徵重要性 306

12.5 XGBoost模型 307

12.5.1 XGBoost參數分析 307

12.5.2 XGBoost原理解析 308

12.5.3 XGBoost源碼分析 312

第13章遷移學習：貓狗圖片分類 317

13.1 深度學習神經網路 317

13.1.1 深度學習 318

13.1.2 卷積神經網路 319

13.1.3 卷積神經網路發展史 321

13.2 使用現有的神經網路模型 321

13.3 遷移學習 322

13.4 解決貓狗分類問題 323

13.4.1 數據及代碼結構 323

13.4.2 提取特徵 324

13.4.3 訓練模型和預測 325

13.4.4 訓練結果分析 326

13.4.5 代碼下載 327

第14章圖像分割：識別圖中物體 328

14.1 Mask R-CNN算法 329

14.1.1 R-CNN 329

14.1.2 SPP Net 330

14.1.3 Fast R-CNN 330

14.1.4 Faster R-CNN 331

14.1.5 Mask R-CNN 332

14.2 Mask R-CNN源碼解析 332

14.2.1 安裝工具 332

14.2.2 源碼結構 333

14.3 訓練模型與預測 334

14.3.1 製作訓練數據 335

14.3.2 訓練模型和預測 338

14.3.3 建模相關問題 344

第15章時間序列分析 346

15.1 時序問題處理流程 346

15.1.1 分析問題 346

15.1.2 解決思路 347

15.2 趨勢分析工具ARIMA 349

15.2.1 相關概念 349

15.2.2 模型示例 353

15.3 傅立葉和小波變換 357

15.3.1 傅立葉變換 358

15.3.2 小波變換 360

15.4 Prophet時序模型 361

15.4.1 模型介紹 362

15.4.2 獲取數據 362

15.4.3 模型示例 363

第16章自然語言處理：微博互動預測 367

16.1 賽題分析 367

16.1.1 數據分析 368

16.1.2 評價函式 369

16.1.3 目標變數分布 370

16.1.4 發博用戶統計 371

16.1.5 特殊用戶分析 371

16.1.6 整體分析 372

16.2 中文分析 372

16.2.1 正則表達式 373

16.2.2 自動提取關鍵字 376

作者簡介

謝彥，從事軟體開發和算法研發十餘年，曾就職於聯想研究院、元心科技等公司。參與研發機頂盒、上網本、智慧型手機作業系統，工作涉及上層套用、集群構建、圖形底層優、語音合成與識別、數據挖掘、深度學習算法等。帶領團隊經驗豐富，擅長團隊內部人才培訓。

個人開發的套用“天琴語音閱讀器”用戶數達百萬量級，近兩年撰寫數據挖掘和機器學習文章百餘篇，CSDN閱讀量100多萬人次。現就職於和興創聯健康科技有限公司，專注於醫療大數據套用研發。作者的公眾號：算法學習分享。

Python大數據與機器學習實戰

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條