Python大數據與機器學習實戰

Python大數據與機器學習實戰

《Python大數據與機器學習實戰》結合作者十餘年軟體開發、系統架構、算法實戰及培訓經驗,致力於系統地闡釋Python大數據和機器學習技術。

基本介紹

  • 中文名:Python大數據與機器學習實戰
  • 作者:謝彥
  • 出版時間:2020年4月
  • 出版社:電子工業出版社 
  • 頁數:392 頁
  • ISBN:9787121384257
  • 類別:計算機
  • 定價:119 元
  • 開本:16 開
內容簡介,圖書目錄,作者簡介,

內容簡介

《Python大數據與機器學習實戰》講解13個基礎算法和7類統計學戰勸海方法。囊括6大綜合實例,每個實例針對一種典型的問題

圖書目錄

第1章 Python大數據開發入門 1
1.1 大數據工程師必備技能 1
1.2 Python開發環境 5
1.2.1 Windows環境 5
1.2.2 Linux環境 7
1.2.3 Docker環境 10
1.3 Python開發坑灑乎恥工具 16
1.3.1 Python命令行環境 16
1.3.2 Jupyter環境 18
1.4 Python數據類型 23
1.4.1 數值 24
1.4.2 字元串 24
1.4.3 列表 25
1.4.4 元組 26
1.4.5 集合 26
1.4.6 字典 27
1.5 Python函式和類 27
1.5.1 定義雄懂和使用函式 28
1.5.2 lambda匿名函式 28
1.5.3 類和繼承 28
1.6 Python常用庫 29
1.6.1 Python內置庫 29
1.6.2 Python圖形圖像處理 30
1.6.3 Python自然語言處理 31
1.6.4 Python數據分析和處理 32
1.6.5 Python機器學習 33
1.7 Python技巧 34
1.7.1 Python程式調試 34
1.7.2 去掉警告信息 35
1.7.3 製作和導入模組 36
1.7.4 異常處理 37
1.8 Python常見問題 38
第2章 科學計算Numpy 40
2.1 多維數組 40
2.1.1 創建數組 40
2.1.2 訪問數組 42
2.1.3 修改數組 43
2.2 數組元素運算霉炒背 44
2.2.1 一元函阿抹連謎數 44
2.2.2 二元函式 45
2.2.3 廣播 46
2.2.4 自定義ufunc函式 47
2.3 常用函式 48
2.3.1 分段函式 48
2.3.2 統計函式 49
2.3.3 組合與分割 51
2.3.4 矩陣與二維數組 52
2.3.5 其他常用函式 54
第3章 數據操作Pandas 55
3.1 數據對象 55
3.1.1 Series對象 55
3.1.2 DataFrame對象 57
3.1.3 Index對象 60
3.2 數據存取 63
3.2.1 訪問數據表元素 63
3.2.2 修改數據表元素 66
3.3 分組運算 68
3.3.1 分組 69
3.3.2 聚合 70
3.3.3 轉換 71
3.3.4 過濾 72
3.3.5 套用 72
3.4 日期時間處理 73
3.4.1 Python日期時間處理 73
3.4.2 Pandas日期鑽和贈時間處理 75
3.4.3 時間序列操作 76
3.4.4 數據重排 84
第4章 數據可視化 86
4.1 Matplotlib繪圖庫 87
4.1.1 準備工作 87
4.1.2 散點圖與氣泡圖 88
4.1.3 線圖 90
4.1.4 柱圖 92
4.1.5 餅圖 95
4.1.6 箱線圖和小提琴圖 96
4.1.7 三維圖 97
4.1.8 Matplotlib繪圖區域 100
4.1.9 文字顯道乘邀示問題 103
4.1.10 導出圖表 104
4.1.11 Matplotlib技巧 105
4.2 Seaborn高級數據可視化 107
4.2.1 準備工作 107
4.2.2 連續變數相關圖 108
4.2.3 分類變數圖 109
4.2.4 回歸圖 113
4.2.5 多圖組合 115
4.2.6 熱力圖 118
4.2.7 印刷品作圖 119
4.3 PyEcharts互動圖 119
4.3.1 ECharts 119
4.3.2 準備工作 120
4.3.3 繪製互動圖 120
4.3.4 在網頁中顯示圖 123
第5章 獲取數據 125
5.1 讀寫檔案 126
5.1.1 讀寫文本檔案 126
5.1.2 寫日誌檔案 127
5.1.3 讀寫XML檔案 128
5.1.4 讀寫Json檔案 130
5.1.5 讀寫CSV檔案 131
5.1.6 讀寫PKL檔案 132
5.1.7 讀寫HDF5檔案 133
5.1.8 讀寫Excel檔案 134
5.2 讀寫資料庫 135
5.2.1 資料庫基本操作 136
5.2.2 Python存取MySQL資料庫 138
5.2.3 Python存取SQL Server資料庫 140
5.2.4 Python存取Sqlite資料庫 143
5.2.5 Python存取Dbase資料庫 143
5.3 讀寫數據倉庫 144
5.3.1 讀取ElasticSearch數據 144
5.3.2 讀取S3雲存儲數據 146
5.3.3 讀取Hive數據 148
5.4 獲取網路數據 151
5.4.1 從網路接口讀取數據 151
5.4.2 抓取網站數據 152
5.4.3 使用POST方法抓取數據 153
5.4.4 轉換HTML檔案 153
5.5 選擇數據存儲方式 154
第6章 數據預處理 155
6.1 數據類型識別與轉換 155
6.1.1 基本類型轉換 156
6.1.2 數據類型識別 157
6.2 數據清洗 158
6.2.1 缺失值處理 158
6.2.2 異常值處理 160
6.2.3 去重處理 162
6.3 數據歸約 163
6.3.1 經驗篩選特徵 163
6.3.2 統計學方法篩選特徵 163
6.3.3 模型篩選特徵 164
6.3.4 數學方法降維 165
6.4 數據抽樣 166
6.4.1 簡單隨機抽樣 167
6.4.2 系統抽樣 168
6.4.3 分層抽樣 168
6.4.4 整群抽樣 168
6.5 數據組合 169
6.5.1 merge函式 169
6.5.2 concat函式 170
6.6 特徵提取 171
6.6.1 數值型特徵 171
6.6.2 分類型特徵 171
6.6.3 字元型特徵 172
第7章 數據分析 175
7.1 入門實例 175
7.2 假設檢驗 177
7.2.1 基本概念 177
7.2.2 假設檢驗的步驟 178
7.2.3 統計分析工具 178
7.3 參數檢驗與非參數檢驗 179
7.3.1 正態性檢驗 179
7.3.2 方差齊性檢驗 181
7.3.3 分析檢驗結果 182
7.4 T檢驗 182
7.4.1 單樣本T檢驗 182
7.4.2 獨立樣本T檢驗 183
7.4.3 配對樣本T檢驗 183
7.5 方差分析 184
7.6 秩和檢驗 185
7.7 卡方檢驗 186
7.8 相關性分析 187
7.8.1 圖形描述相關性 188
7.8.2 正態資料的相關分析 189
7.8.3 非正態資料的相關分析 190
7.9 變數分析 190
7.9.1 單變數分析 190
7.9.2 多變數分析 191
7.10 TableOne工具 193
7.11 統計方法總結194
第8章 機器學習基礎知識 196
8.1 基本概念 196
8.1.1 深度學習、機器學習、人工智慧 197
8.1.2 有監督學習、無監督學習、半監督學習 197
8.1.3 訓練集、驗證集、測試集 198
8.1.4 過擬合與欠擬合 198
8.1.5 常用術語 199
8.2 評價模型 199
8.2.1 方差、協方差、協方差矩陣 200
8.2.2 距離與範數 204
8.2.3 回歸效果評估 207
8.2.4 分類效果評估 210
第9章 機器學習模型與工具 216
9.1 基於距離的算法 217
9.1.1 K近鄰算法 217
9.1.2 聚類算法 219
9.2 線性回歸與邏輯回歸 221
9.2.1 線性回歸 222
9.2.2 邏輯回歸 225
9.3 支持向量機 226
9.4 信息熵和決策樹 230
9.4.1 信息量和熵 231
9.4.2 決策樹 234
9.5 關聯規則 236
9.5.1 Apriori關聯規則 237
9.5.2 FP-Growth關聯分析 240
9.6 貝葉斯模型 242
9.6.1 貝葉斯公式 242
9.6.2 樸素貝葉斯算法 244
9.6.3 貝葉斯網路 248
9.7 隱馬爾可夫模型 250
9.8 集成算法 254
第10章 模型選擇與相關技術 259
10.1 數據準備與模型選擇 259
10.1.1 預處理259
10.1.2 選擇模型 260
10.2 自動機器學習框架 263
10.2.1 框架原理 263
10.2.2 Auto-Sklearn 264
10.2.3 Auto-ML 266
10.2.4 Auto-Keras 267
10.3 自然語言處理 269
10.3.1 分詞工具 269
10.3.2 TF-IDF271
10.4 建模相關技術 274
10.4.1 切分數據集與交叉驗證 274
10.4.2 模型調參 276
10.4.3 學習曲線和驗證曲線279
10.4.4 保存模型 282
第11章 大數據競賽平台 283
11.1 定義問題283
11.1.1 強人工智慧與弱人工智慧284
11.1.2 Datathon競賽 285
11.2 算法競賽286
11.2.1 大數據競賽平台優勢287
11.2.2 Kaggle大數據平台 288
11.2.3 實戰鐵達尼號倖存問題288
11.2.4 國內大數據平台294
11.2.5 賽題選擇 294
11.2.6 比賽注意事項 295
第12章 決策問題:幸福感挖掘 296
12.1 賽題解讀 296
12.2 模型初探 297
12.3 模型調優 299
12.3.1 模型粗調 299
12.3.2 模型精調 300
12.4 模型輸出 305
12.4.1 顯示決策樹305
12.4.2 特徵重要性306
12.5 XGBoost模型307
12.5.1 XGBoost參數分析 307
12.5.2 XGBoost原理解析 308
12.5.3 XGBoost源碼分析 312
第13章 遷移學習:貓狗圖片分類 317
13.1 深度學習神經網路 317
13.1.1 深度學習 318
13.1.2 卷積神經網路 319
13.1.3 卷積神經網路發展史321
13.2 使用現有的神經網路模型 321
13.3 遷移學習 322
13.4 解決貓狗分類問題 323
13.4.1 數據及代碼結構323
13.4.2 提取特徵 324
13.4.3 訓練模型和預測325
13.4.4 訓練結果分析 326
13.4.5 代碼下載 327
第14章 圖像分割:識別圖中物體 328
14.1 Mask R-CNN算法329
14.1.1 R-CNN329
14.1.2 SPP Net 330
14.1.3 Fast R-CNN330
14.1.4 Faster R-CNN 331
14.1.5 Mask R-CNN 332
14.2 Mask R-CNN源碼解析332
14.2.1 安裝工具 332
14.2.2 源碼結構 333
14.3 訓練模型與預測 334
14.3.1 製作訓練數據 335
14.3.2 訓練模型和預測338
14.3.3 建模相關問題 344
第15章 時間序列分析 346
15.1 時序問題處理流程 346
15.1.1 分析問題 346
15.1.2 解決思路 347
15.2 趨勢分析工具ARIMA 349
15.2.1 相關概念 349
15.2.2 模型示例 353
15.3 傅立葉和小波變換 357
15.3.1 傅立葉變換358
15.3.2 小波變換 360
15.4 Prophet時序模型 361
15.4.1 模型介紹 362
15.4.2 獲取數據 362
15.4.3 模型示例 363
第16章 自然語言處理:微博互動預測 367
16.1 賽題分析 367
16.1.1 數據分析 368
16.1.2 評價函式 369
16.1.3 目標變數分布 370
16.1.4 發博用戶統計 371
16.1.5 特殊用戶分析 371
16.1.6 整體分析 372
16.2 中文分析 372
16.2.1 正則表達式373
16.2.2 自動提取關鍵字376

作者簡介

謝彥,從事軟體開發和算法研發十餘年,曾就職於聯想研究院、元心科技等公司。參與研發機頂盒、上網本、智慧型手機作業系統,工作涉及上層套用、集群構建、圖形底層優、語音合成與識別、數據挖掘、深度學習算法等。帶領團隊經驗豐富,擅長團隊內部人才培訓。
個人開發的套用“天琴語音閱讀器”用戶數達百萬量級,近兩年撰寫數據挖掘和機器學習文章百餘篇,CSDN閱讀量100多萬人次。現就職於和興創聯健康科技有限公司,專注於醫療大數據套用研發。作者的公眾號:算法學習分享。
2.3.4 矩陣與二維數組 52
2.3.5 其他常用函式 54
第3章 數據操作Pandas 55
3.1 數據對象 55
3.1.1 Series對象 55
3.1.2 DataFrame對象 57
3.1.3 Index對象 60
3.2 數據存取 63
3.2.1 訪問數據表元素 63
3.2.2 修改數據表元素 66
3.3 分組運算 68
3.3.1 分組 69
3.3.2 聚合 70
3.3.3 轉換 71
3.3.4 過濾 72
3.3.5 套用 72
3.4 日期時間處理 73
3.4.1 Python日期時間處理 73
3.4.2 Pandas日期時間處理 75
3.4.3 時間序列操作 76
3.4.4 數據重排 84
第4章 數據可視化 86
4.1 Matplotlib繪圖庫 87
4.1.1 準備工作 87
4.1.2 散點圖與氣泡圖 88
4.1.3 線圖 90
4.1.4 柱圖 92
4.1.5 餅圖 95
4.1.6 箱線圖和小提琴圖 96
4.1.7 三維圖 97
4.1.8 Matplotlib繪圖區域 100
4.1.9 文字顯示問題 103
4.1.10 導出圖表 104
4.1.11 Matplotlib技巧 105
4.2 Seaborn高級數據可視化 107
4.2.1 準備工作 107
4.2.2 連續變數相關圖 108
4.2.3 分類變數圖 109
4.2.4 回歸圖 113
4.2.5 多圖組合 115
4.2.6 熱力圖 118
4.2.7 印刷品作圖 119
4.3 PyEcharts互動圖 119
4.3.1 ECharts 119
4.3.2 準備工作 120
4.3.3 繪製互動圖 120
4.3.4 在網頁中顯示圖 123
第5章 獲取數據 125
5.1 讀寫檔案 126
5.1.1 讀寫文本檔案 126
5.1.2 寫日誌檔案 127
5.1.3 讀寫XML檔案 128
5.1.4 讀寫Json檔案 130
5.1.5 讀寫CSV檔案 131
5.1.6 讀寫PKL檔案 132
5.1.7 讀寫HDF5檔案 133
5.1.8 讀寫Excel檔案 134
5.2 讀寫資料庫 135
5.2.1 資料庫基本操作 136
5.2.2 Python存取MySQL資料庫 138
5.2.3 Python存取SQL Server資料庫 140
5.2.4 Python存取Sqlite資料庫 143
5.2.5 Python存取Dbase資料庫 143
5.3 讀寫數據倉庫 144
5.3.1 讀取ElasticSearch數據 144
5.3.2 讀取S3雲存儲數據 146
5.3.3 讀取Hive數據 148
5.4 獲取網路數據 151
5.4.1 從網路接口讀取數據 151
5.4.2 抓取網站數據 152
5.4.3 使用POST方法抓取數據 153
5.4.4 轉換HTML檔案 153
5.5 選擇數據存儲方式 154
第6章 數據預處理 155
6.1 數據類型識別與轉換 155
6.1.1 基本類型轉換 156
6.1.2 數據類型識別 157
6.2 數據清洗 158
6.2.1 缺失值處理 158
6.2.2 異常值處理 160
6.2.3 去重處理 162
6.3 數據歸約 163
6.3.1 經驗篩選特徵 163
6.3.2 統計學方法篩選特徵 163
6.3.3 模型篩選特徵 164
6.3.4 數學方法降維 165
6.4 數據抽樣 166
6.4.1 簡單隨機抽樣 167
6.4.2 系統抽樣 168
6.4.3 分層抽樣 168
6.4.4 整群抽樣 168
6.5 數據組合 169
6.5.1 merge函式 169
6.5.2 concat函式 170
6.6 特徵提取 171
6.6.1 數值型特徵 171
6.6.2 分類型特徵 171
6.6.3 字元型特徵 172
第7章 數據分析 175
7.1 入門實例 175
7.2 假設檢驗 177
7.2.1 基本概念 177
7.2.2 假設檢驗的步驟 178
7.2.3 統計分析工具 178
7.3 參數檢驗與非參數檢驗 179
7.3.1 正態性檢驗 179
7.3.2 方差齊性檢驗 181
7.3.3 分析檢驗結果 182
7.4 T檢驗 182
7.4.1 單樣本T檢驗 182
7.4.2 獨立樣本T檢驗 183
7.4.3 配對樣本T檢驗 183
7.5 方差分析 184
7.6 秩和檢驗 185
7.7 卡方檢驗 186
7.8 相關性分析 187
7.8.1 圖形描述相關性 188
7.8.2 正態資料的相關分析 189
7.8.3 非正態資料的相關分析 190
7.9 變數分析 190
7.9.1 單變數分析 190
7.9.2 多變數分析 191
7.10 TableOne工具 193
7.11 統計方法總結194
第8章 機器學習基礎知識 196
8.1 基本概念 196
8.1.1 深度學習、機器學習、人工智慧 197
8.1.2 有監督學習、無監督學習、半監督學習 197
8.1.3 訓練集、驗證集、測試集 198
8.1.4 過擬合與欠擬合 198
8.1.5 常用術語 199
8.2 評價模型 199
8.2.1 方差、協方差、協方差矩陣 200
8.2.2 距離與範數 204
8.2.3 回歸效果評估 207
8.2.4 分類效果評估 210
第9章 機器學習模型與工具 216
9.1 基於距離的算法 217
9.1.1 K近鄰算法 217
9.1.2 聚類算法 219
9.2 線性回歸與邏輯回歸 221
9.2.1 線性回歸 222
9.2.2 邏輯回歸 225
9.3 支持向量機 226
9.4 信息熵和決策樹 230
9.4.1 信息量和熵 231
9.4.2 決策樹 234
9.5 關聯規則 236
9.5.1 Apriori關聯規則 237
9.5.2 FP-Growth關聯分析 240
9.6 貝葉斯模型 242
9.6.1 貝葉斯公式 242
9.6.2 樸素貝葉斯算法 244
9.6.3 貝葉斯網路 248
9.7 隱馬爾可夫模型 250
9.8 集成算法 254
第10章 模型選擇與相關技術 259
10.1 數據準備與模型選擇 259
10.1.1 預處理259
10.1.2 選擇模型 260
10.2 自動機器學習框架 263
10.2.1 框架原理 263
10.2.2 Auto-Sklearn 264
10.2.3 Auto-ML 266
10.2.4 Auto-Keras 267
10.3 自然語言處理 269
10.3.1 分詞工具 269
10.3.2 TF-IDF271
10.4 建模相關技術 274
10.4.1 切分數據集與交叉驗證 274
10.4.2 模型調參 276
10.4.3 學習曲線和驗證曲線279
10.4.4 保存模型 282
第11章 大數據競賽平台 283
11.1 定義問題283
11.1.1 強人工智慧與弱人工智慧284
11.1.2 Datathon競賽 285
11.2 算法競賽286
11.2.1 大數據競賽平台優勢287
11.2.2 Kaggle大數據平台 288
11.2.3 實戰鐵達尼號倖存問題288
11.2.4 國內大數據平台294
11.2.5 賽題選擇 294
11.2.6 比賽注意事項 295
第12章 決策問題:幸福感挖掘 296
12.1 賽題解讀 296
12.2 模型初探 297
12.3 模型調優 299
12.3.1 模型粗調 299
12.3.2 模型精調 300
12.4 模型輸出 305
12.4.1 顯示決策樹305
12.4.2 特徵重要性306
12.5 XGBoost模型307
12.5.1 XGBoost參數分析 307
12.5.2 XGBoost原理解析 308
12.5.3 XGBoost源碼分析 312
第13章 遷移學習:貓狗圖片分類 317
13.1 深度學習神經網路 317
13.1.1 深度學習 318
13.1.2 卷積神經網路 319
13.1.3 卷積神經網路發展史321
13.2 使用現有的神經網路模型 321
13.3 遷移學習 322
13.4 解決貓狗分類問題 323
13.4.1 數據及代碼結構323
13.4.2 提取特徵 324
13.4.3 訓練模型和預測325
13.4.4 訓練結果分析 326
13.4.5 代碼下載 327
第14章 圖像分割:識別圖中物體 328
14.1 Mask R-CNN算法329
14.1.1 R-CNN329
14.1.2 SPP Net 330
14.1.3 Fast R-CNN330
14.1.4 Faster R-CNN 331
14.1.5 Mask R-CNN 332
14.2 Mask R-CNN源碼解析332
14.2.1 安裝工具 332
14.2.2 源碼結構 333
14.3 訓練模型與預測 334
14.3.1 製作訓練數據 335
14.3.2 訓練模型和預測338
14.3.3 建模相關問題 344
第15章 時間序列分析 346
15.1 時序問題處理流程 346
15.1.1 分析問題 346
15.1.2 解決思路 347
15.2 趨勢分析工具ARIMA 349
15.2.1 相關概念 349
15.2.2 模型示例 353
15.3 傅立葉和小波變換 357
15.3.1 傅立葉變換358
15.3.2 小波變換 360
15.4 Prophet時序模型 361
15.4.1 模型介紹 362
15.4.2 獲取數據 362
15.4.3 模型示例 363
第16章 自然語言處理:微博互動預測 367
16.1 賽題分析 367
16.1.1 數據分析 368
16.1.2 評價函式 369
16.1.3 目標變數分布 370
16.1.4 發博用戶統計 371
16.1.5 特殊用戶分析 371
16.1.6 整體分析 372
16.2 中文分析 372
16.2.1 正則表達式373
16.2.2 自動提取關鍵字376

作者簡介

謝彥,從事軟體開發和算法研發十餘年,曾就職於聯想研究院、元心科技等公司。參與研發機頂盒、上網本、智慧型手機作業系統,工作涉及上層套用、集群構建、圖形底層優、語音合成與識別、數據挖掘、深度學習算法等。帶領團隊經驗豐富,擅長團隊內部人才培訓。
個人開發的套用“天琴語音閱讀器”用戶數達百萬量級,近兩年撰寫數據挖掘和機器學習文章百餘篇,CSDN閱讀量100多萬人次。現就職於和興創聯健康科技有限公司,專注於醫療大數據套用研發。作者的公眾號:算法學習分享。

相關詞條

熱門詞條

聯絡我們