Python數據挖掘與機器學習實戰

Python數據挖掘與機器學習實戰

《Python數據挖掘與機器學習實戰》一書由方巍編寫,由機械工業出版社出版發行。

基本介紹

  • 中文名:Python數據挖掘與機器學習實戰 
  • 作者:方巍
  • 類別:人工智慧
  • 出版社:機械工業出版社
  • 出版時間:2019年5月 
  • 頁數:280 頁
  • 定價:79 元
  • 開本:16 開
  • 裝幀:精裝
  • ISBN:9787111626817
內容簡介,圖書目錄,推薦語,作者簡介,

內容簡介

本書作為數據挖掘和機器學習的讀物,基於真實數據集進行案例實戰,使用Python數據科學庫,從數據預處理開始一步步介紹數據建模和數據挖掘的過程。書中主要介紹了數據挖掘的基礎知識、基本工具和實踐方法,通過循序漸進地講解算法,帶領讀者輕鬆踏上數據挖掘之旅。本書採用理論與實踐相結合的方式,呈現了如何使用邏輯回歸進行環境數據檢測,如何使用HMM進行中文分詞,如何利用卷積神經網路識別雷達剖面圖,如何使用循環神經網路構建聊天機器人,如何使用樸素貝葉斯算法進行破產預測,如何使用DCGAN網路進行人臉生成等。本書也涉及神經網路、線上學習、強化學習、深度學習和大數據處理等內容。
本書以人工智慧主流程式語言Python 3版作為數據分析與挖掘實戰的套用工具,從Pyhton的基礎語法開始,陸續介紹了NumPy數值計算、Pandas數據處理、Matplotlib數據可視化、爬蟲和Sklearn數據挖掘等內容。全書共涵蓋16個常用的數據挖掘算法和機器學習實戰項目。通過學習本書內容,讀者可以掌握數據分析與挖掘的理論知識及實戰技能。
本書內容豐富,講解由淺入深,特別適合對數據挖掘和機器學習算法感興趣的讀者閱讀,也適合需要系統掌握深度學習的開發人員閱讀,還適合Python程式設計師及人工智慧領域的開發人員閱讀。編程愛好者、高校師生及培訓機構的學員也可以將本書作為興趣讀物或教材使用。

圖書目錄

第1章 機器學習基礎 1
1.1 機器學習概述 2
1.2 機器學習的發展歷程 2
1.3 機器學習分類 3
1.3.1 監督學習 3
1.3.2 無監督學習 3
1.3.3 強化學習 4
1.3.4 深度學習 4
1.4 機器學習的套用 4
1.5 開發機器學習的步驟 7
1.6 Python語言的優勢 8
1.6.1 可執行偽代碼 8
1.6.2 Python語言使用廣泛 8
1.6.3 Python語言特色 8
1.6.4 Python語言的缺點 9
1.7 Python開發工具介紹 9
1.7.1 IDLE簡介 10
1.7.2 IPython簡介 11
1.7.3 PyCharm簡介 11
1.7.4 Jupyter Notebook簡介 12
1.7.5 Anaconda和Spyder簡介 13
1.8 本章小結 15
第2章 Python語言簡介 16
2.1 搭建Python開發環境 16
2.1.1 安裝Anaconda 16
2.1.2 安裝Spyder 18
2.1.3 運行和保存Python程式 19
2.2 Python計算與變數 19
2.2.1 用Python做簡單的計算 20
2.2.2 Python的運算符 20
2.2.3 Python的變數 21
2.3 Python的字元串 22
2.4 Python的列表 23
2.5 Python的元組 25
2.6 Python的字典 27
2.7 網路爬蟲的發展歷史和分類 28
2.7.1 網路爬蟲的發展歷史 28
2.7.2 網路爬蟲的分類 30
2.8 網路爬蟲的原理 30
2.8.1 理論概述 30
2.8.2 爬蟲的工作流程 31
2.9 爬蟲框架介紹 36
2.9.1 Scrapy介紹 36
2.9.2 XPath介紹 39
2.10 網路爬蟲的設計與實現 40
2.10.1 網路爬蟲的總體設計 40
2.10.2 具體實現過程 40
2.10.3 爬蟲結果與分析 45
2.11 本章小結 49
第3章 回歸分析 50
3.1 回歸分析概述 50
3.1.1 基本概念 50
3.1.2 可以解決的問題 51
3.1.3 回歸分析的步驟 51
3.2 線性回歸 51
3.2.1 簡單線性回歸分析 51
3.2.2 多元線性回歸分析 52
3.2.3 非線性回歸數據分析 52
3.3 用Python實現一元線性回歸 53
3.4 用Python實現多元線性回歸 56
3.4.1 使用pandas讀取數據 56
3.4.2 分析數據 57
3.4.3 線性回歸模型 58
3.5 基於線性回歸的股票預測 62
3.5.1 數據獲取 62
3.5.2 數據預處理 63
3.5.3 編碼實現 64
3.5.4 結果分析 65
3.6 邏輯回歸 66
3.6.1 構造預測函式 67
3.6.2 構造損失函式J 68
3.6.3 梯度下降法求解最小值 69
3.7 基於邏輯回歸的環境數據檢測 71
3.7.1 數據來源 71
3.7.2 數據處理 72
3.7.3 異常數據分析 72
3.7.4 數據預測 74
3.8 本章小結 76
第4章 決策樹與隨機森林 77
4.1 決策樹 77
4.1.1 決策樹的基本原理 77
4.1.2 決策樹的分類 78
4.1.3 決策樹的優缺點 81
4.2 使用決策樹對鳶尾花分類 82
4.2.1 Iris數據集簡介 82
4.2.2 讀取數據 83
4.2.3 鳶尾花類別 83
4.2.4 數據可視化 84
4.2.5 訓練和分類 85
4.2.6 數據集多類分類 86
4.2.7 實驗結果 86
4.3 隨機森林 87
4.3.1 隨機森林的基本原理 87
4.3.2 隨機森林的收斂性 88
4.3.3 隨機森林的OOB估計 89
4.3.4 隨機森林的隨機特徵選取 89
4.3.5 隨機森林的優缺點 90
4.4 葡萄酒數據集的隨機森林分類 91
4.4.1 數據收集 91
4.4.2 相關庫函式簡介 92
4.4.3 數據基本分析 93
4.4.4 使用隨機森林構建模型 97
4.4.5 實驗結果 98
4.5 本章小結 99
第5章 支持向量機 100
5.1 SVM的工作原理及分類 100
5.1.1 支持向量機的原理 100
5.1.2 線性可分的支持向量機 101
5.1.3 非線性可分的支持向量機 102
5.2 核函式 103
5.2.1 核函式簡介 103
5.2.2 幾種常見的核函式 104
5.2.3 核函式如何處理非線性數據 104
5.2.4 如何選擇合適的核函式 105
5.3 SVR簡介 106
5.3.1 SVR原理 106
5.3.2 SVR模型 106
5.4 時間序列曲線預測 107
5.4.1 生成訓練數據集 107
5.4.2 運用不同的核函式進行支持向量回歸 108
5.4.3 生成測試數據集 109
5.4.4 預測並生成圖表 110
5.4.5 獲取預測誤差 111
5.4.6 創建數據集 112
5.4.7 選取最優參數 112
5.4.8 預測並生成圖表 112
5.4.9 獲取預測誤差 113
5.5 本章小結 114
第6章 隱馬爾可夫模型 115
6.1 隱馬爾可夫模型簡介 115
6.1.1 隱馬爾可夫模型的概念 115
6.1.2 詳例描述 116
6.1.3 HMM流程 117
6.2 Viterbi算法 117
6.3 HMM模型用於中文分詞 119
6.3.1 UI界面 119
6.3.2 數據及其編碼 119
6.3.3 HMM模型 121
6.3.4 實驗結果 122
6.4 本章小結 124
第7章 BP神經網路模型 125
7.1 背景介紹 125
7.2 結構特點 126
7.3 網路模型 126
7.4 人工神經網路簡介 127
7.4.1 神經元 127
7.4.2 單層神經網路 128
7.4.3 雙層神經網路 129
7.4.4 多層神經網路 130
7.5 BP神經網路 131
7.6 通過TensorFlow實現BP神經網路 132
7.7 本章小結 134
第8章 卷積神經網路 135
8.1 傳統圖像識別技術 135
8.1.1 圖像預處理 135
8.1.2 圖像特徵提取 136
8.1.3 圖像分類方法 136
8.2 卷積神經網路結構簡介 137
8.2.1 卷積神經網路發展歷程 137
8.2.2 卷積神經網路結構簡介 137
8.3 卷積神經網路的結構及原理 139
8.3.1 卷積層 139
8.3.2 池化層 140
8.3.3 激活函式 142
8.3.4 全連線層 144
8.3.5 反饋運算 144
8.4 卷積神經網路的優點 146
8.5 雷達剖面圖識別模型 148
8.5.1 數據準備 148
8.5.2 構建模型 150
8.6 模型測試分析 157
8.6.1 部署基本模組 157
8.6.2 創建項目結構 157
8.6.3 訓練網路 158
8.6.4 自動化測試 158
8.7 本章小結 160
第9章 循環神經網路 161
9.1 自然語言處理 161
9.1.1 自然語言處理概述 161
9.1.2 自然語言處理套用 162
9.2 對話系統 163
9.2.1 對話系統分類 163
9.2.2 聊天機器人分類 164
9.3 基於LSTM結構的循環神經網路 165
9.3.1 循環神經網路 165
9.3.2 通過時間反向傳播 166
9.3.3 長短期記憶網路(LSTM) 169
9.4 Seq2Seq模型 172
9.4.1 Encoder-Decoder框架 173
9.4.2 Attention機制 174
9.5 聊天機器人的程式實現 176
9.5.1 準備數據 176
9.5.2 創建模型 178
9.5.3 訓練模型 179
9.5.4 測試模型 180
9.6 本章小結 181
第10章 聚類與集成算法 182
10.1 聚類方法簡介 182
10.1.1 聚類定義 183
10.1.2 聚類要求 183
10.2 聚類算法 184
10.2.1 劃分方法 184
10.2.2 層次方法 184
10.2.3 基於密度的方法 184
10.2.4 基於格線的方法 185
10.2.5 基於模型的方法 185
10.3 K-Means算法 185
10.3.1 K-Means算法概述 185
10.3.2 K-Means算法流程 185
10.3.3 K-Means算法實現 186
10.3.4 實驗結果及分析 188
10.3.5 K-Means算法存在的問題 188
10.4 K-Means++算法 189
10.4.1 K-Means++的基本思想 189
10.4.2 K-Means++的數學描述 190
10.4.3 K-Means++算法流程 190
10.5 K-Means++的實現 191
10.5.1 數據集 191
10.5.2 代碼實現 192
10.5.3 K-Means++實驗結果 193
10.6 Adaboost集成算法的原理 194
10.6.1 Boosting算法的基本原理 194
10.6.2 Adaboost算法介紹 195
10.6.3 Adaboost分類問題的損失函式最佳化 197
10.6.4 Adaboost二元分類問題的算法流程 198
10.6.5 Adaboost回歸問題的算法流程 199
10.6.6 Adaboost算法的正則化 200
10.6.7 Adaboost的優缺點 200
10.7 Adaboost算法實現 201
10.7.1 數據集處理 201
10.7.2 實現過程 201
10.7.3 實驗結果分析 206
10.8 本章小結 208
第11章 其他機器學習算法 209
11.1 貝葉斯分類器 210
11.1.1 機率基礎知識 210
11.1.2 貝葉斯決策準則 211
11.1.3 極大似然估計 212
11.2 貝葉斯分類模型 213
11.2.1 樸素貝葉斯分類模型 213
11.2.2 半樸素貝葉斯分類模型 216
11.2.3 貝葉斯網路分類模型 217
11.3 樸素貝葉斯分類器在破產預測中的套用 219
11.3.1 數據集 219
11.3.2 訓練多項式樸素貝葉斯模型 220
11.4 線上學習 222
11.4.1 線性模型的線上學習 222
11.4.2 非線性模型的線上學習 224
11.5 Bandit線上學習算法 225
11.5.1 Bandit算法與推薦系統 226
11.5.2 常用Bandit算法 226
11.6 Bandit算法原理及實現 228
11.7 GAN網路 229
11.7.1 GAN產生的背景 230
11.7.2 模型結構 230
11.7.3 GAN的實現原理 232
11.8 DCGAN網路 236
11.8.1 模型結構 236
11.8.2 反卷積 237
11.9 DCGAN人臉生成 240
11.9.1 實驗準備 240
11.9.2 關鍵模組的實現 240
11.9.3 實驗結果展示 243
11.10 本章小結 245
附錄A 機器學習常見面試題 246
附錄B 數學基礎 257
B.1 常用符號 257
B.2 數學基礎知識 259
B.2.1 線性代數 259
B.2.2 機率論 261
B.2.3 資訊理論 262
參考文獻 264

推薦語

詳解機器學習的常見算法與數據挖掘的十大經典實戰案例
涵蓋大數據挖掘、深度學習、強化學習和線上學習等內容
3位行業專家推薦
如何使用好數據?
如何對數據進行回歸分析?
如何快速有效地掌握分類和聚類算法?
深度學習的核心技術有哪些?
如何做好圖像識別?
如何進行線上學習?
如何做好強化學習?
如何實現聊天機器人?
如何構建基於卷積神經網路的雷達圖像識別模型?
如何理解分類和回歸等任務的損失函式?
如何實現中文分詞系統?
……
通過閱讀本書,你將了解這些複雜問題背後的原理,甚至你都可以自己解決這些問題。
本書精華內容:
核心知識:
機器學習基礎
Python語言簡介
回歸分析
決策樹與隨機森林
支持向量機
隱馬爾可夫模型
BP神經網路模型
卷積神經網路
循環神經網路
聚類與集成算法
其他機器學習算法
十大經典案例:
票務網站信息的爬取
環境檢測數據異常分析與預測
鳶尾花和葡萄酒數據集分類
用SVM進行時間序列曲線預測
HMM模型在中文分詞中的套用
基於CNN的雷達圖像識別
樸素貝葉斯分類器在破產預測中的套用
用LSTM模型實現一個聊天機器人
用DCGAN網路生成人臉圖像
用Adaboost算法實現馬疝病的檢測
贈送超值學習資料:
實例原始碼檔案
實例素材檔案
14段操作視頻
專業教學PPT

作者簡介

方巍 博士,博士後,副教授,高級工程師,碩士生導師。美國佛羅里達大學訪問學者,中國計算機學會高級會員,ACM會員,中國系統分析師協會(CSAI)顧問團專業顧問,江蘇省計算機學會會員,江蘇省人工智慧學會委員,江蘇省政府採購招標評審專家,江蘇省高新技術企業認定評審專家。負責和參與國家級、省部級科研項目12項。在國內外學術期刊上發表論文20餘篇,其中被SCI和EI檢索15篇。獲國家發明專利授權8項、軟體著作權9項。出版科技圖書2部。

相關詞條

熱門詞條

聯絡我們