Python全棧數據工程師養成攻略是一本2017年出版的圖書,由人民郵電出版社出版
基本介紹
- 中文名:Python全棧數據工程師養成攻略
- 作者:張宏倫
- 出版社:人民郵電出版社
- 出版時間:2018年5月
- 頁數:263 頁
- 定價:59.8 元
- 開本:16 開
- 裝幀:平裝
- ISBN:9787115468697
內容簡介,作者介紹,圖書目錄,
內容簡介
本書首先介紹了數據工您榜拜程和Python語法,隨後講解如何獲取和存儲數據,並實現簡單的靜態可視化。文本作為一種極其重要的數據類型,也單獨列出一章進行討論。之後讀者將學習到關於Web建站的一些基礎和進階知識,並基於多種工具完成豐富的動態可視化。這本書選取了機器學習和深度學習兩大熱門迎地葛領域的核心內容,為讀者進一步實現數據價值的深度分析和挖掘打下堅實基礎。
作者介紹
張宏倫
上海交通大學電子系,研究方向為機器學習、人工智慧和自然語言理解,宏倫工作室創始人。
愛好數據,具有金融、交通、氣象、新聞、法律等多個領域的數據分析和項目開發經驗。業餘時間熱衷參加各類數據賽事,曾獲得首屆拍拍貸魔鏡杯數據產品大賽金獎、天池公益雲圖數據可視化大賽銅獎、上海BOT大數據套用大賽二等獎等。
樂於分享,自製的《全棧數據工程師養成攻略》系列視頻教束想海程,在網易雲課堂和好大學線上等多家慕課平台上獲得了廣泛肯定和好評。
圖書目錄
第 1章 寫在前面 1
1.1 數據工程和程式語言 1
1.1.1 如何玩轉數據 1
1.1.2 關於程式語言 3
1.2 帶好裝備——Python 和Sublime 4
1.2.1 Python 4
1.2.2 Sublime 5
1.2.3 運行Python 代碼的方法 6
1.2.4 Hello World 7
1.3 數棕厚精陵據結構和常見類型 7
1.3.1 數據的結構 8
1.3.2 數據的類型 8
第 2章 學會Python 10
2.1 Python 基礎語法 10
2.1.1 Python 的特點 10
2.1.2 中文編碼 10
2.1.3 變數 11
2.1.4 注釋 14
2.1.5 保留名 14
2.1.6 行和縮進 15
2.1.7 運算符 15
2.1.8 條件 15
2.1.9 循環 16
2.1.10 時間 18
2.1.11 檔案 19
2.1.12 異常 19
2.1.13 函式 20
2.1.14 補充內容 20
2.2 實戰:西遊記用字統計 21
2.2.1 數據 21
2.2.2 目標 21
2.2.3 步驟 21
2.2.4 總結 23
第3章 獲取數據 24
3.1 HTTP 請求和Chrome 24
3.1.1 訪問一個連結 24
3.1.2 Chrome 瀏覽器 25
3.1.3 HTTP 27
3.1.4 URL 類型 28
3.2 使用Python 獲取數據 29
3.2.1 urllib2 29
3.2.2 GET 請求 29
3.2.3 POST 請求 30
3.2.4 處理返回結果 30
3.3 實戰:爬取豆瓣電影 31
3.3.1 確定目標 31
3.3.2 通用思路 32
3.3.3 尋找連結 32
3.3.4 代碼實現 34
3.3.5 補充內容 38
第4章 存儲數據 40
4.1 使用XAMP 搭建Web 環境 40
4.1.1 Web 環境 40
4.1.2 符禁獄阿偏微膠少好設定 41
4.1.3 Hello World 43
4.2 MySQL 使道料用方法 44
4.2.1 基本概念 44
4.2.2 命令行 44
4.2.3 Web 工具 44
4.2.4 本地軟體 47
4.3 使用Python 運算元據庫 49
4.3.1 MySQLdb 49
4.3.2 建立連線 49
4.3.3 執行操作 50
4.3.4 關閉連線 52
4.3.5 擴展內容 52
第5章 靜態可視化 53
5.1 在R 中進行可視化 53
5.1.1 下載和安裝 53
5.1.2 R 語言基礎 54
5.1.3 ggplot2 59
5.1.4 R 語言學習筆記 59
5.2 掌握ggplot2 數據可視化 59
5.2.1 圖形種類 59
5.2.2 基本語法 60
5.2.3 條形圖 61
5.2.4 折線圖 61
5.2.5 描述數據分布 62
5.2.6 分面 62
5.2.7 R 語言數據可視化 62
5.3 實戰:Diamonds 數據集探索 63
5.3.1 查看數據 63
5.3.2 價格和克拉 64
5.3.3 價格分布 64
5.3.4 純淨度分布 65
5.3.5 價格機率分布 65
5.3.6 不同切工下的價格分布 65
5.3.7 坐標變換 66
5.3.8 標題和坐標軸標籤 66
第6章 自然語言理解 67
6.1 走近自然語言理解 67
6.1.1 概念 67
6.1.2 內容 67
6.1.3 套用 68
6.2 使用jieba 分詞處理中文 70
6.2.1 jieba 中文分詞 70
6.2.2 中文分詞 70
6.2.3 關鍵字提取 72
6.2.4 詞性標註 73
6.3 詞嵌入的概念和實現 73
6.3.1 語言的表示 73
6.3.2 訓練詞向量 75
6.3.3 代碼實現 75
第7章 Web 基礎 78
7.1 網頁的骨骼:HTML 78
7.1.1 HTML 是什麼 78
7.1.2 基本結構 78
7.1.3 常用標籤 79
7.1.4 標籤的屬性 82
7.1.5 注釋 83
7.1.6 表單 83
7.1.7 顏色 84
7.1.8 DOM 85
7.1.9 HTML5 86
7.1.10 補充內容 86
7.2 網頁的血肉:CSS 86
7.2.1 CSS 是什麼 87
7.2.2 基本結構 87
7.2.3 使用CSS 87
7.2.4 常用選擇器 89
7.2.5 常用樣式 91
7.2.6 CSS3 94
7.2.7 CSS 實例 97
7.2.8 補充學習 98
7.3 網頁的關節:JS 99
7.3.1 JS 是什麼 99
7.3.2 使用JS 99
7.3.3 JS 基礎 100
7.3.4 補充學習 103
第8章 Web 進階 104
8.1 比JS 更方便的JQuery 104
8.1.1 引入JQuery 104
8.1.2 語法 105
8.1.3 選擇器 106
8.1.4 事件 107
8.1.5 直接操作 108
8.1.6 AJAX 請求 112
8.1.7 補充學習 113
8.2 實戰:你竟是這樣的月餅 113
8.2.1 項目簡介 113
8.2.2 首頁實現 115
8.2.3 月餅頁實現 128
8.2.4 項目總結 133
8.3 基於ThinkPHP 的簡易個人部落格 134
8.3.1 ThinkPHP 是什麼 134
8.3.2 個人部落格 134
8.3.3 下載和初始化 134
8.3.4 MVC 135
8.3.5 資料庫配置 136
8.3.6 控制器、函式和渲染模板 137
8.3.7 U 函式和頁面跳轉 139
8.3.8 表單實現和數據處理 141
8.3.9 讀取數據並渲染 142
8.3.10 項目總結 145
8.4 基於Flask 的簡易個人部落格 146
8.4.1 Flask 是什麼 146
8.4.2 項目準備 147
8.4.3 渲染模板 149
8.4.4 運算元據庫 150
8.4.5 完善其他頁面 152
8.4.6 項目總結 155
第9章 動態可視化 157
9.1 使用ECharts 製作互動圖形 157
9.1.1 ECharts 是什麼 157
9.1.2 引入Echarts 158
9.1.3 準備一個畫板 158
9.1.4 繪製ECharts 圖形 158
9.1.5 使用其他主題 160
9.1.6 配置項手冊 160
9.1.7 開始探索 164
9.2 實戰:再談豆瓣電影數據分析 164
9.2.1 項目成果 164
9.2.2 數據獲取 164
9.2.3 數據清洗和存儲 167
9.2.4 數據分析 168
9.2.5 數據可視化 168
9.2.6 項目總結 171
9.3 數據可視化之魅D3 172
9.3.1 D3 是什麼 172
9.3.2 D3 核心思想 172
9.3.3 一個簡單的例子 173
9.3.4 深入理解D3 177
9.3.5 開始探索 180
9.4 實戰:星戰電影知識圖譜 181
9.4.1 項目成果 181
9.4.2 數據獲取 182
9.4.3 數據分析 182
9.4.4 數據可視化 183
9.4.5 項目總結 184
9.5 藝術家愛用的Processing 185
9.5.1 Processing 是什麼 185
9.5.2 一個簡單的例子 186
9.5.3 Processing 基礎 186
9.5.4 更多內容 189
9.6 實戰:上海捷運的一天 189
9.6.1 項目成果 189
9.6.2 項目數據 189
9.6.3 項目思路 190
9.6.4 項目實現 190
9.6.5 項目總結 197
第 10章 機器學習 198
10.1 明白一些基本概念 198
10.1.1 機器學習是什麼 198
10.1.2 學習的種類 199
10.1.3 兩大痛點 202
10.1.4 學習的流程 203
10.1.5 代碼實現 205
10.2 常用經典模型及實現 206
10.2.1 線性回歸 206
10.2.2 Logistic 回歸 206
10.2.3 貝葉斯 207
10.2.4 K 近鄰 207
10.2.5 決策樹 207
10.2.6 支持向量機 209
10.2.7 K-Means 209
10.2.8 神經網路 210
10.2.9 代碼實現 210
10.3 調參比賽大殺器XGBoost 213
10.3.1 為什麼要調參 214
10.3.2 XGBoost 是什麼 214
10.3.3 XGBoost 安裝 214
10.3.4 XGBoost 模型參數 215
10.3.5 XGBoost 調參實戰 216
10.3.6 總結 227
10.4 實戰:微額借款用戶人品預測 227
10.4.1 項目背景 227
10.4.2 數據概況 228
10.4.3 缺失值處理 228
10.4.4 特徵工程 229
10.4.5 特徵選擇 230
10.4.6 模型設計 231
10.4.7 項目總結 232
第 11章 深度學習 233
11.1 初探Deep Learning 233
11.1.1 深度學習是什麼 233
11.1.2 神經元模型 234
11.1.3 全連線層 235
11.1.4 代碼實現 236
11.2 用於處理圖像的CNN 237
11.2.1 CNN 是什麼 238
11.2.2 CNN 核心內容 239
11.2.3 CNN 使用方法 241
11.2.4 CNN 模型訓練 242
11.2.5 代碼實現 242
11.3 用於處理序列的RNN 242
11.3.1 RNN 是什麼 242
11.3.2 RNN 模型結構 243
11.3.3 LSTM 244
11.3.4 RNN 使用方法 246
11.3.5 代碼實現 246
11.4 實戰:多種手寫數字識別模型 246
11.4.1 手寫數字數據集 247
11.4.2 全連線層 248
11.4.3 CNN 實現 252
11.4.4 RNN 實現 253
11.4.5 實戰總結 254
第 12章 數據的故事 256
12.1 如何講一個好的故事 256
12.1.1 為什麼要做PPT 256
12.1.2 講一個好的故事 256
12.1.3 用顏值加分 257
12.1.4 總結 258
12.2 實戰:有內容有顏值的分享 258
12.2.1 SODA 258
12.2.2 公益雲圖 260
12.2.3 上海BOT 262
12.2.4 總結 263
3.2 使用Python 獲取數據 29
3.2.1 urllib2 29
3.2.2 GET 請求 29
3.2.3 POST 請求 30
3.2.4 處理返回結果 30
3.3 實戰:爬取豆瓣電影 31
3.3.1 確定目標 31
3.3.2 通用思路 32
3.3.3 尋找連結 32
3.3.4 代碼實現 34
3.3.5 補充內容 38
第4章 存儲數據 40
4.1 使用XAMP 搭建Web 環境 40
4.1.1 Web 環境 40
4.1.2 偏好設定 41
4.1.3 Hello World 43
4.2 MySQL 使用方法 44
4.2.1 基本概念 44
4.2.2 命令行 44
4.2.3 Web 工具 44
4.2.4 本地軟體 47
4.3 使用Python 運算元據庫 49
4.3.1 MySQLdb 49
4.3.2 建立連線 49
4.3.3 執行操作 50
4.3.4 關閉連線 52
4.3.5 擴展內容 52
第5章 靜態可視化 53
5.1 在R 中進行可視化 53
5.1.1 下載和安裝 53
5.1.2 R 語言基礎 54
5.1.3 ggplot2 59
5.1.4 R 語言學習筆記 59
5.2 掌握ggplot2 數據可視化 59
5.2.1 圖形種類 59
5.2.2 基本語法 60
5.2.3 條形圖 61
5.2.4 折線圖 61
5.2.5 描述數據分布 62
5.2.6 分面 62
5.2.7 R 語言數據可視化 62
5.3 實戰:Diamonds 數據集探索 63
5.3.1 查看數據 63
5.3.2 價格和克拉 64
5.3.3 價格分布 64
5.3.4 純淨度分布 65
5.3.5 價格機率分布 65
5.3.6 不同切工下的價格分布 65
5.3.7 坐標變換 66
5.3.8 標題和坐標軸標籤 66
第6章 自然語言理解 67
6.1 走近自然語言理解 67
6.1.1 概念 67
6.1.2 內容 67
6.1.3 套用 68
6.2 使用jieba 分詞處理中文 70
6.2.1 jieba 中文分詞 70
6.2.2 中文分詞 70
6.2.3 關鍵字提取 72
6.2.4 詞性標註 73
6.3 詞嵌入的概念和實現 73
6.3.1 語言的表示 73
6.3.2 訓練詞向量 75
6.3.3 代碼實現 75
第7章 Web 基礎 78
7.1 網頁的骨骼:HTML 78
7.1.1 HTML 是什麼 78
7.1.2 基本結構 78
7.1.3 常用標籤 79
7.1.4 標籤的屬性 82
7.1.5 注釋 83
7.1.6 表單 83
7.1.7 顏色 84
7.1.8 DOM 85
7.1.9 HTML5 86
7.1.10 補充內容 86
7.2 網頁的血肉:CSS 86
7.2.1 CSS 是什麼 87
7.2.2 基本結構 87
7.2.3 使用CSS 87
7.2.4 常用選擇器 89
7.2.5 常用樣式 91
7.2.6 CSS3 94
7.2.7 CSS 實例 97
7.2.8 補充學習 98
7.3 網頁的關節:JS 99
7.3.1 JS 是什麼 99
7.3.2 使用JS 99
7.3.3 JS 基礎 100
7.3.4 補充學習 103
第8章 Web 進階 104
8.1 比JS 更方便的JQuery 104
8.1.1 引入JQuery 104
8.1.2 語法 105
8.1.3 選擇器 106
8.1.4 事件 107
8.1.5 直接操作 108
8.1.6 AJAX 請求 112
8.1.7 補充學習 113
8.2 實戰:你竟是這樣的月餅 113
8.2.1 項目簡介 113
8.2.2 首頁實現 115
8.2.3 月餅頁實現 128
8.2.4 項目總結 133
8.3 基於ThinkPHP 的簡易個人部落格 134
8.3.1 ThinkPHP 是什麼 134
8.3.2 個人部落格 134
8.3.3 下載和初始化 134
8.3.4 MVC 135
8.3.5 資料庫配置 136
8.3.6 控制器、函式和渲染模板 137
8.3.7 U 函式和頁面跳轉 139
8.3.8 表單實現和數據處理 141
8.3.9 讀取數據並渲染 142
8.3.10 項目總結 145
8.4 基於Flask 的簡易個人部落格 146
8.4.1 Flask 是什麼 146
8.4.2 項目準備 147
8.4.3 渲染模板 149
8.4.4 運算元據庫 150
8.4.5 完善其他頁面 152
8.4.6 項目總結 155
第9章 動態可視化 157
9.1 使用ECharts 製作互動圖形 157
9.1.1 ECharts 是什麼 157
9.1.2 引入Echarts 158
9.1.3 準備一個畫板 158
9.1.4 繪製ECharts 圖形 158
9.1.5 使用其他主題 160
9.1.6 配置項手冊 160
9.1.7 開始探索 164
9.2 實戰:再談豆瓣電影數據分析 164
9.2.1 項目成果 164
9.2.2 數據獲取 164
9.2.3 數據清洗和存儲 167
9.2.4 數據分析 168
9.2.5 數據可視化 168
9.2.6 項目總結 171
9.3 數據可視化之魅D3 172
9.3.1 D3 是什麼 172
9.3.2 D3 核心思想 172
9.3.3 一個簡單的例子 173
9.3.4 深入理解D3 177
9.3.5 開始探索 180
9.4 實戰:星戰電影知識圖譜 181
9.4.1 項目成果 181
9.4.2 數據獲取 182
9.4.3 數據分析 182
9.4.4 數據可視化 183
9.4.5 項目總結 184
9.5 藝術家愛用的Processing 185
9.5.1 Processing 是什麼 185
9.5.2 一個簡單的例子 186
9.5.3 Processing 基礎 186
9.5.4 更多內容 189
9.6 實戰:上海捷運的一天 189
9.6.1 項目成果 189
9.6.2 項目數據 189
9.6.3 項目思路 190
9.6.4 項目實現 190
9.6.5 項目總結 197
第 10章 機器學習 198
10.1 明白一些基本概念 198
10.1.1 機器學習是什麼 198
10.1.2 學習的種類 199
10.1.3 兩大痛點 202
10.1.4 學習的流程 203
10.1.5 代碼實現 205
10.2 常用經典模型及實現 206
10.2.1 線性回歸 206
10.2.2 Logistic 回歸 206
10.2.3 貝葉斯 207
10.2.4 K 近鄰 207
10.2.5 決策樹 207
10.2.6 支持向量機 209
10.2.7 K-Means 209
10.2.8 神經網路 210
10.2.9 代碼實現 210
10.3 調參比賽大殺器XGBoost 213
10.3.1 為什麼要調參 214
10.3.2 XGBoost 是什麼 214
10.3.3 XGBoost 安裝 214
10.3.4 XGBoost 模型參數 215
10.3.5 XGBoost 調參實戰 216
10.3.6 總結 227
10.4 實戰:微額借款用戶人品預測 227
10.4.1 項目背景 227
10.4.2 數據概況 228
10.4.3 缺失值處理 228
10.4.4 特徵工程 229
10.4.5 特徵選擇 230
10.4.6 模型設計 231
10.4.7 項目總結 232
第 11章 深度學習 233
11.1 初探Deep Learning 233
11.1.1 深度學習是什麼 233
11.1.2 神經元模型 234
11.1.3 全連線層 235
11.1.4 代碼實現 236
11.2 用於處理圖像的CNN 237
11.2.1 CNN 是什麼 238
11.2.2 CNN 核心內容 239
11.2.3 CNN 使用方法 241
11.2.4 CNN 模型訓練 242
11.2.5 代碼實現 242
11.3 用於處理序列的RNN 242
11.3.1 RNN 是什麼 242
11.3.2 RNN 模型結構 243
11.3.3 LSTM 244
11.3.4 RNN 使用方法 246
11.3.5 代碼實現 246
11.4 實戰:多種手寫數字識別模型 246
11.4.1 手寫數字數據集 247
11.4.2 全連線層 248
11.4.3 CNN 實現 252
11.4.4 RNN 實現 253
11.4.5 實戰總結 254
第 12章 數據的故事 256
12.1 如何講一個好的故事 256
12.1.1 為什麼要做PPT 256
12.1.2 講一個好的故事 256
12.1.3 用顏值加分 257
12.1.4 總結 258
12.2 實戰:有內容有顏值的分享 258
12.2.1 SODA 258
12.2.2 公益雲圖 260
12.2.3 上海BOT 262
12.2.4 總結 263