《全棧數據工程原理與實踐》是2020年5月1日機械工業出版社出版的圖書,作者是徐爾、趙魯濤。
基本介紹
- 書名:全棧數據工程原理與實踐
- 作者:徐爾、趙魯濤
- 出版社:機械工業出版社
- ISBN:9787111650683
內容簡介,圖書目錄,
內容簡介
本書由數據科學一線教學科研工作者、企業從業者根據自己日常的科研內容和工作經驗總結而成,對數據獲取、數據存儲、數據分析、數茅請據展示等主要數據科學的典型步驟進行了細緻的知識梳理,對當前科研和企業套用的前沿技術以清晰的脈絡和通俗易懂的語言進行了詳盡的講解。本書主要介紹了多種程式語言下的數據採集方式,多個形態的資料庫使用和適用場景,並穿插介紹了經典的機器學習與深度學習方法,使讀者對數據科學付煮希紙的全棧技術有一定的了解和認知。
本書代碼主要是在Python的基礎多笑夜上開發的,結合成熟的機器學習框架Scikit-Learn,簡單易用的深度學習框架Keras,以存儲在MySQL、MongoDB、Redis、Neo4j等資料庫內的多模態數據為樣例,為讀者直觀生動地展示全棧數據技術的整體過程,同時提供實踐課題和主要代碼,供學有餘力的讀者進行綜合實訓。
本書主要嬸凶斷面向對數據科學、人工智慧、機器學習、深度學習具有濃厚興趣且希望儘快入門的讀者、高校相關專業的教育工作者和在校學生,以及正在從事數據科學相關工作喇紋舟並且希譽您棗棕望深入研究的數據科學家、軟體工程師、大數據平台工程師和項目管理者等。
圖書目錄
前 言
第 1章 數據獲取1
11
HTTP 1
111HTTP簡介 1 112
112一次網頁請求分析 1
12
Chrome瀏覽器 2
121
Chrome的特點 2
122
Chrome配置 3 123
基本功能介紹 3 124
外掛程式推薦 5
13
HTML、CSS和 JavaScript 5
131
HTML 6
132CSS 8
133 JavaScript 9
14Python爬蟲 10
141 Bs4和 Requests庫爬取 10
142PyQuery爬取 11
143Scrapy爬取 12
144Selenium自動化爬取 13
15JavaScript爬蟲 13
151 Node基礎 13
152 puppeteer爬蟲實戰 20
第 2章 數據存儲 22
21 資料庫介紹 22
211 資料庫發展 22
212 資料庫分類 23
213 常用關係型資料庫產品介紹 24
22關係型資料庫 MySQL 26
221 MySQL的配置 26
222 MySQL實踐 29
223 Python操作 MySQL 30
23
文檔資料庫 MongoDB 35
231 MongoDB的配置 35
232 MongoDB實踐 37
233 Python操作 MongoDB 38
24Key-Value資料庫 Redis 39
241 Redis的配置 39
242 Redis操作 39
25 圖資料庫 Neo4j 41
251 Neo4j安裝 41
252 Neo4j語法 42
253 Neo4j命令 43
26 資料庫總結 44
第 3章 數據分析 45
31 數據分析簡介 45
311 數據分析的背景 46
312 數據分析的流程 47
32 數據分析工具 49
321 Numpy 49
322 Scipy 50
323 Matplotlib 50
324 Pandas 52
325 Scikit-Learn 53
326 Keras 54
33 數據探索 55
331 數據質量分析 55
332 數據特徵分析 57
333 Python工具分析 64
34 數據預處理 74
341 數據清洗 74
342 數據提取 76
343 數據變換 83
35 數據模型及評估 88
351 評估算法 88
352 評估矩陣 91
353 分類算法模型及評估 98
354 回歸算法模型及評估 103
第 4章 數據展示108
41 數據可視化簡介 108
42 可視化工具介紹 109
421 百度 ECharts 109
422 螞蟻金服 AntV 110
423 微軟 Power BI 111
424 Tableau 112
425 talkingData inMap 114
第 5章 社交網路分析115
51 社交網路分析套用介紹 115
511 社交網路算法套用場景 115
512 社交網路算法分析指標 116
513 社區發現簡介 116
514 社區發現算法 118
515 PageRank算法 119
52 Python社交網路庫分析介紹 121
53 Cypher語言 121
531 Cypher簡介 121
532 Cypher語法入門 122
54 Neo4j高性能外掛程式 APOC 129
第 6章 深度學習130
61 神經網路介紹 130
611 起源 130
612 蜜駝灑最佳化器 132
613 BP神經網路 137
62 CNN介紹 138
621 CNN網路結構 138
622 CNN類型 142
623 貓狗大戰 144
63 RNN介紹 147
631 RNN網路結構 148
632 LSTM網路結構 149
633 古詩自動生成 152
64 GAN模型 158
641 模型結構 158
642 GAN模型拓展 160
643 卡通人臉自動生成 160
65 人臉識別庫 Dlib實戰 166
651 人臉識別發展 166
652 Dlib庫介紹 167
653 人臉識別實戰 167
第 7章 自然語言處理169
71 自然語言處理概述 169
72 自然語言處理常用工具 170
721 綜合處理類工具 171
722 中文類工具 171
73 文本預處理 172
731 分詞 172
732 停用詞處理 175
733 詞頻分析與探索 176
74 文本表示 178
741 詞袋模型 178
742 詞嵌入 180
75 文本分類 182
751 基於傳統機器學習的文本分類 183
752 基於深度學習的文本分類 185
第 8章 綜合實訓189
81 實訓 1:爬取網站實例 189
811 分析網站 189
812 元素定位 190
813 編寫代碼 191
814 部署 195
82 實訓 2:數據分析實戰 195
821 分類模型實戰 195
822 回歸模型實戰 208
83 實訓 3:實戰可視化 223
831 案例 1:ECharts 223
832 案例 2:AntV 224
84 實訓 4:《權力的遊戲》關係圖譜解讀 226
841 基於圖分析 Neo4j 226
842 基於 Python-IGraph 233
843 使用 Py2neo 237
85 實訓 5:商品評價文本分類 239
851 建模之前 239
852 開始建模 240
853 代碼開發階段 241
854 分析、診斷與修正 248
855 總結與反思 249
參考文獻 250
23
文檔資料庫 MongoDB 35
231 MongoDB的配置 35
232 MongoDB實踐 37
233 Python操作 MongoDB 38
24Key-Value資料庫 Redis 39
241 Redis的配置 39
242 Redis操作 39
25 圖資料庫 Neo4j 41
251 Neo4j安裝 41
252 Neo4j語法 42
253 Neo4j命令 43
26 資料庫總結 44
第 3章 數據分析 45
31 數據分析簡介 45
311 數據分析的背景 46
312 數據分析的流程 47
32 數據分析工具 49
321 Numpy 49
322 Scipy 50
323 Matplotlib 50
324 Pandas 52
325 Scikit-Learn 53
326 Keras 54
33 數據探索 55
331 數據質量分析 55
332 數據特徵分析 57
333 Python工具分析 64
34 數據預處理 74
341 數據清洗 74
342 數據提取 76
343 數據變換 83
35 數據模型及評估 88
351 評估算法 88
352 評估矩陣 91
353 分類算法模型及評估 98
354 回歸算法模型及評估 103
第 4章 數據展示108
41 數據可視化簡介 108
42 可視化工具介紹 109
421 百度 ECharts 109
422 螞蟻金服 AntV 110
423 微軟 Power BI 111
424 Tableau 112
425 talkingData inMap 114
第 5章 社交網路分析115
51 社交網路分析套用介紹 115
511 社交網路算法套用場景 115
512 社交網路算法分析指標 116
513 社區發現簡介 116
514 社區發現算法 118
515 PageRank算法 119
52 Python社交網路庫分析介紹 121
53 Cypher語言 121
531 Cypher簡介 121
532 Cypher語法入門 122
54 Neo4j高性能外掛程式 APOC 129
第 6章 深度學習130
61 神經網路介紹 130
611 起源 130
612 最佳化器 132
613 BP神經網路 137
62 CNN介紹 138
621 CNN網路結構 138
622 CNN類型 142
623 貓狗大戰 144
63 RNN介紹 147
631 RNN網路結構 148
632 LSTM網路結構 149
633 古詩自動生成 152
64 GAN模型 158
641 模型結構 158
642 GAN模型拓展 160
643 卡通人臉自動生成 160
65 人臉識別庫 Dlib實戰 166
651 人臉識別發展 166
652 Dlib庫介紹 167
653 人臉識別實戰 167
第 7章 自然語言處理169
71 自然語言處理概述 169
72 自然語言處理常用工具 170
721 綜合處理類工具 171
722 中文類工具 171
73 文本預處理 172
731 分詞 172
732 停用詞處理 175
733 詞頻分析與探索 176
74 文本表示 178
741 詞袋模型 178
742 詞嵌入 180
75 文本分類 182
751 基於傳統機器學習的文本分類 183
752 基於深度學習的文本分類 185
第 8章 綜合實訓189
81 實訓 1:爬取網站實例 189
811 分析網站 189
812 元素定位 190
813 編寫代碼 191
814 部署 195
82 實訓 2:數據分析實戰 195
821 分類模型實戰 195
822 回歸模型實戰 208
83 實訓 3:實戰可視化 223
831 案例 1:ECharts 223
832 案例 2:AntV 224
84 實訓 4:《權力的遊戲》關係圖譜解讀 226
841 基於圖分析 Neo4j 226
842 基於 Python-IGraph 233
843 使用 Py2neo 237
85 實訓 5:商品評價文本分類 239
851 建模之前 239
852 開始建模 240
853 代碼開發階段 241
854 分析、診斷與修正 248
855 總結與反思 249
參考文獻 250