《Effective數據科學基礎設施》是一本清華大學出版社出版的圖書,作者是[芬] 維萊·圖洛斯(Ville Tuulos),郭濤譯。
基本介紹
- 作者:[芬] 維萊·圖洛斯(Ville Tuulos)
- 譯者:郭濤
- 出版時間:2023年8月
- 出版社:清華大學出版社
- 頁數:296 頁
- ISBN:9787302641865
- 定價:98 元
圖書目錄,
圖書目錄
目 錄
第1章 數據科學基礎設施介紹 1
1.1 選擇數據科學基礎設施的原因 2
1.2 什麼是數據科學基礎設施 5
1.2.1 數據科學基礎設施堆疊 6
1.2.2 支持數據科學項目的整個生命周期 8
1.2.3 不能以偏概全 9
1.3 良好基礎設施的重要性 10
1.3.1 管理複雜性 11
1.3.2 利用現有平台 12
1.4 以人為中心的基礎設施 13
1.4.1 自由與責任 14
1.4.2 數據科學家自主性 15
1.5 本章小結 16
第2章 數據科學的工具鏈 17
2.1 建立開發環境 18
2.1.1 雲賬戶 21
2.1.2 數據科學工作站 22
2.1.3 筆記 24
2.1.4 歸納 27
2.2 介紹工作流 29
2.2.1 工作流基礎 30
2.2.2 執行工作流 31
2.2.3 工作流框架 33
2.3 本章小結 35
第3章 Metaflow簡介 37
3.1 Metaflow的基本概念 38
3.1.1 安裝Metaflow 39
3.1.2 編寫基本工作流 40
3.1.3 管理工作流中的數據流 44
3.1.4 參數 50
3.2 分支和合併 55
3.2.1 有效的DAG結構 56
3.2.2 靜態分支 57
3.2.3 動態分支 61
3.2.4 控制並發 64
3.3 Metaflow實際套用 66
3.3.1 啟動新項目 67
3.3.2 使用客戶端API訪問結果 69
3.3.3 調試故障 72
3.3.4 最後潤色 76
3.4 本章小結 79
第4章 隨計算層伸縮 81
4.1 什麼是可伸縮性 82
4.1.1 整個堆疊的可伸縮性 83
4.1.2 實驗文化 85
4.2 計算層 87
4.2.1 使用容器進行批處理 89
4.2.2 計算層示例 92
4.3 Metaflow中的計算層 98
4.3.1 為Metaflow配置AWS批處理 100
4.3.2 @batch和@resources裝飾器 104
4.4 處理故障 107
4.4.1 使用@retry從瞬態錯誤中恢復 109
4.4.2 使用@timeout殺死殭屍 110
4.4.3 最後一種裝飾器:@catch 111
4.5 本章小結 113
第5章 實踐可伸縮性和性能 115
5.1 從簡單開始:垂直可伸縮性 116
5.1.1 示例:聚類Yelp評論 117
5.1.2 實踐垂直可伸縮性 119
5.1.3 為什麼選擇垂直可
伸縮性 124
5.2 實踐水平可伸縮性 126
5.2.1 為什麼選擇水平可伸縮性 126
5.2.2 示例:超參數搜尋 127
5.3 實施性能最佳化 130
5.3.1 示例:計算共現矩陣 131
5.3.2 加快工作流的方法 139
5.4 本章小結 140
第6章 投入生產 141
6.1 穩定的工作流調度 143
6.1.1 中心化元數據 145
6.1.2 使用AWS Step Functions和Metaflow 147
6.1.3 使用@schedule調度運行 152
6.2 魯棒的執行環境 153
6.2.1 Metaflow包如何流動 155
6.2.2 為什麼依賴管理很重要 160
6.2.3 使用@conda裝飾器 162
6.3 穩定運行 167
6.3.1 原型開發期間的命名空間 169
6.3.2 生產命名空間 173
6.3.3 使用@project的並行部署 174
6.4 本章小結 177
第7章 處理數據 179
7.1 快速數據的基礎 182
7.1.1 從S3載入數據 183
7.1.2 使用表格數據 188
7.1.3 記憶體數據堆疊 192
7.2 與數據基礎設施的互動 194
7.2.1 現代數據基礎設施 195
7.2.2 用SQL準備數據集 199
7.2.3 分散式數據處理 205
7.3 從數據到特徵 210
7.3.1 區分事實和特徵 211
7.3.2 編碼特徵 213
7.4 本章小結 218
第8章 使用和操作模型 221
8.1 生成預測 223
8.1.1 批處理、流式和實時預測 225
8.1.2 示例:推薦系統 227
8.1.3 批處理預測 232
8.1.4 實時預測 243
8.2 本章小結 248
第9章 全棧機器學習 249
9.1 可插拔的特徵編碼器和模型 250
9.1.1 為可插拔的組件開發框架 251
9.1.2 執行特徵編碼器 255
9.1.3 基準模型 259
9.2 深度回歸模型 264
9.2.1 編碼輸入張量 266
9.2.2 定義深度回歸模型 269
9.2.3 訓練深度回歸模型 272
9.3 總結所學 275
9.4 本章小結 277
附錄 安裝Conda 279