Python分散式機器學習

內容簡介

《Python分散式機器學習》本書詳細闡述了與分散式機器學習相關的基本解決方案，主要包括拆分輸入數據、參數伺服器和All-Reduce、構建數據並行訓練和服務管道、瓶頸和解決方案、拆分模型、管道輸入和層拆分、實現模型並行訓練和服務工作流程、實現更高的吞吐量和更低的延遲、數據並行和模型並行的混合、聯合學習和邊緣設備、彈性模型訓練和服務、進一步加速的高級技術等內容。此外，本書還提供了相應的示例、代碼，以幫助讀者進一步理解相關方案的實現過程。本書適合作為高等院校計算機及相關專業的教材和教學參考書，也可作為相關開發人員的自學用書和參考手冊。

圖書目錄

第1篇數據並行

第1章拆分輸入數據 3

1.1 單節點訓練太慢 3

1.1.1 數據載入頻寬和模型訓練頻寬之間的不匹配 5

1.1.2 流行數據集的單節點訓練時間 5

1.1.3 使用數據並行加速訓練過程 7

1.2 數據並行 8

1.2.1 隨機梯度下降 11

1.2.2 模型同步 12

1.3 超參數調優 14

1.3.1 全局批次大小 14

1.3.2 學習率調整 14

1.3.3 模型同步方案 15

1.4 小結 16

第2章參數伺服器和All-Reduce 17

2.1 技術要求 18

2.2 參數伺服器架構 18

2.2.1 參數伺服器架構中的通信瓶頸 19

2.2.2 在參數伺服器之間分片模型 21

2.3 實現參數伺服器 23

2.3.1 定義模型層 23

2.3.2 定義參數伺服器 24

2.3.3 定義工作節點 25

2.3.4 在參數伺服器和工作節點之間傳遞數據 26

2.4 參數伺服器的問題 27

2.4.1 情況1—更多參數伺服器 28

2.4.2 情況2—更多工作節點 28

2.4.3 參數伺服器架構為從業者帶來了很高的編碼複雜度 28

2.5 All-Reduce架構 29

2.5.1 Reduce 29

2.5.2 All-Reduce 30

2.5.3 Ring All-Reduce 31

2.6 集體通信 33

2.6.1 Broadcast 33

2.6.2 Gather 34

2.6.3 All-Gather 35

2.7 小結 36

第3章構建數據並行訓練和服務管道 37

Python分散式機器學習

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條