內容簡介
本書由淺入深,逐步講解分散式機器學習的框架及套用,內容板塊包括主流大數據算法系統架構設計、大數據基礎、mahout分散式機器學習平台、Spark分散式機器學習平台、TensorFlow等。同時配套完整工業級實戰項目,例如個性化推薦算法系統、人臉識別,對話機器人。通過閱讀本書,讀者不僅可以學習到分散式機器學習的知識,還能通過實戰案例更好地將理論融入到實際工作中。
本書適合想學習分散式機器學習的初學者閱讀,對於有一定經驗的分散式大數據方向的從業人員及算法工程師,也可以從書中獲取很多有價值的知識。
作者簡介
陳敬雷
充電了么創始人,CEO兼CTO,中國首席數據官聯盟專家委員。陳敬雷擁有十幾年網際網路從業經驗,曾任架構師、首席技術官、首席科學家等職務。在技術領域,尤其在大數據和人工智慧方向有著豐富的算法工程落地實戰經驗,在
獵聘網任職期間主導的推薦算法系統項目獲得公司優秀項目獎,推薦效果得到5倍的提升。目前專注於大數據和人工智慧驅動的上班族線上教育行業,研發了充電了么App,用深度學習算法、NLP、推薦引擎等技術來高效提升線上學習效率。
圖書目錄
第1章網際網路公司大數據和人工智慧那些事
1.1大數據和人工智慧在網際網路公司扮演的角色和重要性
1.1.1什麼是大數據,扮演的角色和重要性
1.1.2什麼是人工智慧,扮演的角色和重要性
1.1.3大數據和人工智慧有什麼區別,又是如何相互關聯
1.2大數據部門組織架構和各種職位介紹
1.2.1大數據部門組織架構
1.2.2各種職位介紹和技能要求
1.2.3不同職位相互協調配合關係
1.2.4各個職位的職業生涯規劃和發展路徑
1.2.5各個職位的市場平均薪資水平
第2章大數據算法系統架構
2.1經典套用場景
2.2套用系統架構設計
第3章大數據基礎
3.1Hadoop大數據平台搭建
3.1.1Hadoop原理和功能介紹
3.1.2Hadoop安裝部署
3.1.3Hadoop常用操作命令
3.2Hive數據倉庫實戰
3.2.1Hive原理和功能介紹
3.2.2Hive安裝部署
3.2.3Hive SQL操作
3.2.4UDF函式
3.2.5Hive數據倉庫模型設計
3.3HBase實戰
3.3.1HBase原理和功能介紹
3.3.2HBase數據結構和表詳解
3.3.3HBase安裝部署
3.3.4HBase Shell常用命令操作
3.3.5HBase客戶端類SQL工具Phoenix
3.3.6Hive集成HBase查詢數據
3.3.7HBase升級和數據遷移
3.4Sqoop數據ETL工具實戰
3.4.1Sqoop原理和功能介紹
3.4.2Sqoop常用操作
3.5Spark基礎
3.5.1Spark原理和介紹
3.5.2Spark MLlib機器學習介紹
3.5.3Spark GraphX圖計算介紹
3.5.4Spark Streaming流式計算介紹
3.5.5Scala編程入門和Spark編程
3.5.6Spark項目案例實戰和分散式部署
第4章Docker容器
4.1Docker介紹
4.1.1能用Docker做什麼
4.1.2Docker容器基本概念
4.2Docker容器部署
4.2.1基礎環境安裝
4.2.2Docker常用命令
第5章Mahout分散式機器學習平台
5.1Mahout挖掘平台
5.1.1Mahout原理和介紹
5.1.2Mahout安裝部署
5.2Mahout機器學習算法
5.2.1Mahout算法概覽
5.2.2潛在狄利克雷分配模型
5.2.3MinHash聚類
5.2.4Kmeans聚類
5.2.5Canopy聚類
5.2.6MeanShift均值漂移聚類
5.2.7Fkmeans模糊聚類
5.2.8貝葉斯分類算法
5.2.9SGD邏輯回歸分類算法
5.2.10隨機森林分類算法
5.2.11關聯規則之頻繁項集挖掘算法
5.2.12協同過濾算法
5.2.13遺傳算法
第6章Spark分散式機器學習平台
6.1Spark機器學習庫
6.1.1Spark機器學習簡介
6.1.2算法概覽
6.2各個算法介紹和編程實戰
6.2.1推薦算法交替最小二乘法
6.2.2邏輯回歸
6.2.3決策樹
6.2.4隨機森林
6.2.5梯度提升決策樹
6.2.6支持向量機
6.2.7樸素貝葉斯
6.2.8序列模式挖掘PrefixSpan
6.2.9Word2vec詞向量模型
6.2.10多層感知器神經網路
第7章分散式深度學習實戰
7.1TensorFlow深度學習框架
7.1.1TensorFlow原理和介紹
7.1.2TensorFlow安裝部署
7.2MXNet深度學習框架
7.2.1MXNet原理和介紹
7.2.2MXNet安裝部署
7.3神經網路算法
7.3.1多層感知器算法
7.3.2卷積神經網路
7.3.3循環神經網路
7.3.4長短期記憶神經網路
7.3.5端到端神經網路
7.3.6生成對抗網路
7.3.7深度強化學習
7.3.8TensorFlow分散式訓練實戰
7.3.9分散式TensorFlow on Kubernetes集群實戰
第8章完整工業級系統實戰
8.1推薦算法系統實戰
8.1.1推薦系統架構設計
8.1.2推薦數據倉庫集市
8.1.3ETL數據處理
8.1.4協同過濾用戶行為挖掘
8.1.5ContentBase文本挖掘算法
8.1.6用戶畫像興趣標籤提取算法
8.1.7基於用戶心理學模型推薦
8.1.8多策略融合算法
8.1.9準實時線上學習推薦引擎
8.1.10Redis快取處理
8.1.11分散式搜尋
8.1.12推薦Rerank二次重排序算法
8.1.13線上Web實時推薦引擎服務
8.1.14線上AB測試推薦效果評估
8.1.15離線AB測試推薦效果評估
8.1.16推薦位管理平台
8.2人臉識別實戰
8.2.1人臉識別原理與介紹
8.2.2人臉識別套用場景
8.2.3人臉檢測與對齊
8.2.4人臉識別比對
8.2.5人臉年齡識別
8.2.6人臉性別預測
8.3對話機器人實戰
8.3.1對話機器人原理與介紹
8.3.2基於TensorFlow的對話機器人
8.3.3基於MXNet的對話機器人
8.3.4基於深度強化學習的機器人
8.3.5基於搜尋引擎的對話機器人
8.3.6對話機器人的Web服務工程化
參考文獻