《深入大型數據集:並行與分布化Python代碼》是2021年電子工業出版社出版的圖書,作者是J.T. Wolohan。
基本介紹
- 中文名:深入大型數據集:並行與分布化Python代碼
- 作者:J.T. Wolohan
- 譯者: 張若飛
- 出版社: 電子工業出版社
- 出版時間:2021年
- 頁數:320 頁
- 定價:99 元
- 開本:16 開
- ISBN:9787121403682
內容簡介,作者簡介,圖書目錄,第1部分,第2部分,第3部分,
內容簡介
本書共分3部分,主要介紹如何使用Python語言來處理大型數據集。第1部分介紹map和reduce編程風格,以及Python中基礎的map和reduce函式,並介紹如何將對象持久化,通過惰性函式和並行函式來加快大型數據集的處理速度。第2部分介紹Hadoop和Spark框架,以及如何使用mrjob庫來編寫Hadoop作業,如何實現PageRank算法,如何使用Spark來實現決策樹和隨機森林的機器學習模型。第3部分重點介紹雲計算和雲存儲的基礎知識,包括如何通過boto3的Python庫將檔案上傳到AWS S3服務,以及如何在AWS的EMR集群中運行分散式的Hadoop和Spark作業。本書適合有一定Python編程基礎,且希望掌握大型數據集處理能力的開發人員和數據科學家閱讀。
作者簡介
J.T. Wolohan是Booz Allen Hamilton公司的一名高級人工智慧和自然語言處理架構師。他教過各種層次的學生學習編程:從國小、國中學生到研究生、專業人士。除對分散式和並行計算感興趣之外,J.T.還喜歡跑步、烹飪和與家人共度時光。
張若飛,曾任多家網際網路金融公司CTO,在宜人貸、雅虎北研、金山雲等知名公司擔任架構師。十餘年網際網路研發及技術管理經驗,對搭建海量數據、大型分散式系統有豐富經驗。著有十餘本技術譯著,包括《Grails權威指南》《給大忙人看的JavaSE 8》《代碼不朽:編寫可維護軟體的十大原則》《面向可伸縮架構》《雲原生Java》《雲原生模式》等書,總計400餘萬字。
圖書目錄
第1部分
第1章 入門介紹
第2章 加速大型數據集處理任務:map函式和並行計算
第3章 用來映射複雜轉換的函式管道
第4章 用惰性工作流來處理大型數據集
第5章 使用reduce進行累加操作
第6章 使用高級並行化來加速map和reduce
第2部分
第7章 使用Hadoop和Spark處理真正的大型數據集
第8章 使用Apache Streaming和mrjob處理大數據的最佳實踐
第9章 在PySpark中使用map和reduce來實現PageRank算法
第10章 使用機器學習和PySpark進行更快的決策
第3部分
第11章 使用Amazon Web Services和S3在雲計算環境中處理大型數據集
第12章 使用Amazon的Elastic MapReduce在雲上實現MapReduce