深入大型數據集cf

《深入大型數據集cf》是由2021年2月電子工業出版社出版的圖書。

基本介紹

  • 中文名:深入大型數據集cf
  • 作者:[美] J.T. Wolohan
  • 譯者:張若飛
  • 出版社:電子工業出版社
  • 出版時間:2021年2月
  • ISBN:9787121403682
作品簡介,作品目錄,

作品簡介

《深入大型數據集:並行與分布化Python代碼》共分3部分,主要介紹如何使用Python語言來處理大型數據集。第1部分介紹map和reduce編程風格,以及Python中基礎的map和reduce函式,並介紹如何將對象持久化,通過惰性函式和並行函式來加快大型數據集的處理速度。第2部分介紹Hadoop和Spark框架,以及如何使用mrjob庫來編寫Hadoop作業,如何實現PageRank算法,如何使用Spark來實現決策樹和隨機森林的機器學習模型。第3部分重點介紹雲計算和雲存儲的基礎知識,包括如何通過boto3的Python庫將檔案上傳到AWS S3服務,以及如何在AWS的EMR集群中運行分散式的Hadoop和Spark作業。
《深入大型數據集:並行與分布化Python代碼》適合有一定Python編程基礎,且希望掌握大型數據集處理能力的開發人員和數據科學家閱讀。

作品目錄

內容簡介
譯者序
前言
致謝
關於本書
關於作者
關於封面插圖
第1部分
1 入門介紹
1.1 你將從本書中學到什麼
1.2 為什麼是大型數據集
1.3 什麼是並行計算
1.4 map和reduce編程風格
1.5 可提升速度和可擴展性的分散式計算
1.6 Hadoop:一個map和reduce的分散式框架
1.7 提供高性能map、reduce和其他功能的Spark
1.8 AWS Elastic MapReduce——雲上的大型數據集
總結
2加速大型數據集處理任務:map函式和並行計算
2.1 map函式簡介
2.2 並行處理
2.3 把它們拼在一起:抓取維基百科(Wikipedia)網站
2.4 練習
總結
3用來映射複雜轉換的函式管道
3.1 輔助函式和函式鏈
3.2 揭露黑客的通信手段
3.3 Twitter人口預測
3.4 練習
總結
4用惰性工作流來處理大型數據集
4.1 什麼是惰性計算
4.2 一些你需要知道的惰性函式
4.3 理解疊代器:Python惰性能力背後的魔法
4.4 詩歌謎題:如何惰性處理大型數據集
4.5 惰性模擬:模擬漁村場景
4.6 練習
總結
5使用reduce進行累加操作
5.1 使用reduce函式進行N-X的轉換
5.2 reduce函式的三個部分
5.3 你熟悉的歸約函式
5.4 同時使用map函式和reduce函式
5.5 使用reduce來分析汽車銷售趨勢
5.6 加速map和reduce
5.7 練習
總結
6 使用高級並行化來加速map和reduce
6.1 充分利用並行map
6.2 解決並行map和reduce的悖論
總結
第2部分
7使用Hadoop和Spark處理真正的大型數據集
7.1 分散式計算
7.2 用於批處理的Hadoop
7.3 使用Hadoop找到高分單詞
7.4 用於互動式工作流的Spark
7.5 用Spark來記錄單詞得分
7.6 練習
總結
8使用Apache Streaming和mrjob處理大數據的最佳實踐
8.1 非結構化數據:日誌和文檔
8.2 使用Hadoop對網球球員進行分析
8.3 通過mrjob工具,以Python的方式來使用HadoopStreaming
8.4 使用mrjob來分析網球比賽
8.5 練習
總結
9在PySpark中使用map和reduce來實現PageRank算法
9.1 近距離了解PySpark
9.2 在PySpark中使用Elo和PageRank算法對網球選手進行評分
9.3 練習
總結
10使用機器學習和PySpark進行更快的決策
10.1 什麼是機器學習
10.2 機器學習基礎與決策樹分類器
10.3 PySpark中的快速隨機森林分類
總結
第3部分
11使用Amazon Web Services和S3在雲計算環境中處理大型數據集
11.1 AWS Simple Storage Service——針對大型數據集的解決方案
11.2 使用S3在雲中存儲數據
11.3 練習
總結
12使用Amazon的Elastic MapReduce在雲上實現MapReduce
12.1 在EMR上通過mrjob來運行Hadoop
12.2 在EMR上使用Spark來進行機器學習
12.3 練習
總結

相關詞條

熱門詞條

聯絡我們