深入大型數據集cf

作品簡介

《深入大型數據集：並行與分布化Python代碼》共分3部分，主要介紹如何使用Python語言來處理大型數據集。第1部分介紹map和reduce編程風格，以及Python中基礎的map和reduce函式，並介紹如何將對象持久化，通過惰性函式和並行函式來加快大型數據集的處理速度。第2部分介紹Hadoop和Spark框架，以及如何使用mrjob庫來編寫Hadoop作業，如何實現PageRank算法，如何使用Spark來實現決策樹和隨機森林的機器學習模型。第3部分重點介紹雲計算和雲存儲的基礎知識，包括如何通過boto3的Python庫將檔案上傳到AWS S3服務，以及如何在AWS的EMR集群中運行分散式的Hadoop和Spark作業。

《深入大型數據集：並行與分布化Python代碼》適合有一定Python編程基礎，且希望掌握大型數據集處理能力的開發人員和數據科學家閱讀。

作品目錄

內容簡介

譯者序

前言

致謝

關於本書

關於作者

關於封面插圖

第1部分

1 入門介紹

1.1 你將從本書中學到什麼

1.2 為什麼是大型數據集

1.3 什麼是並行計算

1.4 map和reduce編程風格

1.5 可提升速度和可擴展性的分散式計算

1.6 Hadoop：一個map和reduce的分散式框架

1.7 提供高性能map、reduce和其他功能的Spark

1.8 AWS Elastic MapReduce——雲上的大型數據集

總結

2加速大型數據集處理任務：map函式和並行計算

2.1 map函式簡介

2.2 並行處理

2.3 把它們拼在一起：抓取維基百科（Wikipedia）網站

2.4 練習

總結

3用來映射複雜轉換的函式管道

3.1 輔助函式和函式鏈

3.2 揭露黑客的通信手段

3.3 Twitter人口預測

3.4 練習

總結

4用惰性工作流來處理大型數據集

4.1 什麼是惰性計算

4.2 一些你需要知道的惰性函式

4.3 理解疊代器：Python惰性能力背後的魔法

4.4 詩歌謎題：如何惰性處理大型數據集

4.5 惰性模擬：模擬漁村場景

4.6 練習

總結

5使用reduce進行累加操作

5.1 使用reduce函式進行N-X的轉換

深入大型數據集cf

基本介紹

作品簡介

作品目錄

相關詞條

熱門詞條