Python大數據分析

內容簡介

這本書先介紹了如何使用Ppandas在Python中進行數據操作，教您熟悉統計分析和繪圖技術。還將通過多個實踐測試，讓您學會使用Dask分析分布在多台計算機上的數據。接著還將為您介紹如何在記憶體無法容納全部數據時，為繪圖聚合數據。本書還將帶領您探索Hadoop(HDFS和YARN)，它可幫助您處理更大的數據集。此外，這本書還介紹了Spark相關知識，並解釋了它如何與其他工具進行互動。

Python大數據分析是為Python開發人員、數據分析師和數據科學家設計的，他們需要親自動手控制數據並將其轉化為有影響力的見解。書中關於統計度量和關係資料庫的基本知識將幫助您理解在本書中的各種概念。

圖書目錄

第1章Python數據科學堆疊1

1.1概述1

1.2Python庫和軟體包2

1.2.1IPython：一個功能強大的互動式shell2

1.2.2Jupyter Notebook4

1.2.3使用IPython還是Jupyter8

1.2.4Numpy9

1.2.5Scipy10

1.2.6Matplotlib10

1.2.7Pandas11

1.3使用Pandas11

1.3.1讀取數據12

1.3.2數據操作13

1.4數據類型轉換21

1.5聚合和分組24

1.6從Pandas導出數據26

1.7Pandas可視化29

1.8總結31

第2章統計數據可視化33

2.1概述33

2.2可視化圖表34

2.3圖表的組件36

2.4Seaborn40

2.5圖的類型41

2.5.1折線圖(Line graph)42

2.5.2散點圖(Scatter plot)45

2.5.3直方圖(Histogram)48

2.5.4箱線圖(Boxplot)51

2.6Pandas DataFrame54

2.7修改圖的組件57

2.7.1配置軸對象的標題和標籤57

2.7.2修改線條顏色和樣式60

2.7.3修改圖的大小60

2.8導出圖像63

2.9總結67

第3章使用大數據框架69

3.1概述69

3.2Hadoop70

3.2.1使用HDFS操控數據71

3.3Spark數據處理平台73

3.3.1Spark SOL以及Pandas DataFrame75

3.4Parquet檔案80

3.4.1編寫Parquet檔案81

3.4.2使用Parquet和Partitions提高分析性能82

Python大數據分析

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條