Python大數據處理庫PySpark實戰

我國提出新基建概念，要加快大數據中心、人工智慧等新型基礎設施的建設進度，這無疑需要更多的大數據人才。PySpark可以對大數據進行分散式處理，降低大數據學習門檻，本書正是一本PySpark入門教材，適合有一定Python基礎的讀者學習使用。本書分為7章，第1章介紹大數據的基本概念、常用的大數據分析工具；第2章介紹Spark作為大數據處理的特點和算法；第3章介紹Spark實戰環境的搭建，涉及Windows和Linux作業系統；第4章介紹如何靈活套用PySpark對數據進行操作；第5章介紹PySpark ETL處理，涉及PySpark讀取數據、對數據進行統計分析等數據處理相關內容；第6章介紹PySpark如何利用MLlib庫進行分散式機器學習（Titanic倖存者預測）；第7章介紹一個PySpark和Kafka結合的實時項目。本書內容全面、示例豐富，可作為廣大PySpark入門讀者必備的參考書，同時能作為大中專院校師生的教學參考書，也可作為高等院校計算機及相關專業的大數據技術教材使用。

Python大數據處理庫PySpark實戰

相關詞條

熱門詞條