Python大數據處理庫PySpark實戰

我國提出新基建概念,要加快大數據中心、人工智慧等新型基礎設施的建設進度,這無疑需要更多的大數據人才。PySpark可以對大數據進行分散式處理,降低大數據學習門檻,本書正是一本PySpark入門教材,適合有一定Python基礎的讀者學習使用。本書分為7章,第1章介紹大數據的基本概念、常用的大數據分析工具;第2章介紹Spark作為大數據處理的特點和算法;第3章介紹Spark實戰環境的搭建,涉及Windows和Linux作業系統;第4章介紹如何靈活套用PySpark對數據進行操作;第5章介紹PySpark ETL處理,涉及PySpark讀取數據、對數據進行統計分析等數據處理相關內容;第6章介紹PySpark如何利用MLlib庫進行分散式機器學習(Titanic倖存者預測);第7章介紹一個PySpark和Kafka結合的實時項目。本書內容全面、示例豐富,可作為廣大PySpark入門讀者必備的參考書,同時能作為大中專院校師生的教學參考書,也可作為高等院校計算機及相關專業的大數據技術教材使用。

相關詞條

熱門詞條

聯絡我們