《PySpark大數據分析與套用》是2024年人民郵電出版社出版的圖書。
基本介紹
- 中文名:PySpark大數據分析與套用
- 出版時間:2024年4月1日
- 出版社:人民郵電出版社
- ISBN:9787115634900
《PySpark大數據分析與套用》是2024年人民郵電出版社出版的圖書。
2.9.4配置Jupyter Notebook實現和PySpark互動59 2.9.5為Anaconda安裝擴展庫61 2.10拓展閱讀——Spark誕生的啟示62 2.11習題62 〖3〗Spark大數據分析技術(Python版·微課版)目錄〖3〗第3章Spark RDD編程63 3.1RDD的創建方式63 3.1.1使用程式中的數據集創建RDD63 3.1.2使用文本檔案創建RDD65 3.1.3使用...
《Python+Spark 2.0+Hadoop機器學習與大數據實戰》是2018年1月1日清華大學出版社出版的圖書,作者是林大貴。內容簡介 本書從淺顯易懂的“大數據和機器學習”原理說明入手,講述大數據和機器學習的基本概念,如分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習...
《Python大數據架構全棧開發與套用》是電子工業出版社出版的圖書,作者是宋天龍,張偉松。《Python大數據架構全棧開發與套用》介紹了如何使用Python實現企業級的大數據全棧式開發、設計和編程工作,涉及的知識點包括數據架構整體設計、數據源和數據採集、數據同步、訊息佇列、關係資料庫、NoSQL資料庫、批處理、流處理、圖計算...
《Python大數據處理庫PySpark實戰》是清華大學出版社出版圖書。內容簡介 我國提出新基建概念,要加快大數據中心、人工智慧等新型基礎設施的建設進度,這無疑需要更多的大數據人才。PySpark可以對大數據進行分散式處理,降低大數據學習門檻,本書正是一本PySpark入門教材,適合有一定Python基礎的讀者學習使用。本書分為7章,第1...
《大數據處理技術基礎與套用(Hadoop+Spark)》是2024年人民郵電出版社出版的圖書。內容簡介 本書是一本介紹大數據處理技術的專業圖書,力求提高讀者對大數據處理的認知水平和動手能力。本書首先介紹大數據技術的相關概念和發展歷程,從實踐的角度介紹 Hadoop 和 Spark 的安裝部署、編程基礎和使用方法;然後結合具體案例,...
2.2 第 2 步:使用Scala shell 或PySpark shell 18 2.3 第3 步:理解Spark 套用的相關概念 22 2.3.1 Spark 套用與SparkSession 22 2.3.2 Spark 作業 23 2.3.3 Spark 執行階段 23 2.3.4 Spark 任務 24 2.4 轉化操作、行動操作以及惰性求值 24 2.5 Spark UI 26 2.6 第 一...
《Scala和Spark大數據分析函式式編程、數據流和機器學習》是2020年6月1日清華大學出版社出版的圖書,作者是雷扎爾·卡里姆(Md.、Rezaul、Karim)、斯里達爾·阿拉(SridharAl la)。作者介紹 Md. Rezaul Karim 是德國Fraunhofer FIT的研究學者,也是德國亞琛工業大學的博士學位研究生預科生。他擁有計算機科學的學士與碩...
本書是使用Spark進行大規模數據分析的實戰寶典,由大數據公司Cloudera的數據科學家撰寫。四位作者首先結合數據科學和大數據分析的廣闊背景講解了Spark,然後介紹了用Spark和Scala進行數據處理的基礎知識,接著討論了如何將Spark用於機器學習,同時介紹了常見套用中幾個常用的算法。此外還收集了一些更加新穎的套用,比如通過文本...
本書系統講述Apache Spark/PySpark大數據計算平台的原理,以及如果將Apache PySpark套用於大數據的實時流處理、批處理等各個場景。通過原理深入學習和實踐示例、案例的學習套用,使讀者了解並掌握Apache Spark/PySpark的基本原理和技能,接近理論與實踐的距離。全書共分為8章,主要內容包括:Spark架構原理與集群搭建、開發和...
從事IT研發和項目管理工作十餘年。使用多種主流程式設計語言,深耕於大數據套用及人工智慧技術,多年從事金融、數據倉庫、智慧醫療等領域的研發工作。5年以上IT行業授課、培訓經驗,並在多所高校擔任外聘講師。張粵磊 平安壹錢包前大數據架構師。業內知名大數據專家,多本大數據暢銷書的作者。2016年以來,其每年都以高級...
《Python編程:從數據分析到數據科學》是2019年電子工業出版社出版的圖書,作者是朝樂門。本書主要講解大數據人才常用的Python語言及第三方擴展庫的基礎知識、思路、方法、經驗和技巧,打通了從Python到數據分析再到數據科學的通道,改變了傳統圖書中對Python、數據分析和數據科學三個知識領域的拆分式講解讀模式。本書創新...
4.3 Spark Python大數據分析套用 151 4.3.1 Spark Python開發環境搭建 151 4.3.2 Spark RDD運算類型示例 159 4.3.3 套用PySpark進行大數據分析 167 第5章 金融數據模型設計與調優 173 5.1 金融行業典型套用場景 173 5.1.1 銀行領域 173 5.1.2 保險領域 181 5.1.3 證券領域...
大數據分散式計算課程是大數據方向套用統計專業碩士學生的專業必修課,通過本課程的學習使學生能夠掌握目前大數據挖掘領域常用的並行計算方法,加深學生對統計並行計算的理解,培養學生使用在現代並行架構下利用統計方法深入挖掘大數據中的數據結構並能解決一些實際問題的能力。圖書目錄 第1章 統計分析與並行計算 1.1 並行計算...
《Python編程:從數據分析到數據科學(第2版)》是2021年電子工業出版社出版的圖書,作者是朝樂門。內容簡介 本書是為具有數據思維的數據科學、數據分析和大數據套用人群編寫的Python 學習圖書。本書改變了同類圖書中普遍存在的“將Python 當作C/Java 來教(或學)”的現狀,強調了Python 在數據分析和數據科學中的...
9.4.2 統計分析網站日誌數據 127 9.4.3 統計詞頻 131 第10章 Spark的安裝與基礎編程 133 10.1 Spark的安裝(Python版) 133 10.1.1 下載Spark安裝軟體 134 10.1.2 安裝與配置Spark 134 10.1.3 在PySpark中運行代碼 135 10.1.4 Spark獨立套用程式編程示例 136 10.2 Spark...
《全棧數據之門》以數據分析領域最熱的Python語言為主要線索,介紹了數據分析庫numpy、Pandas與機器學習庫scikit-learn,使用了可視化環境Orange 3來理解算法的一些細節。對於機器學習,既有常用算法kNN與Kmeans的套用,決策樹與隨機森林的實戰,還涉及常用特徵工程與深度學習中的自動編程器。在大數據Hadoop與Hive環境的基礎...
《大數據技術(微課版)》是2020年清華大學出版社出版的圖書,作者是曹潔、孫玉勝。內容簡介 本書系統地講解了大數據處理常用技術,具體包括大數據處理架構Hadoop、分散式檔案系統HDFS、MapReduce編程模型、分散式資料庫Hbase、NoSQL資料庫、Spark分散式記憶體計算、MapReduce套用開發、Spark SQL編程、數據可視化。本書編寫特色...
4.2 基於PySpark的互動性Spark 59 4.3 編寫Spark套用程式 61 4.4 小結 67 第5 章 分散式分析和模式 69 5.1 鍵計算 70 5.1.1 複合鍵 71 5.1.2 鍵空間模式 74 5.1.3 pair與stripe 78 5.2 設計模式 80 5.2.1 概要 81 5.2.2 索引 85 5.2.3 過濾 90 5.3 邁向* 後一英里...
《R編程入門經典——大數據時代的統計分析語言》是2015年清華大學出版社出版的圖書,作者是英MarkGardener。內容簡介 R語言是非常靈活且功能強大的,它不同於你用過的絕大 多數電腦程式。為全面揭示R語言的潛力,R編程入門經典——大數據時代的統計分析語言以通俗易懂的方式,深入研究R語言,使讀者能夠處理棘手乃至最...
隨後介紹了變數和數據類型、條件分支與循環、列表與元組、字典、函式、類、標準庫以及程式中的異常現象及處理方法;第Ⅱ部分為Python提高篇,介紹了檔案處理、圖形用戶界面、資料庫操作、執行緒與進程、測試及打包等知識;第Ⅲ部分為拓展篇,介紹了Python在Web套用、商業級別的技術框架、大數據套用、AI套用等方面的拓展知識...
提供探索性數據分析工具,使用筆記本進行互動式建模;最佳化數據準備和ML建模過程,利用PySpark/Python、SparkR/R和Scala工具進行大規模數據預處理和模型訓練開發。歷史榮譽 2022年11月17日,拓數派在2022年中國人力資源「天狼星」評選中榮獲 “2022人力資源數位化最佳實踐” 殊榮 2022年12月21日,拓數派上榜朋湖網“2022...
1.7 大數據有多大18 1.7.1 大數據分析22 1.7.2 數據科學和大數據正在帶來改變:用例23 1.8 案例研究:大數據移動套用程式24 1.9 數據科學入門:人工智慧——計算機科學與數據科學的交叉學科26 1.10 小結28 第2章 Python程式設計概述29 2.1 簡介29 2.2 變數和賦值語句30 2.3 算術運算31 2.4...
7.8Spark的套用案例137 7.9總結138 7.10思考題138 參考文獻138 第8章Spark的安裝、部署與運行139 8.1Spark的安裝、配置與運行139 8.2啟動Spark142 8.2.1啟動sparksql shell運行SQL144 8.2.2啟動pyspark shell運行SQL144 8.2.3用pyspark shell進行數據處理145 8.2.4啟動scala shell運行WordCount145 8....
背景:大數據問題 Spark的歷史 Spark的現狀和未來 運行Spark 第2章Spark淺析 Spark的基本架構 SparkAPI的多語言支持 SparkAPI 啟動Spark 轉換操作 動作操作 Spark用戶接口 一個完整的例子 小結 第3章Spark工具集介紹 運行生產套用程式 Dataset:類型安全的結構化API 結構化流處理 機器學習和高級數據分析 低級API SparkR...
8.2.2 PySpark 8.2.3 從Java/Scala調用Python 8.3 總結 第9章 Scala中的NLP 9.1 文本分析流程 9.2 Spark的MLlib庫 9.2.1 TF-IDF 9.2.2 LDA 9.3 分詞、標註和分塊 9.4 POS標記 9.5 使用word2vec尋找詞關係 9.6 總結 第10章 高級模型監控 10.1 系統監控 10.2 進程監控 10...
本書內容詳盡、示例豐富,適合作為Flink初學者必備的參考書,也非常適合作為高等院校和培訓機構大數據及相關專業的師生教學參考。作者簡介 汪明,中國礦業大學碩士,徐州軟體協會副理事長,某創業公司合伙人。從事軟體行業十餘年,發表論文數十篇。著有圖書《Python大數據處理庫PySpark實戰》《TypeScript實戰》《Go並發編程...