《spark項目實戰》是2021年清華大學出版社出版的圖書。本書運用Spark計算框架的核心組件對電商數據進行分析,以項目形式呈現,其內容涵蓋環境搭建、數據分析、數據持久化和數據可視化, 涉及JavaEE、ECharts、Hadoop、HBase、Spark、Kafka和ZooKeeper等技術點的綜合套用。
基本介紹
- 中文名:spark項目實戰
- 作者:黑馬程式設計師
- 出版社:清華大學出版社
- ISBN:9787302581475
《spark項目實戰》是2021年清華大學出版社出版的圖書。本書運用Spark計算框架的核心組件對電商數據進行分析,以項目形式呈現,其內容涵蓋環境搭建、數據分析、數據持久化和數據可視化, 涉及JavaEE、ECharts、Hadoop、HBase、Spark、Kafka和ZooKeeper等技術點的綜合套用。
Spark實戰(第2版)作者簡介 編輯 播報 Jean-Georges Perrin是-位經驗豐富的數據和軟體架構師。他是法國的第一位IBM Champion,並連續12年獲獎,成為終身IBM Chempion。Jean-Georges Perrin 對軟體工程和數據的各個方面充滿熱情。新項目促使...
第3章 編寫Spark應用程式 3.1在Eclipse上生成一個新的Spark項目 3.2開發應用程式 3.2.1 準備 GitHub 檔案數據 3.2.2 載入 JSON 3.2.3 從Eclipse運行套用 3.2.4 數據匯總 3.2.5 排除非公司員工 3.2.6 廣播變數 3.2....
Spark是當今大數據領域最活躍、最熱門、最高效的大數據通用計算平台,是Apache軟體基金會下所有開源項目中三大頂級開源項目之一。內容簡介 在“One Stack to rule them all”理念的指引下,Spark基於RDD成功地構建起了大數據處理的一體化解決...
11.2.2項目創建170 11.2.3Spark包引入174 11.3Wordcount創建實戰174 11.4IDEA導入Spark源碼177 11.5小結183 第12章Spark簡介184 12.1Spark發展歷史184 12.2Spark在國內外的使用185 12.3Spark生態系統簡介188 12.3.1Hadoop生態...
《Spark大數據實時分析實戰》是2020年北京理工大學出版社出版的圖書。內容簡介 《Spark大數據實時分析實戰》分為六個項目,通過真實大數據實時分析項目的導入,引導讀者完成大數據實時分析平台Spark的搭建,通過對基於Hadoop生態圈中Yarn資源調度...
295 6.6.1 決策樹基本原理 295 6.6.2 決策樹套用示例:Titanic倖存者預測 296 6.7 小結 299 第7章 實戰:PySpark+Kafka實時項目 301 7.1 Kafka和Flask環境搭建 301 7.2 代碼實現 303 7.3 小結 310 ...
《Spark機器學習實戰》是2020年9月人民郵電出版社出版的圖書,作者是[美]西亞瑪克·阿米爾霍吉(Siamak Amirghodsi)。內容簡介 機器學習是一門多領域交叉學科,可以通過模擬來讓計算機獲取新的知識或技能。Apache Spark是一種通用大數據框架...
《Spark海量數據處理:技術詳解與平台實戰》是2019年12月人民郵電出版社出版的圖書,作者是范東來。內容簡介 本書基於Spark發行版2.4.4寫作而成,包含大量的實例與一個完整項目,層次分明,循序漸進。全書分為3部分,涵蓋了技術理論與實戰...
3.9 案例分析:Spark RDD實現單詞計數 90 3.9.1 新建Maven管理的Spark項目 90 3.9.2 編寫WordCount程式 92 3.9.3 提交程式到集群 94 3.10 案例分析:Spark RDD實現分組求TopN 96 3.11 案例分析:Spark RDD實現二次...
第5~6章主要講解大數據環境中常見的輔助系統,HBase資料庫以及Kafka流處理平台,包含輔助系統的搭建方式、使用方法以及相關底層實現的基本原理;第9章是一個綜合項目,利用Spark框架開發流式計算系統。掌握Spark相關技術,能夠很好地適應企業...
第1章 Spark開發準備——Scala基礎 1.1 什麼是Scala 1.2 安裝Scala 1.3 Scala基礎 1.4 集合 1.5 類和對象 1.6 抽象類和特質 1.7 使用Eclipse創建Scala項目 1.8 使用IntelliJ IDEA創建Scala項目 第2章 初識Spark 2.1...
7.5.4 Spark Streaming記憶體最佳化132 7.6 實例——項目實戰中的調優示例133 7.6.1 合理的批處理時間(batchDuration)133 7.6.2 合理的Kafka拉取量(maxRatePerPartition參數設定)134 7.6.3 快取反覆使用的Dstream(RDD)135 7....
《Spark大數據分析與實戰》是2020年09月西安電子科技大學出版社出版的圖書,作者鄭述招,本書共七個項目,較為全面地介紹了Spark的數據分析與編程基本知識。內容簡介 Spark是當前主流的大數據計算框架,本書較為全面地介紹了Spark的基本...
8.1 Spark GraphX 183 8.2 Spark GraphX的抽象 184 8.3 Spark GraphX圖的構建 185 8.4 Spark GraphX圖的計算模式 187 8.5 GraphX 3個主要算法實戰 189 8.6 GraphX綜合套用項目實戰 192 第9章 Redis資料庫入門...
11.4SparkStreaming實戰248 11.5SparkSQL和DataFrame實戰253 11.6小結266 第12章大數據網站日誌分析項目267 12.1項目介紹267 12.2網站離線項目267 12.2.1業務框架圖267 12.2.2子服務“趨勢分析”詳解268 12.2.3表格的設計272 12...
《基於Hadoop與Spark的大數據開發實戰》是2018年人民郵電出版社出版的圖書。編輯推薦 1、選取知識點核心實用,以網際網路 實現終身學習 2、以企業需求為設計導向,以任務驅動為講解方式 3、以案例為主線組織知識點,以實戰項目來提升技術 4...
3.5Spark基礎 3.5.1Spark原理和介紹 3.5.2Spark MLlib機器學習介紹 3.5.3Spark GraphX圖計算介紹 3.5.4Spark Streaming流式計算介紹 3.5.5Scala編程入門和Spark編程 3.5.6Spark項目案例實戰和分散式部署 第4章Docker容器 4....
第14章 旅遊酒店評價分析項目實戰 266 14.1 項目介紹 266 14.2 項目需求及分析 267 14.2.1 數據集需求 267 14.2.2 功能需求 267 14.3 詳細實現 268 14.3.1 數據集上傳到HDFS 269 14.3.2 Spark數據清洗 271...
處理分散式數據;第3篇“進階”,包括RDD的高級操作、用SQL語法分析結構化數據、實時處理流式數據;第4篇“高階”,包括實時處理流式數據、Spark的相關最佳化;第5篇“商業項目實戰”,用Spark的各種組件實現一個學生學情分析商業項目。
文艾(艾叔):系統分析師,原解放軍理工大學-奇虎360聯合實驗室技術負責人;具有多年大數據開發和運維經驗,帶領團隊完成了與華為、中興通訊和奇虎360等公司的多個大數據類項目;曾受邀為中興通訊和奇虎360等公司做技術培訓,其主講的Spark...
第二篇講解了Spark SQL 實例,使得讀者掌握Spark SQL的入門操作,了解Spark RDD、DataFrame和DataSet,並熟悉 DataFrame 各種操作。第三篇講解了基於WiFi探針的商業大數據分析項目,實例中包含數據採集、預處理、存儲、利用Spark SQL 挖掘數據...
Apache Spark 深度學習實戰 《Apache Spark 深度學習實戰》是2022年中國水利水電出版社出版的圖書。
《Hadoop+Spark大數據技術(微課版)》是2018年11月清華大學出版社出版的圖書,作者是劉彬斌主、李柏章、周磊、李永富。內容簡介 全書內容分為大數據系統基礎、Hadoop技術、Spark技術和項目實戰4部分。其中,Linux是學習大數據技術的基礎,先...
Bagel: Pregel on Spark,可以用Spark進行圖計算,這是個非常有用的小項目。Bagel自帶了一個例子,實現了Google的PageRank算法。當下Spark已不止步於實時計算,目標直指通用大數據處理平台,而終止Spark,開啟SparkSQL或許已經初見端倪。大數據...
第5篇 商業項目實戰 - 第11章 實戰:學生學習情況分析系統 392 11.1 項目概述 392 ∣11.1.1 業務背景 392 ∣11.1.2 劃分業務模組 392 11.2 開發環境說明 393 11.3 項目實現 394 ∣11.3.1 構建工程 ...
11.6PyDev設定SparkPython程式庫 247 11.7PyDev設定環境變數 248 11.8新建PyDev項目 251 11.9加入WordCount.py程式 253 11.10輸入WordCount.py程式 254 11.11創建測試檔案並上傳至HDFS目錄 257 11.12使用spark-submit執行WordCount...
4.5項目實戰2:基於Zookeeper 實現伺服器上下線動態感知 4.5.1需求描述 4.5.2開發實現 4.6本章小結 ●第5章分散式資料庫Hbase 5.1Hbase資料庫介紹 5.1.1Hbase簡介 5.1.2Hbase表的數據模型 5.2Hbase整體架構 5.3Hbase...