大數據基礎與套用(2019年機械工業出版社出版的圖書)

大數據基礎與套用(2019年機械工業出版社出版的圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《大數據基礎與套用》是2019年機械工業出版社出版的圖書,作者是趙國生、王健,本書共分為12章,通過實例使讀者具備解決實際問題的能力。

基本介紹

  • 中文名:大數據基礎與套用
  • 作者:趙國生、王健
  • 出版社:機械工業出版社
  • ISBN:9787111637974
內容簡介,圖書目錄,

內容簡介

《大數據基礎與套用》共分為12章,第1章介紹了大數據產生的背景、大數據的結構與特徵、大數據相關概念、大數據可視化、大數據相關工具與發展前景。第2~9章為基礎知識部分,介紹了大數據的生態系統全貌,重點對計算平台Hadoop、分散式檔案系統HDFS、計算框架MapReduce、開源資料庫HBase、典型工具NoSQL、集群計算Spark、流計算Storm和分散式協調系統Zookeeper等相關技術進行了詳細介紹,通過實例使讀者具備解決實際問題的能力。第10~12章為典型套用案例部分,介紹了大數據分析套用系統的開發過程,涵蓋了數據採集、數據分析、數據轉換和結果顯示的整個互動式大數據處理和分析流程。
《大數據基礎與套用》內容豐富、條理清晰、示例指導性強,讀者可以通過章後的習題對所學內容作進一步鞏固,熟練掌握大數據基本原理、工程套用場景及實驗分析技巧。
《大數據基礎與套用》適合作為大中專院校數據科學與大數據專業、計算機類專業的教材,也可以作為讀者自學或者科研技術人員的參考書。

圖書目錄

前言
第1章初識大數據
1.1大數據產生的背景
1.2大數據的結構與特徵
1.2.1大數據的結構
1.2.2大數據的特徵
1.3大數據相關概念
1.3.1大數據關鍵技術
1.3.2數據類型與數據管理
1.3.3數據倉庫
1.3.4數據挖掘
1.4大數據可視化
1.4.1什麼是數據可視化
1.4.2數據可視化的工具與方法
1.4.3數據可視化的建模
1.4.4數據可視化分類
1.5大數據相關工具
1.5.1Hadoop
1.5.2R語言
1.5.3Python語言
1.5.4RapidMiner
1.5.5Tableau
1.6大數據時代的新機遇
1.6.1數據價值
1.6.2套用價值
1.6.3發展前景
1.7本章小結
1.8習題
第2章大數據處理架構Hadoop
2.1Hadoop簡介
2.2Hadoop發展史及特點
2.3Hadoop體系結構
2.3.1HDFS體系結構
2.3.2MapReduce體系結構
2.4配置Linux環境
2.4.1安裝VMware12虛擬機
2.4.2部署CentOS 64位作業系統
2.4.3配置網路
2.4.4Linux終端
2.5Hadoop環境搭建
2.5.1JDK安裝和測試
2.5.2Hadoop安裝和配置
2.5.3SSH免密碼配置
2.6Hadoop關鍵組件
2.6.1HDFS
2.6.2HBase
2.6.3MapReduce
2.6.4Hive
2.6.5Pig
2.6.6Mahout
2.6.7ZooKeeper
2.6.8Flume
2.6.9Sqoop
2.6.10Ambari
2.7本章小結
2.8習題
第3章分散式檔案系統HDFS
3.1HDFS概念
3.1.1HDFS簡介
3.1.2HDFS相關概念
3.2HDFS體系結構
3.3HDFS檔案存儲機制
3.4HDFS的數據讀寫過程
3.4.1讀數據的過程
3.4.2寫數據的過程
3.5HDFS套用實踐
3.5.1HDFS常用命令
3.5.2HDFS的Web界面
3.5.3HDFS常用Java API及套用實例
3.6本章小結
3.7習題
第4章計算系統MapReduce
4.1MapReduce概述
4.1.1MapReduce簡介
4.1.2MapReduce 數據類型與格式
4.1.3數據類型Writable接口
4.1.4Hadoop序列化與反序列化機制
4.2MapReduce架構
4.2.1數據分片
4.2.2MapReduce的集群行為
4.2.3MapReduce作業執行過程
4.3MapReduce接口類
4.3.1MapReduce輸入的處理類
4.3.2MapReduce輸出的處理類
4.4MapReduce套用案例——單詞計數
程式
4.4.1WordCount代碼分析
4.4.2WordCount處理過程
4.5本章小結
4.6習題
第5章分散式資料庫HBase
5.1初識HBase
5.1.1HBase的來源
5.1.2HBase的特點
5.1.3HBase的系統架構
5.2HBase安裝與配置
5.2.1HBase運行模式分類
5.2.2Hbase的安裝
5.2.3HBase基本API實例
5.2.4HBase Shell工具使用
5.3Hbase的存儲結構
5.3.1存儲結構中重要模組
5.3.2HBase物理存儲和邏輯視圖
5.3.3數據坐標
5.4HBase的實現原理
5.4.1Hbase的讀寫流程
5.4.2表和Region
5.4.3Region的定位
5.5HBase表結構設計
5.5.1列族定義
5.5.2表設計原則
5.5.3Rowkey設計
5.6本章小結
5.7習題
第6章NoSQL資料庫
6.1NoSQL簡介
6.1.1NoSQL的含義
6.1.2NoSQL的產生
6.1.3NoSQL的特點
6.2NoSQL技術基礎
6.2.1一致性策略
6.2.2數據分區與放置策略
6.2.3數據複製與容錯技術
6.2.4數據的快取技術
6.3NoSQL的類型
6.3.1鍵值存儲
6.3.2列存儲
6.3.3面向文檔存儲
6.3.4圖形存儲
6.4NoSQL典型工具
6.4.1Redis
6.4.2CouchDB
6.5本章小結
6.6習題
第7章集群計算Spark
7.1深入理解Spark
7.1.1Spark簡介
7.1.2Spark與Hadoop差異
7.1.3Spark的適用場景
7.1.4Spark成功案例
7.2Spark的安裝與配置
7.2.1安裝模式
7.2.2Spark的安裝
7.2.3啟動並驗證Spark
7.3Spark程式的運行模式
7.3.1Spark on Yarn-cluster
7.3.2Spark on Yarn-client
7.4Spark編程實踐
7.4.1啟動Spark Shell
7.4.2Spark RDD基本操作
7.4.3Spark應用程式
7.5Spark的三個典型套用案例
7.5.1詞頻數統計
7.5.2人口的平均年齡
7.5.3搜尋頻率的K個關鍵字
7.6本章小結
7.7習題
第8章流計算Storm
8.1流計算概述
8.1.1流計算的概念
8.1.2流計算與Hadoop
8.1.3流計算框架
8.2開源流計算框架Storm
8.2.1Storm簡介
8.2.2Storm的特點
8.2.3Storm的設計思想
8.2.4Storm的框架設計
8.3實時計算處理流程
8.3.1數據實時採集和計算
8.3.2數據查詢服務
8.4典型的流引擎Spark Streaming
8.4.1Spark Streaming
8.4.2Storm和Spark Streaming框架
對比
8.5流計算的套用案例——電商
實時銷售額的監控
8.5.1技術架構
8.5.2技術實現
8.5.3項目預案
8.6本章小結
8.7習題
第9章分散式協調系統ZooKeeper
9.1ZooKeeper概述
9.1.1ZooKeeper簡介
9.1.2ZooKeeper數據模型
9.1.3ZooKeeper特徵
9.1.4ZooKeeper工作原理
9.2ZooKeeper的安裝和配置
9.2.1安裝ZooKeeper
9.2.2配置ZooKeeper
9.2.3運行ZooKeeper
9.3ZooKeeper的簡單操作及步驟
9.4ZooKeeper Shell操作
9.4.1ZooKeeper服務命令
9.4.2ZooKeeper客戶端命令
9.5ZooKeeper API操作
9.6ZooKeeper套用案例——Master
選舉
9.6.1使用場景及結構
9.6.2編碼實現
9.7本章小結
9.8習題
第10章銷售數據分析系統
10.1數據採集
10.1.1在Windows下安裝JDK
10.1.2在Windows下安裝Eclipse
10.1.3將WebCollector項目導入
Eclipse
10.1.4在Windows下安裝MySQL
10.1.5連線JDBC
10.1.6運行爬蟲程式
10.2在HBase集群上準備數據
10.2.1將數據導入到MySQL
10.2.2將MySQL表中的數據導入到HBase
表中
10.3安裝Phoenix中間件
10.3.1Phoenix架構
10.3.2解壓安裝Phoenix
10.3.3Phoenix環境配置
10.3.4使用Phoenix
10.4基於Web的前端開發
10.4.1將Web前端項目導入Eclipse
10.4.2安裝Tomcat
10.4.3在Eclipse中配置Tomcat
10.4.4在Web瀏覽器中查看執行
結果
10.5本章小結
10.6習題
第11章互動式數據處理
11.1數據預處理
11.1.1查看數據
11.1.2數據擴展
11.1.3數據過濾
11.1.4數據上傳
11.2創建數據倉庫
11.2.1創建數據倉庫的基本命令
11.2.2創建Hive區分表
11.3數據分析
11.3.1基本統計
11.3.2用戶行為分析
11.3.3實時數據
11.4本章小結
11.5習題
第12章協同過濾推薦系統
12.1推薦算法概述
12.1.1基於人口統計學的推薦
12.1.2基於內容的推薦
12.1.3基於協同過濾的推薦
12.2協同過濾推薦算法分析
12.2.1基於用戶的協同過濾推薦
12.2.2基於物品的協同過濾推薦
12.3Spark MLlib推薦算法套用
12.3.1ALS算法原理
12.3.2ALS的套用設計
12.4本章小結
12.5習題
附錄課後習題答案
參考文獻

相關詞條

熱門詞條

聯絡我們