大數據基礎及套用

大數據基礎及套用

《大數據基礎及套用》是清華大學出版社的圖書,作者是呂雲翔、鐘巧靈、衣志昊。

基本介紹

  • 書名:大數據基礎及套用
  • 作者:呂雲翔、鐘巧靈、衣志昊
  • 出版社:清華大學出版社
  • 出版時間:2017年03月01日
  • 定價:39.5 元
  • ISBN:9787302466918
  • 印刷日期:2017.03.20
  • 印次:1-1
內容簡介,目錄,

內容簡介

本書從大數據的基本概念開始,由淺入深地領會大數據的精髓。本書除了講述必要的大數據理論之外,還通過大數據實踐來講述大數據技術的套用,包括如何運用阿里雲大數據計算平台分析和解決實際問題,很好地體現了大數據理論與實踐的有機結合。

目錄

第一部分大數據概述及基礎
第1章大數據概念和發展背景
1.1什麼是大數據
1.2大數據的特點
1.3大數據的發展
1.4大數據的套用
1.5習題
第2章大數據系統架構概述
2.1總體架構概述
2.1.1總體架構設計原則
2.1.2總體架構參考模型
2.2運行架構概述
2.2.1物理架構
2.2.2集成架構
2.2.3安全架構
2.3阿里雲飛天系統體系架構
2.3.1阿里雲飛天整體架構
2.3.2阿里雲飛天平台核心
2.3.3阿里雲飛天開放服務
2.3.4阿里雲飛天的特色
2.4主流大數據系統廠商
2.4.1阿里雲數加平台
2.4.2Cloudera
2.4.3Hortonworks
2.4.4Amazon
2.4.5Google
2.4.6微軟
2.5習題
第3章分散式通信與協同
3.1數據編碼傳輸
3.1.1數據編碼概述
3.1.2LZSS算法
3.1.3Snappy壓縮庫
3.2分散式通信系統
3.2.2訊息佇列
3.2.3套用層多播通信
3.2.4阿里雲夸父RPC系統
3.2.5HadoopIPC的套用
3.3分散式協同系統
3.3.1Chubby鎖服務
3.3.2ZooKeeper
3.3.3阿里雲女媧協同系統
3.3.4ZooKeeper在HDFS高可用方案中的使用
3.4習題
第4章大數據存儲
4.1大數據存儲技術的發展
4.2海量數據存儲的關鍵技術
4.2.1數據分片與路由
4.2.2數據複製與一致性
4.3重要數據結構和算法
4.3.1BloomFilter
4.3.2LSMTree
4.3.3MerkleTree
4.3.4CuckooHash
4.4.1檔案存儲格式
4.4.2GFS
4.4.3HDFS
4.4.4阿里雲盤古
4.5.1NoSQL資料庫概述
4.5.2KV資料庫
4.5.3列式資料庫
4.5.4圖資料庫
4.5.5文檔資料庫
4.6阿里雲資料庫
4.6.1雲資料庫Redis
4.6.2雲資料庫RDS
4.6.3雲資料庫Memcache
4.7大數據存儲技術的趨勢
4.8習題
第二部分大數據處理
第5章分散式處理
5.1CPU多核和POSIXThread
5.2MPI並行計算框架
5.3HadoopMapReduce
5.4Spark
5.5數據處理技術的發展
5.6習題
第6章HadoopMapReduce解析
6.1HadoopMapReduce架構
6.2HadoopMapReduce與高效能計算、格線計算的區別
6.3MapReduce工作機制
6.3.1Map
6.3.2Reduce
6.3.3Combine
6.3.4Shuffle
6.3.5SpeculativeTask
6.3.6任務容錯
6.4套用案例
6.4.1WordCount
6.4.2WordMean
6.4.3Grep
6.5MapReduce的缺陷與不足
6.6習題
第7章Spark解析
7.1SparkRDD
7.2Spark與MapReduce的對比
7.3Spark的工作機制
7.3.1DAG工作圖
7.3.2Partition
7.3.3Lineage容錯方法
7.3.4記憶體管理
7.4數據的讀取
7.4.1HDFS
7.4.2AmazonS3
7.4.3HBase
7.5套用案例
7.5.1日誌挖掘
7.5.2判別西瓜好壞
7.6Spark的發展趨勢
7.7習題
第8章流計算
8.1流計算概述
8.2流計算與批處理系統的對比
8.3Storm流計算系統
8.4Samza流計算系統
8.5阿里雲流計算
8.6集群日誌檔案的實時分析
8.7流計算的發展趨勢
8.8習題
第9章圖計算
9.1圖計算概述
9.2圖計算與流計算、批處理的對比
9.3SparkGraphX
9.4Pregel
9.5航班機場狀態分析
9.6圖計算的發展趨勢
9.7習題
第10章阿里雲大數據計算服務平台
10.1MaxCompute概述
10.2MR計算
10.3SQL計算
10.4Graph計算
10.5習題
第11章集群資源管理與調度
11.1集群資源統一管理系統
11.1.1集群資源管理概述
11.1.2ApacheYARN
11.1.3ApacheMesos
11.1.4GoogleOmega
11.2資源管理模型
11.2.1基於slot的資源表示模型
11.2.2基於最大最小公平原則的資源分配模型
11.3資源調度策略
11.3.1調度策略概述
11.3.2CapacityScheduler調度
11.3.3FairScheduler調度
11.4在YARN上運行計算框架
11.4.1MapReduceonYARN
11.4.2SparkonYARN
11.4.3YARN程式設計
11.5阿里雲伏羲調度系統
11.5.1伏羲調度系統架構
11.5.25K挑戰
11.5.3伏羲最佳化實踐
11.6習題
第三部分大數據分析與套用
第12章數據分析
12.1數據操作與繪圖
12.1.1數據結構
12.1.2繪圖功能
12.2初級數據分析
12.2.1描述性統計分析
12.2.2回歸診斷
12.3互動式數據分析
12.3.1互動式數據分析的特徵
12.3.2互動式數據處理的典型套用
12.3.3典型的處理系統
12.4數據倉庫與分析
12.4.1數據倉庫的基本架構
12.4.2數據倉庫的實現步驟
12.4.3分散式數據倉庫Hive
12.4.4數據倉庫之SQL分析
12.4.5阿里雲MaxCompute數據倉庫案例
12.5習題
第13章數據挖掘與機器學習技術
13.1相關理論基礎知識
13.1.1數據挖掘與機器學習簡介
13.1.2關聯分析
13.1.3分類與回歸
13.1.4聚類分析
13.1.5離群點檢測
13.1.6複雜數據類型的挖掘
13.2套用實踐
13.2.1廣告點擊率預測
13.2.2並行隨機梯度下降
13.2.3自然語言處理:文檔相似性的計算
13.2.4阿里雲PAI與ET
13.3深度學習
13.3.1深度學習簡介
13.3.2DistBelief
13.3.3TensorFlow
13.4數據挖掘與機器學習的發展趨勢
13.5習題
第14章大數據實踐:基於數加平台的推薦系統
14.1數據集簡介
14.2數據探索
14.3方案設計
14.4訓練集構造
14.4.1MapReduce環境配置
14.4.2MapReduce代碼編寫
14.4.3特徵提取與標籤提取
14.4.4訓練集採樣
14.4.5缺失值填充
14.5模型訓練與預測
14.6模型預測的準確性評測
14.7特徵重要性的評估
14.8總結
參考文獻

相關詞條

熱門詞條

聯絡我們