國之重器出版工程:雲計算大數據處理

國之重器出版工程:雲計算大數據處理

《國之重器出版工程:雲計算大數據處理》是2019年10月人民郵電出版社出版的圖書,作者是劉鵬、於全、楊震宇、陳偉、王磊、張乃甜。

基本介紹

  • 書名:國之重器出版工程:雲計算大數據處理
  • 作者:劉鵬、於全、楊震宇、陳偉、王磊、張乃甜
  • ISBN:9787115487650
  • 頁數:252頁
  • 定價:118元
  • 出版社:人民郵電出版社
  • 出版時間:2019年10月
  • 裝幀:平裝
  • 開本:小16開
內容簡介,圖書目錄,

內容簡介

本書介紹了基於雲計算的大數據處理技術,重點介紹了一款高效的、實時分析處理海量數據的強有力工具—數據立方。數據立方是針對大數據處理的分散式資料庫,能夠可靠地對大數據進行實時處理,具有即時回響多用戶並發請求的能力。
本書通過對當前主流的大數據處理系統進行深入剖析,闡述了數據立方產生的背景,介紹了數據立方的整體架構以及安裝和詳細開發流程,並給出了4個完整的數據立方綜合套用實例。所有實例都經過驗證並附有詳細的步驟說明,無論是對於雲計算的初學者還是想進一步深入學習大數據處理技術的研究和開發人員都有很好的參考價值。讀者也可從本書配套網站中國雲計算和中國大數據獲取更多資料或求解疑難問題。

圖書目錄

第1章 大數據挑戰 001
1.1 當前面臨的大數據挑戰 002
1.1.1 大數據急劇膨脹 002
1.1.2 大數據智慧型分析 004
1.1.3 大數據深度挖掘 005
1.1.4 業務與技術脫節 006
1.2 大數據催生雲計算 007
1.2.1 雲計算不是偶然 007
1.2.2 雲計算帶來挑戰與機遇 011
1.2.3 雲計算對大數據的意義 014
1.2.4 雲計算的未來展望 015
1.3 大數據存儲 016
1.3.1 存儲僅是第一步 016
1.3.2 行存儲和列存儲 018
1.3.3 PB級大數據存儲 021
1.3.4 大數據存儲的未來 024
1.4 大數據處理 027
1.4.1 大數據處理的瓶頸 027
1.4.2 大數據處理的需求 031
1.4.3 大數據處理技術決定未來 032
1.4.4 大數據處理解決方案 035
參考文獻 037
第2章 當前的大數據處理系統 039
2.1 開源大數據處理平台 040
2.1.1 Hadoop 040
2.1.2 MapReduce 044
2.2 NoSQL資料庫 047
2.2.1 Google BigTable的開源Java實現:HBase 047
2.2.2 純分散式資料庫:Cassandra 050
2.2.3 NoSQL資料庫的套用場景 051
2.3 數據倉庫平台 052
2.3.1 Hive 052
2.3.2 數據倉庫平台架構 052
2.3.3 數據倉庫平台的實現 053
參考文獻 054
第3章 數據立方簡介 055
3.1 數據立方的產生背景 056
3.2 數據立方的相關技術 056
3.2.1 雲計算中的大數據處理技術—MapReduce 056
3.2.2 並行資料庫技術 058
3.2.3 雲計算與資料庫相結合的技術 059
3.3 數據立方的架構以及與Hadoop的關係 060
3.3.1 數據立方的體系架構 061
3.3.2 數據立方與Hadoop的關係 067
參考文獻 068
第4章 數據立方及配套環境的安裝 069
4.1 安裝流程 070
4.2 作業系統的安裝 070
4.2.1 CentOS 6.2的安裝 070
4.2.2 JDK的安裝 075
4.2.3 配置SSH 075
4.2.4 配置/etc/hosts 076
4.2.5 修改機器主機名 077
4.2.6 配置NFS與NTP 077
4.3 Hadoop的安裝 078
4.3.1 Hadoop的版本 078
4.3.2 HDFS的配置安裝 078
4.3.3 MapReduce的配置安裝 082
4.4 數據立方的配置安裝 084
4.4.1 MySQL-Connector的安裝 084
4.4.2 編輯數據立方的配置檔案 084
4.4.3 數據立方的啟動 088
4.5 監控工具Ganglia的安裝 088
4.5.1 安裝依賴 088
4.5.2 安裝Ganglia 090
4.5.3 配置Ganglia 090
4.6 數據導入工具Sqoop的安裝 092
4.6.1 安裝前提 092
4.6.2 安裝步驟 092
參考文獻 093
第5章 Hello World數據立方快速入門 095
5.1 智慧交通數據處理實例 096
5.1.1 實例背景 096
5.1.2 建表 098
5.1.3 數據入庫 099
5.1.4 數據查詢 099
5.2 編程實現 100
第6章 數據立方開發 103
6.1 數據立方的開發說明 104
6.2 數據立方SQL規範 105
6.2.1 數據定義與數據操作語言 106
6.2.2 數據查詢語言 114
6.3 數據入庫接口開發 122
6.3.1 單條或多條記錄入庫Java開發包 122
6.3.2 開發說明 122
6.3.3 示例 123
6.4 數據查詢接口開發 124
6.4.1 Java開發包 124
6.4.2 接口介紹 125
6.4.3 示例 126
6.5 數據導入工具Sqoop命令及其使用 126
6.5.1 Sqoop命令及通用參數 127
6.5.2 Sqoop命令的使用 128
第7章 數據立方的維護 129
7.1 HDFS的維護 130
7.1.1 HDFS的dfsadmin命令 130
7.1.2 HDFS的Balancer工具 133
7.2 Shell的使用 135
7.2.1 數據立方Shell說明 135
7.2.2 數據定義與數據操作的Shell 135
7.2.3 數據查詢的Shell 136
7.3 數據立方的常見問題及其解決方法 136
7.3.1 問題1:datacube-shell.sh啟動後連線不上伺服器 136
7.3.2 問題2:啟動時,有時可以看到報錯信息 137
7.3.3 問題3:查看運行日誌 138
7.4 Sqoop的常見問題及其解決方法 138
7.4.1 MySQL的用戶問題 138
7.4.2 MySQL的許可權問題 139
7.4.3 Sqoop的Path問題 139
7.4.4 Sqoop的Import問題 140
7.5 數據立方管理系統 140
7.5.1 登錄 140
7.5.2 集群管理 141
7.5.3 數據管理 143
7.5.4 表結構管理 143
7.5.5 數據入庫 144
7.5.6 線上查詢 144
7.5.7 對外接口 145
7.5.8 檔案管理 145
7.5.9 任務管理 146
7.5.10 告警管理 146
7.5.11 故障管理 148
參考文獻 148
第8章 數據立方的可靠性 149
8.1 Hadoop的可靠性 150
8.1.1 HDFS中NameNode的單點問題 150
8.1.2 HDFS數據塊副本機制 151
8.1.3 HDFS心跳機制 152
8.1.4 HDFS負載均衡 152
8.1.5 MapReduce容錯 153
8.2 Hadoop的SecondaryNameNode機制 154
8.2.1 磁碟鏡像與日誌檔案 154
8.2.2 SecondaryNameNode更新鏡像的流程 154
8.3 Avatar機制 157
8.3.1 Avatar系統架構 158
8.3.2 Avatar元數據同步機制 159
8.3.3 故障切換過程 161
8.3.4 Avatar運行流程 163
8.3.5 Avatar故障切換流程 169
8.4 Avatar實戰 173
8.4.1 實驗環境 173
8.4.2 Avatar的編譯 174
8.4.3 Avatar的安裝和配置 176
8.4.4 Avatar啟動運行與宕機切換 185
8.5 數據立方的工作流程及可靠性 188
8.5.1 數據立方的架構 188
8.5.2 數據立方的工作流程 189
8.5.3 數據立方的可靠性 189
參考文獻 190
第9章 數據統計分析實例——供電信息採集系統 191
9.1 客戶需求分析 192
9.1.1 測試過程及數據量描述 192
9.1.2 測試過程分解及效率統計 193
9.2 數據表設計 197
9.3 查詢語句設計與結果展現 200
9.4 查詢最佳化 201
9.4.1 存儲方面的最佳化 201
9.4.2 記憶體方面的最佳化 202
9.5 性能測試結果 202
9.5.1 數據下載解壓及標記 202
9.5.2 數據解析入庫 203
9.5.3 數據計算流程 204
9.5.4 數據導入Oracle資料庫 205
9.5.5 查詢總時長統計 206
第10章 線上數據檢索實例——移動信令分析雲平台 207
10.1 需求分析 208
10.2 數據表設計 210
10.2.1 CDR數據檔案的檢測與索引創建任務調度 211
10.2.2 從HDFS讀取數據並創建索引 212
10.2.3 查詢CDR信息 213
10.3 查詢語句設計與結果展現 213
10.3.1 CDR檔案檢測和索引創建任務調度程式 213
10.3.2 讀取CDR數據和索引創建處理 218
10.3.3 CDR查詢 222
10.4 查詢最佳化 225
10.5 性能測試結果 226
第11章 實時數據處理實例——地震數據 227
11.1 需求分析 228
11.2 數據表設計 229
11.3 查詢語句設計與結果展現 231
11.4 查詢最佳化 232
11.4.1 存儲方面的最佳化 232
11.4.2 計算方面的最佳化 232
11.5 性能測試結果 233
11.5.1 單機模擬集群測試 233
11.5.2 欄位測試 233
11.5.3 排序測試 234
11.5.4 隨機讀寫測試 235
附錄 大數據和人工智慧實驗環境 237
名詞索引 251

相關詞條

熱門詞條

聯絡我們