微軟大數據解決方案

微軟大數據解決方案

《微軟大數據解決方案》是2015年5月1日出版的圖書,作者是美國作家Adam Jorgensen,James Rowland-Jones,John Welch,Dan Clark,Christopher Price,Brian Mi。

基本介紹

  • 書名:微軟大數據解決方案
  • 作者:[美]Adam Jorgensen,James Rowland-Jones,John Welch,Dan Clark,Christopher Price,Brian Mi
  • ISBN:9787302396529
  • 定價:58元
  • 出版時間:2015.05.01
  • 印次:1-1
  • 印刷日期:2015.04.27
內容簡介,目錄,

內容簡介

Microsoft強大的大數據平台Windows Azure HDInsight 和Hortonworks Data Platform for Windows改變了企業處理、存儲和管理數據的方式。Microsoft的大數據解決方案套件被設計用於與公司現有的數據基礎設施以及SQL Server、Hadoop等產品進行無縫集成,使客戶不必中斷工作流或關鍵流程即可實施這些方案。假如需要設計和實施全面部署的大數據解決方案的詳明規劃藍圖,《微軟大數據解決方案》一書無疑是最佳選擇。

目錄

第I部分大數據的含義
第1章行業需求與解決方案 3
1.1何謂“大”數據 3
1.2Hadoop簡史 4
1.2.1Google 4
1.2.2Nutch 5
1.3Hadoop的概念 5
1.3.1衍生品和分發版 6
1.3.2Hadoop分發版 7
1.3.3Hadoop生態系統的核心 8
1.3.4Hadoop中的重要
Apache項目 10
1.3.5Hadoop的未來 14
1.4本章小結 14
第2章Microsoft大數據解決方法 15
2.1“優質組合”的故事 15
2.2生態系統中的競爭 16
2.2.1SQLonHadoop現狀 16
2.2.2Hortonworks和Stinger 16
2.2.3Cloudera和Impala 18
2.2.4Microsoft對Hadoop中
SQL套用的貢獻 20
2.3Hadoop的部署 20
2.3.1部署要素 20
2.3.2部署拓撲結構 23
2.3.3部署計分卡 26
2.4本章小結 28
第II部分使用Microsoft建立大數據
第3章配置首個大數據環境 31
3.1入門 31
3.2開始安裝 32
3.3安裝過程 32
3.3.1本地安裝:單節點安裝 32
3.3.2HDInsight服務:雲端
安裝 40
3.3.3WindowsAzure存儲
管理器選項 41
3.4驗證新集群 43
3.4.1登錄HDInsight服務 43
3.4.2通過日誌驗證HDP功能 44
3.5常見的安裝後任務 45
3.5.1載入首個檔案 45
3.5.2驗證Hive和Pig 46
3.6本章小結 50
第III部分存儲並管理大數據
第4章HDFS、Hive、HBase和
HCatalog 53
4.1探討HDFS 53
4.1.1HDFS體系結構闡述 54
4.1.2與HDFS互動 57
4.2探討Hive:Hadoop數據
倉庫平台 59
4.2.1設計、構建和載入表 60
4.2.2查詢數據 61
4.2.3配置HiveODBC驅動
程式 61
4.3探討HCatalog:HDFS表和
元數據管理 62
4.4探索HBase:面向列的
HDFS資料庫 63
4.4.1面向列的資料庫 63
4.4.2定義和填充HBase表 65
4.4.3使用查詢操作 66
4.5本章小結 66
第5章HDFS的數據存儲與管理 67
5.1了解HDFS基本原理 67
5.1.1HDFS體系結構 68
5.1.2名稱節點和數據節點 69
5.1.3數據複製 71
5.2使用常用命令與HDFS
進行互動 72
5.2.1使用HDFS的界面 72
5.2.2檔案處理命令 74
5.2.3HDFS的管理功能 76
5.3在HDFS中移動和組織
數據 78
5.3.1在HDFS中移動數據 78
5.3.2實現便於管理的數據結構 79
5.3.3重新平衡數據 79
5.4本章小結 80
第6章添加Hive結構 81
6.1理解Hive的作用和角色 82
6.1.1為非結構化數據提供
結構 82
6.1.2啟用數據訪問與轉換 88
6.1.3鑑別Hive與傳統RDBMS
系統 88
6.1.4使用Hive 89
6.2創建和查詢基本表 90
6.2.1創建資料庫 90
6.2.2創建表 91
6.2.3添加和刪除數據 94
6.2.4查詢表 95
6.3使用Hive的高級數據結構 97
6.3.1設定分區表 97
6.3.2載入分區表 99
6.3.3使用視圖 100
6.3.4創建表索引 100
6.4本章小結 101
第7章使用HBase和HCatalog來
擴展功能 103
7.1使用HBase 104
7.1.1創建HBase表 104
7.1.2將數據載入到HBase表 106
7.1.3執行快速查找 107
7.1.4載入和查詢HBase 108
7.2使用HCatalog管理數據 109
7.2.1使用HCatalog和Hive 109
7.2.2定義數據結構 110
7.2.3建立索引 111
7.3創建分區 111
7.4HCatalog與Pig和Hive的
集成 113
7.5使用HBase或Hive作為
數據倉庫 116
7.6本章小結 117
第IV部分使用大數據
第8章使用SSIS、Pig和Sqoop
進行有效的大數據ETL 121
8.1結合大數據與SQLServer
工具獲取更優解決方案 122
8.1.1為何要移動數據 122
8.1.2在Hadoop和SQLServer
之間移動數據 123
8.2使用SSIS和Hive 123
8.3配置包 128
8.3.1將數據載入到Hadoop 131
8.3.2從SSIS獲得最佳性能 132
8.4使用Sqoop轉移數據 132
8.4.1從SQLServer複製數據 133
8.4.2將數據複製到SQLServer 135
8.5使用Pig移動數據 135
8.5.1使用Pig轉換數據 136
8.5.2同時使用Pig和SSIS 138
8.6選擇正確的工具 139
8.6.1何時使用SSIS 139
8.6.2何時使用Pig 139
8.6.3何時使用Sqoop 139
8.7本章小結 140
第9章使用Pig和Hive進行數據
研究和高級數據清理 141
9.1了解Pig 141
9.1.1使用Pig的時機 142
9.1.2利用內置函式 142
9.1.3執行用戶自定義函式 143
9.1.4使用UDF 144
9.1.5為Pig創建專屬UDF 151
9.2使用Hive 153
9.2.1使用Hive進行數據分析 153
9.2.2Hive函式類型 154
9.2.3使用map-reduce
腳本擴展Hive 155
9.2.4創建自定義map-reduce
腳本 158
9.2.5為Hive創建專屬UFD 159
9.3本章小結 161
第V部分大數據與SQLServer的整合
第10章數據倉庫與Hadoop整合 165
10.1行業狀況 166
10.2傳統數據倉庫架構面臨的
挑戰 166
10.2.1技術制約 167
10.2.2業務挑戰 171
10.3Hadoop在數據倉庫市場上的
影響 173
10.3.1保持一切 173
10.3.2代碼優先(模式延後) 174
10.3.3塑造價值 175
10.3.4計算問題 176
10.4介紹並行數據倉庫 176
10.4.1何謂PDW 177
10.4.2PDW為什麼重要 178
10.4.3PDW的工作方式 180
10.5Polybase項目 188
10.5.1Polybase架構 188
10.5.2當今Polybase的
商業案例 199
10.5.3預測Polybase的未來 201
10.6本章小結 204
第11章使用WindowsBI呈現
大數據 205
11.1工具生態系統 205
11.1.1Excel 206
11.1.2PowerPivot 206
11.1.3PowerView 207
11.1.4PowerMap 207
11.1.5報表服務 208
11.2使用PowerPivot的自助式
大數據 210
11.2.1設定ODBC驅動程式 210
11.2.2載入數據 211
11.2.3更新模型 217
11.2.4添加度量標準 218
11.2.5創建數據透視表 218
11.3使用PowerView加速
大數據探索 220
11.4使用PowerMap的快速
空間探索 224
11.5本章小結 225
第12章大數據分析 227
12.1數據科學、數據挖掘與
預測分析 227
12.1.1數據挖掘 227
12.1.2預測分析 228
12.2Mahout介紹 229
12.3構建一個推薦引擎 230
12.3.1開始 231
12.3.2運行用戶到用戶
推薦作業 232
12.3.3運行項目到項目
推薦作業 234
12.4本章小結 235
第13章大數據與雲 237
13.1定義雲 237
13.2探索大數據云提供商 238
13.2.1Amazon 238
13.2.2Microsoft 239
13.3在雲端設定大數據沙盒 239
13.3.1開始使用Amazon
EMR 240
13.3.2開始使用HDInsight 244
13.4在雲端存儲數據 251
13.4.1存儲數據 251
13.4.2上傳數據 252
13.4.3探索大數據存儲工具 252
13.4.4整合雲端數據 254
13.4.5其他雲端數據源 255
13.5本章小結 255
第14章現實生活中的大數據 257
14.1常見行業分析 257
14.1.1電信 257
14.1.2能源 258
14.1.3零售 258
14.1.4數據服務 259
14.1.5IT/託管最佳化 259
14.1.6市場社會情緒 260
14.2運營分析 260
14.2.1快速失敗 260
14.2.2一個新的技術生態
系統 260
14.2.3用戶客群 262
14.3本章小結 264
第VI部分繼續向前發展大數據
第15章創建和執行大數據計畫 267
15.1獲得贊助方和利益
相關方的認同 267
15.1.1問題定義 268
15.1.2範圍管理 269
15.1.3利益相關方的期望 270
15.1.4定義成功的標準 270
15.2確定技術上的挑戰 271
15.2.1環境的挑戰 271
15.2.2技能的挑戰 272
15.3確定運營上的挑戰 273
15.3.1制定設定/配置計畫 273
15.3.2制定運行維護計畫 274
15.4更進一步 275
15.4.1交付到運營 276
15.4.2部署之後 276
15.5本章小結 276
第16章運營的大數據管理 279
16.1混合型大數據環境:
雲端與本地解決方案
協同工作 279
16.2使用雲計算和本地解決
方案的動態數據集成 280
16.3大數據的集成思想 281
16.4大數據環境中的備份和
高可用性 283
16.4.1高可用性 283
16.4.2災難恢復 285
16.5大數據解決方案的管理 286
16.6創建運營分析 286
16.6.1HDP系統中心運營
管理器 287
16.6.2安裝AmbariSCOM
管理軟體包 288
16.6.3使用AmbariSCOM
管理軟體包進行監控 296
16.7本章小結 300

相關詞條

熱門詞條

聯絡我們