內容簡介
《Oracle大數據解決方案 由Oracle大數據團隊成員聯袂撰寫,全面介紹用於獲取、組織、分析和利用非結構化數據的Oracle綜合集成化產品。本書討論成功實現大數據方案必需的策略和技術,包括Apache Hadoop、Oracle大數據機、Oracle大數據連線器、Oracle NoSQL資料庫、Oracle Endeca、Oracle高級分析和Oracle開源R產品,還講述遷移既有系統並將現有數據倉庫和分析解決方案集成到企業大數據基礎架構的最佳實踐。
主要內容
● 理解綜合性大數據戰略的價值
● 最大限度地提高Apache Hadoop平台的分散式處理能力
● 介紹將Oracle大數據機用作Hadoop和Oracle NoSQL資料庫工程
系統的優勢
● 使用Oracle大數據機來配置、部署、監控Hadoop和Oracle NoSQL資料庫
● 將現有數據倉庫和分析基礎架構集成到大數據架構
● 使用Oracle數據連線器在Hadoop和關係型資料庫之間共享數據
● 理解如何將Oracle NoSQL資料庫集成到Oracle大數據架構
● 使用資料庫內分析更快地實現價值
● 使用Oracle高級分析(Oracle R企業版和Oracle數據挖掘)、Oracle R分發版、ROracle和Oracle R Connector for Hadoop來分析數據
● 使用Oracle Endeca信息發現來分析獨立數據
● 規劃和實施大數據管理戰略,開發架構和路線圖
圖書目錄
第Ⅰ部分?引??言
第1章?大數據簡介 3
1.1?大數據 3
1.2?谷歌的MapReduce算法和Apache Hadoop 4
1.3?Oracle的大數據平台 5
1.4?總結 8
第2章?大數據的價值 9
2.1?我是大數據嗎?還是大數據是我? 10
2.2?大數據,小數據——仍然是數據 12
2.2.1?什麼已經發生了? 12
2.2.2?現在發生了什麼? 13
2.3?請看看現實! 14
2.4?你想把它做成什麼? 16
2.5?大數據,大數字,大企業? 17
2.5.1?Twitter 18
2.5.2?Facebook 19
2.5.3?內部源 19
2.5.4?ICR:連線 20
2.5.5?ICR:變更 20
2.6?需要:大數據的價值 22
2.6.1?大數據案例1:醫療行業的臨床試驗研究 23
2.6.2?大數據案例2:在汽車行業的汽車設計中改進駕駛員安全 23
2.7?總結 24
第 II 部分?大數據平台
第3章?Apache Hadoop平台 27
3.1?軟體與硬體 28
3.2?Hadoop的軟體平台 28
3.2.1?Hadoop的發布與版本 29
3.2.2?Hadoop Distributed File System(HDFS) 29
3.2.3?調度、計算和處理 31
3.3?作業系統的選擇 33
3.4?Hadoop硬體平台 34
3.4.1?CPU和記憶體 34
3.4.2?網路 34
3.4.3?磁碟 35
3.5?整合在一起 35
第4章?選擇Appliance的理由 37
4.1?Oracle創建大數據機的理由 38
4.2?Appliance的概念 39
4.3?Oracle Big Data Appliance的發展目標 39
4.4?Appliance最佳化 39
4.5?Oracle Big Data Appliance第2版軟體 40
4.6?Oracle大數據機X3-2硬體 42
4.7?Oracle獲取Hadoop知識的地方 44
4.8?配置Hadoop集群 45
4.8.1?選擇核心集群組件 45
4.8.2?組裝集群 47
4.9?自己組建的集群 48
4.10?集群總成本 49
4.11?時間價值 52
4.12?如何打造更大的集群 53
4.13?Oracle大數據機可否支持其他軟體 53
4.14?一體機的缺陷 54
第5章?BDA配置、部署架構和監控 55
5.1?介紹 56
5.1.1?大數據機X3-2滿配機架(18個節點) 57
5.1.2?大數據機X3-2入門機架(6個節點) 60
5.1.3?大數據機X3-2擴展機架(6個節點) 63
5.1.4?BDA的硬體修改 63
5.1.5?大數據機X3-2的軟體支持 63
5.2?BDA安裝和配置過程 64
5.3?關鍵和非關鍵節點 65
5.4?NameNode故障自動切換 66
5.5?BDA磁碟存儲布局 67
5.6?為Hadoop集群增加存儲 69
5.7?僅有Hadoop配置和Hadoop+NoSQL資料庫 70
5.7.1?僅有Hadoop的一體機 70
5.7.2?Hadoop和NoSQL資料庫 71
5.8?記憶體選項 72
5.9?部署架構 72
5.9.1?雲中的多租戶和Hadoop 72
5.9.2?可擴展性 74
5.9.3?BDA多機架的注意事項 74
5.10?在BDA上安裝其他軟體 75
5.11?數據中心的BDA 75
5.11.1?管理網路 75
5.11.2?客戶端訪問網路 76
5.11.3?Infiniband私有網路 76
5.11.4?網路需求 76
5.11.5?連線到數據中心的區域網路 78
5.11.6?連線架構的例子 78
5.12?Oracle大數據機的使用限制 78
5.13?BDA的管理和監控 79
5.13.1?企業管理器 80
5.13.2?Cloudera管理器 82
5.13.3?Hadoop的監控工具:Web圖形用戶界面 83
5.13.4?Oracle ILOM 84
5.13.5?Hue 86
5.13.6?DCLI工具 86
第6章?為大數據集成數據倉庫和分析基礎架構 87
6.1?數據倉庫作為存儲歷史記錄的資料庫 88
6.1.1?Oracle資料庫作為數據倉庫 88
6.1.2?為什麼要把數據倉庫和Hadoop部署在一起 89
6.2?完成路徑:業務分析師工具 90
6.3?擴建基礎設施 91
第7章? BDA連線器 93
7.1?Oracle Big Data Connectors 94
7.2?Oracle Loader for Hadoop 95
7.2.1?線上模式 96
7.2.2?Oracle OCI Direct Path Output 97
7.2.3?JDBC Output 97
7.2.4?離線模式 98
7.2.5?Oracle Data Pump Output 98
7.2.6?帶分隔設定的文本輸出 99
7.3?安裝Oracle Loader for Hadoop 99
7.4?調用Oracle Loader for Hadoop 100
7.5?輸入格式 100
7.5.1?DelimitedTextInputFormat 101
7.5.2?RegexInputFormat 102
7.5.3?AvroInputFormat 102
7.5.4?HiveToAvroInputFormat 102
7.5.5?KVAvroInputFormat 102
7.5.6?自定義輸入格式 103
7.6?Oracle Loader for Hadoop配置檔案 103
7.6.1?Loader Maps 105
7.6.2?額外的最佳化 106
7.6.3?利用Infiniband 107
7.6.4?對比Apache Sqoop 107
7.7?Oracle SQL Connector for HDFS 108
7.8?安裝Oracle SQL Connector for HDFS 110
7.9?Hive安裝 112
7.10?使用Oracle SQL Connector for HDFS創建外部表 113
7.10.1?ExternalTable配置工具 113
7.10.2?數據源類型 113
7.10.3?配置工具語法 114
7.10.4?必需的屬性 114
7.10.5?可選屬性 115
7.10.6?針對帶分隔設定的ExternalTable工具 115
7.10.7?在使用--noexecute選項的情況下測試DDL 117
7.10.8?在位置檔案里增加一個新的HDFS檔案 118
7.10.9?外部表的手動配置 118
7.11?Hive源 119
7.12?Oracle Data Pump源 121
7.13?配置檔案 122
7.14?使用Oracle SQL Connector for HDFS查詢 124
7.15?Oracle R Connector for Hadoop 125
7.16?Oracle Data Integrator Application Adapter for Hadoop 125
第8章?Oracle NoSQL資料庫 129
8.1?NoSQL資料庫系統的定義 130
8.2?Oracle NoSQL資料庫 131
8.3?架構 133
8.3.1?客戶端驅動程式 134
8.3.2?鍵-值對 134
8.3.3?存儲節點 136
8.3.4?複製 136
8.3.5?智慧型拓撲 137
8.3.6?線上的靈活性 137
8.3.7?沒有單點故障 138
8.4?數據管理 138
8.4.1?API 138
8.4.2?CRUD操作 138
8.4.3?多種更新操作 139
8.4.4?查找操作 139
8.4.5?事務 139
8.4.6?可預測的性能 140
8.5?集成 141
8.6?安裝和管理 142
8.6.1?簡單安裝 142
8.6.2?管理 142
8.7?Oracle NoSQL資料庫的特性 142
8.8?有用的連結 143
第 III 部分?分析信息和制定決策
第9章?資料庫庫內分析:快速交付彰顯時間價值 147
9.1?介紹 148
9.1.1?Oracle資料庫內分析 149
9.1.2?為什麼在資料庫內運行如此重要 151
9.2?Oracle數據挖掘和統計分析介紹 151
9.2.1?Oracle庫內高級分析 152
9.2.2?Oracle數據挖掘 153
9.2.3?R語言介紹 159
9.2.4?文本挖掘 165
9.3?庫內統計函式 168
9.4?空間分析 169
9.4.1?理解空間數據模型 170
9.4.2?查詢空間數據模型 170
9.4.3?使用空間分析 171
9.4.4?讓BI工具更聰明 171
9.5?基於圖形分析 172
9.5.1?圖形數據模型 172
9.5.2?查詢圖形數據 172
9.6?多維分析 174
9.7?庫內分析:綜合範例 176
9.7.1?在ETL過程中集成分析 176
9.7.2?提供指導瀏覽 176
9.7.3?提供混搭式分析 176
9.8?總結 177
第10章?使用R分析數據 179
10.1?Open Source R介紹 180
10.1.1?CRAN、Packages和Task View 180
10.1.2?GUI和IDE 182
10.2?傳統的R與資料庫互動對比Oracle R Enterprise 183
10.3?Oracle針對R的戰略 185
10.3.1?Oracle R Enterprise 185
10.3.2?Oracle R Distribution 186
10.3.3?ROracle 186
10.3.4?Oracle R Connector for Hadoop 187
10.4?Oracle R Enterprise:下一級視圖 187
10.5?Oracle R Enterprise安裝和配置 188
10.6?使用Oracle R Enterprise 189
10.6.1?透明層 189
10.6.2?嵌入式R執行 199
10.6.3?預測分析 213
10.7?Oracle R Connector for Hadoop 225
10.7.1?調用MapReduce Job 227
10.7.2?在非Hadoop集群下測試ORCH R腳本 227
10.7.3?用R與HDFS互動 228
10.7.4?HDFS Metadata Discovery 229
10.7.5?基於ORCH框架來使用Hadoop 231
10.7.6?在Hadoop上的預測分析 232
10.7.7?ORCHhive 233
10.7.8?Oracle R Connector for Hadoop與Oracle R Enterprise之間的互動 235
10.8?總結 236
第11章?Endeca信息發現 237
11.1?為什麼Oracle選擇Endeca 237
11.2?Endeca信息發現平台 239
11.2.1?主要功能域 239
11.2.2?主要特性 239
11.3?Endeca信息發現與商業智慧型 241
11.3.1?作用和功能不同 241
11.3.2?BI開發過程與信息發現方法對比 242
11.3.3?互補而非互斥 243
11.4?架構 244
11.4.1?Oracle Endeca伺服器 244
11.4.2?Oracle Endeca工作室 246
11.4.3?Oracle Endeca集成套件 248
11.4.4?Exalytics上的Endeca 249
11.4.5?可伸縮性和負載均衡 250
11.5?統一多種內容集 253
11.5.1?Endeca不同之外 253
11.5.2?行業用例 253
11.6?Endeca實際操作 255
11.6.1?安裝與配置 255
11.6.2?開發Endeca套用 256
第12章?大數據治理 259
12.1?企業數據治理的要素 260
12.1.1?業務輸出 260
12.1.2?信息生命周期管理 260
12.1.3?合規性和風險管理 261
12.1.4?元數據管理 261
12.1.5?數據質量管理 261
12.1.6?主數據和引用數據管理 262
12.1.7?數據安全和隱私管理 262
12.1.8?業務流程調整 263
12.2?大數據怎樣影響企業數據治理 263
12.2.1?模型化的數據和原始數據 263
12.2.2?大數據的類型 265
12.2.3?在大數據上套用數據治理 267
12.2.4?利用大數據治理 269
12.3?特定行業的案例 272
12.3.1?公共事業 272
12.3.2?衛生醫療 273
12.3.3?金融服務 274
12.3.4?零售行業 275
12.3.5?大眾消費品 276
12.3.6?通信行業 277
12.3.7?石油和天然氣 278
12.4?大數據如何對數據治理的角色產生影響 279
12.5?實施大數據治理的一種方法 280
第13章?大數據開發架構和路線圖 283
13.1?大數據功能架構 283
13.1.1?大數據的新特點 284
13.1.2?大數據概念功能架構 285
13.1.3?產品功能和工具 285
13.1.4?制定大數據架構決策 287
13.2?架構開發流程實現增值 288
13.2.1?Oracle信息架構框架概述 288
13.2.2?採用OADP的信息架構概述 291
13.2.3?大數據架構開發流程 293
13.3?對數據管理和BI過程的影響 298
13.3.1?傳統BI開發過程 298
13.3.2?大數據和分析開發過程 298
13.4?大數據治理 299
13.4.1?傳統數據治理的關注點 299
13.4.2?大數據治理新的關注點 299
13.5?開發技能和人才 300
13.5.1?數據科學家 300
13.5.2?大數據開發人員 301
13.5.3?大數據管理員 301
13.6?大數據最佳實踐 301
13.6.1?讓大數據活動結合特定業務目標 301
13.6.2?確保集中化IT戰略的標準和治理 301
13.6.3?使用卓越中心來最小化培訓和風險 301
13.6.4?大數據與結構化數據關聯 301
13.6.5?提供高性能和可伸縮的分析沙箱 302
13.6.6?重塑IT運營模式 302