《大數據治理與安全:從理論到開源實踐》2017年09月機械工業出版社出版的圖書。
基本介紹
- 書名:大數據治理與安全:從理論到開源實踐
- 作者:劉馳 胡柏青 謝一 施盟捷 陳喆毓 林秋霞 編著
- ISBN:978-7-111-57997-7
- 定價:¥79.00
- 出版社:機械工業出版社
- 出版時間:2017-09
- 開本:16開
- 叢書名:大數據技術叢書
基本信息,內容簡介,目錄,
基本信息
作者:劉馳 胡柏青 謝一 施盟捷 陳喆毓 林秋霞 編著 |
ISBN(書號):978-7-111-57997-7 |
叢書名:大數據技術叢書 |
出版日期:2017-09 |
版次:1/1 |
開本:16 |
定價:¥79.00 |
內容簡介
本書分為理論篇和開源實踐篇,特別注重系統搭建與部署,書中介紹的步驟與代碼從易到難、逐步深化,同時對所涉及的知識點、難點均進行了詳細的解釋,從而滿足不同讀者的多元化需求。此外,結合實際使用場景進行了設計與實現,為相關讀者的實踐操作提供有效參考。
文字通俗易懂
本書避免了過於理論的描述方式,簡單風趣的寫作風格貫穿全書,對大數據治理與安全的實踐內容中的每一個組件、每一步操作、每一行代碼都進行了詳細的解釋,使得讀者在閱讀過程中能容易地按照本書指導同步上機操作,搭建大數據治理與安全實際系統。
文字通俗易懂
本書避免了過於理論的描述方式,簡單風趣的寫作風格貫穿全書,對大數據治理與安全的實踐內容中的每一個組件、每一步操作、每一行代碼都進行了詳細的解釋,使得讀者在閱讀過程中能容易地按照本書指導同步上機操作,搭建大數據治理與安全實際系統。
目錄
前 言
第一篇 理論篇
第1章 大數據治理技術2
1.1 概述2
1.1.1 大數據治理的基本概念2
1.1.2 大數據治理的意義和重要作用5
1.2 框架7
1.2.1 大數據治理框架概述7
1.2.2 大數據治理的原則9
1.2.3 大數據治理的範圍11
1.2.4 大數據治理的實施與評估14
第2章 大數據安全、隱私保護和審計技術19
2.1 大數據安全19
2.1.1 大數據安全的意義和重要作用19
2.1.2 大數據安全面臨的問題與挑戰21
2.1.3 大數據安全防護技術23
2.2 大數據隱私保護26
2.2.1 大數據隱私保護的意義和重要作用26
2.2.2 大數據隱私保護面臨的問題與挑戰28
2.2.3 大數據隱私保護技術31
2.3 大數據治理審計34
2.3.1 大數據治理審計概述34
2.3.2 大數據治理審計內容37
2.3.3 大數據治理審計方法和技術39
2.3.4 大數據治理審計流程43
第二篇 開源實現篇
第3章 大數據治理之Apache Falcon48
3.1 Apache Falcon概述48
3.1.1 Apache Falcon技術概況49
3.1.2 Apache Falcon發展近況50
3.1.3 Apache Falcon技術優勢50
3.1.4 Apache Falcon架構51
3.2 Apache Falcon的使用53
3.2.1 Oozie的安裝與配置56
3.2.2 Falcon的安裝與配置61
3.2.3 實體XML的創建與聲明63
3.3 Apache Falcon場景設計與實現74
3.3.1 數據管道74
3.3.2 結構化數據導入分散式檔案系統82
3.3.3 結構化資料庫與數據倉庫的互動89
3.3.4 跨集群數據傳輸104
3.3.5 數據鏡像109
3.3.6 數據倉庫中的數據操作113
3.4 Apache Falcon最佳化與性能分析118
3.4.1 Apache Falcon控制流118
3.4.2 分散式部署119
3.4.3 安全模式120
3.4.4 Apache Falcon最佳化122
3.5 Apache Falcon套用舉例123
3.5.1 InMobi基於Falcon的數據治理123
3.5.2 Expedia基於Falcon的數據治理125
3.6 本章小結126
第4章 大數據治理之Apache Atlas127
4.1 Apache Atlas概述127
4.1.1 Apache Atlas技術概況127
4.1.2 Apache Atlas發展近況130
4.1.3 Apache Atlas技術優勢133
4.1.4 Apache Atlas架構136
4.2 Apache Atlas的配置與使用143
4.2.1 安裝配置Apache Atlas143
4.2.2 添加或修改Atlas Web UI的登錄賬戶158
4.2.3 配置Hive通過Hive HOOK導入數據159
4.2.4 配置Sqoop通過Sqoop HOOK導入數據163
4.2.5 配置Storm通過Storm HOOK導入數據167
4.2.6 配置Falcon通過Falcon HOOK導入數據173
4.3 Apache Atlas的場景設計176
4.3.1 Atlas總場景介紹176
4.3.2 Atlas非實時數據場景178
4.3.3 Atlas實時數據場景183
4.3.4 Hive數據表操作183
4.4 Apache Atlas最佳化與性能分析190
4.5 本章小結193
第5章 大數據安全之Apache Ranger194
5.1 Apache Ranger概述194
5.1.1 Ranger技術概況194
5.1.2 Ranger發展史及近況196
5.1.3 Ranger的特點和作用197
5.1.4 Ranger架構199
5.1.5 Ranger套用場景200
5.2 Apache Ranger的安全認證配置201
5.2.1 Ranger安裝與部署201
5.2.2 安全及訪問許可權控制機制206
5.2.3 Ranger集成HDFS的安全認證機制與配置208
5.2.4 Ranger集成YARN的安全認證機制與配置213
5.2.5 Ranger集成Hive的安全認證機制與配置217
5.2.6 Ranger集成HBase的安全認證機制與配置221
5.2.7 Ranger集成Kafka的安全認證機制與配置228
5.2.8 Ranger集成Atlas的安全認證機制與配置235
5.2.9 Ranger集成Storm的安全認證機制與配置238
5.2.10 Ranger集成Solr的安全認證機制與配置246
5.3 Apache Ranger的功能配置254
5.3.1 Tag同步驗證254
5.3.2 各類Policy驗證255
5.4 Apache Ranger最佳化與性能分析262
5.5 本章小結263
第6章 大數據安全之Apache Sentry265
6.1 Apache Sentry 概述265
6.1.1 Apache Sentry技術概況265
6.1.2 Apache Sentry發展近況267
6.1.3 Apache Sentry技術優勢269
6.1.4 Apache Sentry架構272
6.2 Apache Sentry的安裝與配置274
6.2.1 先決條件274
6.2.2 Impala的安裝與調試274
6.2.3 Apache Sentry的安裝和配置282
6.2.4 Apache Sentry與Impala的集成286
6.3 Apache Sentry場景設計之Sentry對Impala的控制288
6.3.1 場景數據準備288
6.3.2 基於檔案存儲元數據的場景驗證288
6.3.3 基於資料庫存儲元數據的場景驗證292
6.4 Apache Sentry場景設計之Sentry對Hive的控制296
6.4.1 Hive與Sentry的集成配置296
6.4.2 準備實驗數據298
6.4.3 基於檔案存儲方式的數據表操作298
6.4.4 基於資料庫存儲方式的數據表操作301
6.5 本章小結305
第7章 大數據安全之Kerberos認證306
7.1 Kerberos概述306
7.1.1 Kerberos技術概況306
7.1.2 Kerberos發展史及近況307
7.1.3 Kerberos架構308
7.1.4 Kerberos的認證流程309
7.1.5 Kerberos的風險與缺陷311
7.1.6 Kerberos套用舉例312
7.2 Kerberos使用操作說明314
7.2.1 名詞解釋314
7.2.2 KDC常用操作315
7.2.3 Client常用操作316
7.3 Kerberos集成環境配置317
7.3.1 Kerberos服務配置318
7.3.2 HDFS集成Kerberos的安裝與調試322
7.3.3 YARN集成Kerberos的安裝與調試330
7.3.4 Hive集成Kerberos的配置與調試336
7.3.5 Zookeeper集成Kerberos的配置與調試341
7.3.6 HBase集成Kerberos的配置與調試343
7.3.7 Sqoop集成Kerberos的配置與調試348
7.3.8 Hue集成Kerberos的安裝與調試351
7.3.9 Spark集成Kerberos的安裝與調試361
7.3.10 Solr集成Kerberos的安裝與調試366
7.3.11 Kafka集成Kerberos的配置與調試371
7.3.12 Storm集成Kerberos的安裝與調試377
7.3.13 Impala集成Kerberos的安裝與調試382
7.4 Kerberos配置最佳化及常見問題386
7.4.1 Kerberos的認證方式386
7.4.2 時間同步386
7.4.3 ticket周期387
7.4.4 KVNO導致的認證失敗387
7.5 本章小結388
第一篇 理論篇
第1章 大數據治理技術2
1.1 概述2
1.1.1 大數據治理的基本概念2
1.1.2 大數據治理的意義和重要作用5
1.2 框架7
1.2.1 大數據治理框架概述7
1.2.2 大數據治理的原則9
1.2.3 大數據治理的範圍11
1.2.4 大數據治理的實施與評估14
第2章 大數據安全、隱私保護和審計技術19
2.1 大數據安全19
2.1.1 大數據安全的意義和重要作用19
2.1.2 大數據安全面臨的問題與挑戰21
2.1.3 大數據安全防護技術23
2.2 大數據隱私保護26
2.2.1 大數據隱私保護的意義和重要作用26
2.2.2 大數據隱私保護面臨的問題與挑戰28
2.2.3 大數據隱私保護技術31
2.3 大數據治理審計34
2.3.1 大數據治理審計概述34
2.3.2 大數據治理審計內容37
2.3.3 大數據治理審計方法和技術39
2.3.4 大數據治理審計流程43
第二篇 開源實現篇
第3章 大數據治理之Apache Falcon48
3.1 Apache Falcon概述48
3.1.1 Apache Falcon技術概況49
3.1.2 Apache Falcon發展近況50
3.1.3 Apache Falcon技術優勢50
3.1.4 Apache Falcon架構51
3.2 Apache Falcon的使用53
3.2.1 Oozie的安裝與配置56
3.2.2 Falcon的安裝與配置61
3.2.3 實體XML的創建與聲明63
3.3 Apache Falcon場景設計與實現74
3.3.1 數據管道74
3.3.2 結構化數據導入分散式檔案系統82
3.3.3 結構化資料庫與數據倉庫的互動89
3.3.4 跨集群數據傳輸104
3.3.5 數據鏡像109
3.3.6 數據倉庫中的數據操作113
3.4 Apache Falcon最佳化與性能分析118
3.4.1 Apache Falcon控制流118
3.4.2 分散式部署119
3.4.3 安全模式120
3.4.4 Apache Falcon最佳化122
3.5 Apache Falcon套用舉例123
3.5.1 InMobi基於Falcon的數據治理123
3.5.2 Expedia基於Falcon的數據治理125
3.6 本章小結126
第4章 大數據治理之Apache Atlas127
4.1 Apache Atlas概述127
4.1.1 Apache Atlas技術概況127
4.1.2 Apache Atlas發展近況130
4.1.3 Apache Atlas技術優勢133
4.1.4 Apache Atlas架構136
4.2 Apache Atlas的配置與使用143
4.2.1 安裝配置Apache Atlas143
4.2.2 添加或修改Atlas Web UI的登錄賬戶158
4.2.3 配置Hive通過Hive HOOK導入數據159
4.2.4 配置Sqoop通過Sqoop HOOK導入數據163
4.2.5 配置Storm通過Storm HOOK導入數據167
4.2.6 配置Falcon通過Falcon HOOK導入數據173
4.3 Apache Atlas的場景設計176
4.3.1 Atlas總場景介紹176
4.3.2 Atlas非實時數據場景178
4.3.3 Atlas實時數據場景183
4.3.4 Hive數據表操作183
4.4 Apache Atlas最佳化與性能分析190
4.5 本章小結193
第5章 大數據安全之Apache Ranger194
5.1 Apache Ranger概述194
5.1.1 Ranger技術概況194
5.1.2 Ranger發展史及近況196
5.1.3 Ranger的特點和作用197
5.1.4 Ranger架構199
5.1.5 Ranger套用場景200
5.2 Apache Ranger的安全認證配置201
5.2.1 Ranger安裝與部署201
5.2.2 安全及訪問許可權控制機制206
5.2.3 Ranger集成HDFS的安全認證機制與配置208
5.2.4 Ranger集成YARN的安全認證機制與配置213
5.2.5 Ranger集成Hive的安全認證機制與配置217
5.2.6 Ranger集成HBase的安全認證機制與配置221
5.2.7 Ranger集成Kafka的安全認證機制與配置228
5.2.8 Ranger集成Atlas的安全認證機制與配置235
5.2.9 Ranger集成Storm的安全認證機制與配置238
5.2.10 Ranger集成Solr的安全認證機制與配置246
5.3 Apache Ranger的功能配置254
5.3.1 Tag同步驗證254
5.3.2 各類Policy驗證255
5.4 Apache Ranger最佳化與性能分析262
5.5 本章小結263
第6章 大數據安全之Apache Sentry265
6.1 Apache Sentry 概述265
6.1.1 Apache Sentry技術概況265
6.1.2 Apache Sentry發展近況267
6.1.3 Apache Sentry技術優勢269
6.1.4 Apache Sentry架構272
6.2 Apache Sentry的安裝與配置274
6.2.1 先決條件274
6.2.2 Impala的安裝與調試274
6.2.3 Apache Sentry的安裝和配置282
6.2.4 Apache Sentry與Impala的集成286
6.3 Apache Sentry場景設計之Sentry對Impala的控制288
6.3.1 場景數據準備288
6.3.2 基於檔案存儲元數據的場景驗證288
6.3.3 基於資料庫存儲元數據的場景驗證292
6.4 Apache Sentry場景設計之Sentry對Hive的控制296
6.4.1 Hive與Sentry的集成配置296
6.4.2 準備實驗數據298
6.4.3 基於檔案存儲方式的數據表操作298
6.4.4 基於資料庫存儲方式的數據表操作301
6.5 本章小結305
第7章 大數據安全之Kerberos認證306
7.1 Kerberos概述306
7.1.1 Kerberos技術概況306
7.1.2 Kerberos發展史及近況307
7.1.3 Kerberos架構308
7.1.4 Kerberos的認證流程309
7.1.5 Kerberos的風險與缺陷311
7.1.6 Kerberos套用舉例312
7.2 Kerberos使用操作說明314
7.2.1 名詞解釋314
7.2.2 KDC常用操作315
7.2.3 Client常用操作316
7.3 Kerberos集成環境配置317
7.3.1 Kerberos服務配置318
7.3.2 HDFS集成Kerberos的安裝與調試322
7.3.3 YARN集成Kerberos的安裝與調試330
7.3.4 Hive集成Kerberos的配置與調試336
7.3.5 Zookeeper集成Kerberos的配置與調試341
7.3.6 HBase集成Kerberos的配置與調試343
7.3.7 Sqoop集成Kerberos的配置與調試348
7.3.8 Hue集成Kerberos的安裝與調試351
7.3.9 Spark集成Kerberos的安裝與調試361
7.3.10 Solr集成Kerberos的安裝與調試366
7.3.11 Kafka集成Kerberos的配置與調試371
7.3.12 Storm集成Kerberos的安裝與調試377
7.3.13 Impala集成Kerberos的安裝與調試382
7.4 Kerberos配置最佳化及常見問題386
7.4.1 Kerberos的認證方式386
7.4.2 時間同步386
7.4.3 ticket周期387
7.4.4 KVNO導致的認證失敗387
7.5 本章小結388