Hadoop高級數據分析使用Hadoop生態系統設計和構建大數據系統

Hadoop高級數據分析使用Hadoop生態系統設計和構建大數據系統

《Hadoop高級數據分析使用Hadoop生態系統設計和構建大數據系統》是2018年清華大學出版社出版的圖書，作者是Kerry Koitzsch。

基本介紹

書名：Hadoop高級數據分析使用Hadoop生態系統設計和構建大數據系統
作者：Kerry Koitzsch
譯者：王建峰、王瑛琦、於金峰
出版社：清華大學出版社
出版時間：2018年01月01日
定價：59.80 元
ISBN：9787302487302
印次：1-1
印刷日期：2017.11.23

內容簡介,目錄,

內容簡介

掌握Hadoop高級數據分析技術　學習高級分析技術，並利用現有工具寒組漏籃包使分析套用更加強大、精確和高效。

目錄

目錄

第Ⅰ部分　概念

第1章　概述：用Hadoop構建數據分析系統3

1.1　構建DAS的必要性4

1.2　HadoopCore及其簡史4

1.3　Hadoop生態系統概述5

1.4　AI技術、認知計算、深度學習以及BDA6

1.5　自然語言處理與BDAS6

1.6　SQL與NoSQL查詢處理6

1.7　必要的數學知識7

1.8　設計及構建BDAS的循環過程7

1.9　如何利用Hadoop生態系統實現BDA10

1.10　“圖像大數據”(IABD)基本思想10

1.10.1　使用的程式語言12

1.10.2　Hadoop生態系統的多語言組件12

1.10.3　Hadoop生態系統架構13

1.11　有關軟體組合件與框架的注意事項13

1.12　ApacheLucene、Solr及其他：開源搜尋組件14

1.13　建立BDAS的架構15

1.14　你需要了解的事煉櫻熱情15

1.15　數據可視化與報表17

1.15.1　使用EclipseIDE作為開發環境18

1.15.2　本書未虹匪棕講解的內容19

1.16　本章小結21

第2章　Scala及Python進階23

2.1　動機：選擇正確的語言定義套用23

2.2　Scala概覽24

2.3　Python概覽29

2.4　錯誤診斷、調試、配置檔案及文檔31

2.4.1　Python的調試資源32

2.4.2　Python文跨艱閥檔33

2.4.3　Scala的調試資源33

2.5　編程套用與示例33

2.6　本章小結34

2.7　參考文獻34

第3章　Hadoop及分析的標準工具集35

3.1　庫、組件及工具集：概覽35

3.2　在評估系統中使用深度學習方法38

3.3　使用Spring框架及SpringData44

3.4　數字與統計庫：R、Weka及其他44

3.5　分散式系統的OLAP技術44

3.6　用於分析的Hadoop工具集：ApacheMahout及相關工具45

3.7　ApacheMahout的可拔照府視化46

3.8　ApacheSpark庫與組件46

3.8.1　可供選擇的不同類型的shell46

3.8.2　ApacheSpark數據流47

3.8.3　SparklingWater與H2O機船辯翻嫌器學習48

3.9　組件使用與系統建立示例48

3.10　封包、測試和文檔化示例系統50

3.11　本章小結51

3.12　參考文獻51

第4章　關係、NoSQL及圖資料庫53

4.1　圖查詢語言：Cypher及Gremlin55

4.2　Cypher示例55

4.3　Gremlin示例56

4.4　圖資料庫：ApacheNeo4J58

4.5　關係資料庫及Hadoop生態系統59

4.6　Hadoop以及UA組件59

4.7　本章小結63

4.8　參考文獻64

第5章　數據管道及其構建方法65

5.1　基本數據管道66

5.2　ApacheBeam簡介67

5.3　ApacheFalcon簡介68

5.4　數據源與數據接收：使用ApacheTika構建數據管道68

5.5　計算與轉換70

5.6　結果可視化及報告71

5.7　本章小結74

5.8　參考文獻74

第6章　Hadoop、Lucene、Solr與高級搜尋技術75

6.1　Lucene/Solr生態系統簡介75

6.2　Lucene查詢語法76

6.3　使用Solr的編程示例79

6.4　使用ELK棧(Elasticsearch、Logstash、Kibana)85

6.5　Solr與Elasticsearch：只多特點與邏輯93

6.6　套用於Elasticsearch和Solr的SpringData組件95

6.7　使用LingPipe和GATE實現定製搜尋99

6.8　本章小結108

6.9　參考文獻108

第Ⅱ部分　架構及算法

第7章　分析技術及算法概覽111

7.1　算法類型綜述111

7.2　統計/數值技術112

7.3　貝葉斯技術113

7.4　本體驅動算法114

7.5　混合算法：組合算法類型115

7.6　代碼示例116

7.7　本章小結119

7.8　參考文獻119

第8章　規則引擎、系統控制與系統編排121

8.1　規則系統JBossDrools介紹121

8.2　基於規則的軟體系統控制124

8.3　系統協調與JBossDrools125

8.4　分析引擎示例與規則控制126

8.5　本章小結129

8.6　參考文獻129

第9章　綜合提升：設計一個完整的分析系統131

9.1　本章小結136

9.2　參考文獻136

第Ⅲ部分　組件與系統

第10章　數據可視化：可視化與互動分析139

10.1　簡單的可視化139

10.2　AngularJS和Friends簡介143

10.3　使用JHipster集成SpringXD

和AngularJS143

10.4　使用d3.js、sigma.js及其他

工具152

10.5　本章小結153

10.6　參考文獻153

第Ⅳ部分　案例研究與套用

第11章　生物信息學案例研究：分析顯微鏡載玻片數據157

11.1　生物信息學介紹157

11.2　自動顯微鏡簡介159

11.3　代碼示例：使用圖像填充HDFS162

11.4　本章小結165

11.5　參考文獻165

第12章　貝葉斯分析組件：識別信用卡詐欺167

12.1　貝葉斯分析簡介167

12.2　貝葉斯組件用於信用卡詐欺檢測169

12.3　本章小結172

12.4　參考文獻172

第13章　尋找石油：使用ApacheMahout分析地理數據173

13.1　基於領域的ApacheMahout推理介紹173

13.2　智慧型製圖系統和Hadoop分析179

13.3　本章小結180

13.4　參考文獻180

第14章　“圖像大數據”系統：一些案例研究181

14.1　圖像大數據簡介181

14.2　使用HIPI系統的第一個代碼示例184

14.3　BDA圖像工具包利用高級語言功能187

14.4　究竟什麼是圖像數據分析？187

14.5　互動模組和儀錶板189

14.6　添加新的數據管道和分散式特徵查找189

14.7　示例：分散式特徵查找算法190

14.8　IABD工具包中的低級圖像處理程式194

14.9　術語194

14.10　本章小結195

14.11　參考文獻195

第15章　構建通用數據管道199

15.1　示例系統的體系架構和描述199

15.2　如何獲取和運行示例系統200

15.3　管道構建的五大策略200

15.3.1　從數據源和接收裝置工作200

15.3.2　由中間向外發展200

15.3.3　基於企業集成模式(EIP)的開發200

15.3.4　基於規則的訊息管道開發201

15.3.5　控制+數據(控制流)管道202

15.4　本章小結202

15.5　參考文獻203

第16章　大數據分析的總結與展望205

16.1　總結205

16.2　大數據分析的現狀206

16.3　“孵化項目”和“初期

項目”208

16.4　未來Hadoop及其後續思考209

16.5　不同觀點：目前Hadoop的替代方案211

16.6　在“未來Hadoop”中使用機器學習和深度學習技術211

16.7　數據可視化和BDA的前沿領域212

16.8　結束語212

附錄A　設定分散式分析環境215

附錄B　獲取、安裝和運行示例分析系統227

3.8　ApacheSpark庫與組件46

3.8.1　可供選擇的不同類型的shell46

3.8.2　ApacheSpark數據流47

3.8.3　SparklingWater與H2O機器學習48

3.9　組件使用與系統建立示例48

3.10　封包、測試和文檔化示例系統50

3.11　本章小結51

3.12　參考文獻51

第4章　關係、NoSQL及圖資料庫53

4.1　圖查詢語言：Cypher及Gremlin55

4.2　Cypher示例55

4.3　Gremlin示例56

4.4　圖資料庫：ApacheNeo4J58

4.5　關係資料庫及Hadoop生態系統59

4.6　Hadoop以及UA組件59

4.7　本章小結63

4.8　參考文獻64

第5章　數據管道及其構建方法65

5.1　基本數據管道66

5.2　ApacheBeam簡介67

5.3　ApacheFalcon簡介68

5.4　數據源與數據接收：使用ApacheTika構建數據管道68

5.5　計算與轉換70

5.6　結果可視化及報告71

5.7　本章小結74

5.8　參考文獻74

第6章　Hadoop、Lucene、Solr與高級搜尋技術75

6.1　Lucene/Solr生態系統簡介75

6.2　Lucene查詢語法76

6.3　使用Solr的編程示例79

6.4　使用ELK棧(Elasticsearch、Logstash、Kibana)85

6.5　Solr與Elasticsearch：特點與邏輯93

6.6　套用於Elasticsearch和Solr的SpringData組件95

6.7　使用LingPipe和GATE實現定製搜尋99

6.8　本章小結108

6.9　參考文獻108

第Ⅱ部分　架構及算法

第7章　分析技術及算法概覽111

7.1　算法類型綜述111

7.2　統計/數值技術112

7.3　貝葉斯技術113

7.4　本體驅動算法114

7.5　混合算法：組合算法類型115

7.6　代碼示例116

7.7　本章小結119

7.8　參考文獻119

第8章　規則引擎、系統控制與系統編排121

8.1　規則系統JBossDrools介紹121

8.2　基於規則的軟體系統控制124

8.3　系統協調與JBossDrools125

8.4　分析引擎示例與規則控制126

8.5　本章小結129

8.6　參考文獻129

第9章　綜合提升：設計一個完整的分析系統131

9.1　本章小結136

9.2　參考文獻136

第Ⅲ部分　組件與系統

第10章　數據可視化：可視化與互動分析139

10.1　簡單的可視化139

10.2　AngularJS和Friends簡介143

10.3　使用JHipster集成SpringXD

和AngularJS143

10.4　使用d3.js、sigma.js及其他

工具152

10.5　本章小結153

10.6　參考文獻153

第Ⅳ部分　案例研究與套用

第11章　生物信息學案例研究：分析顯微鏡載玻片數據157

11.1　生物信息學介紹157

11.2　自動顯微鏡簡介159

11.3　代碼示例：使用圖像填充HDFS162

11.4　本章小結165

11.5　參考文獻165

第12章　貝葉斯分析組件：識別信用卡詐欺167

12.1　貝葉斯分析簡介167

12.2　貝葉斯組件用於信用卡詐欺檢測169

12.3　本章小結172

12.4　參考文獻172

第13章　尋找石油：使用ApacheMahout分析地理數據173

13.1　基於領域的ApacheMahout推理介紹173

13.2　智慧型製圖系統和Hadoop分析179

13.3　本章小結180

13.4　參考文獻180

第14章　“圖像大數據”系統：一些案例研究181

14.1　圖像大數據簡介181

14.2　使用HIPI系統的第一個代碼示例184

14.3　BDA圖像工具包利用高級語言功能187

14.4　究竟什麼是圖像數據分析？187

14.5　互動模組和儀錶板189

14.6　添加新的數據管道和分散式特徵查找189

14.7　示例：分散式特徵查找算法190

14.8　IABD工具包中的低級圖像處理程式194

14.9　術語194

14.10　本章小結195

14.11　參考文獻195

第15章　構建通用數據管道199

15.1　示例系統的體系架構和描述199

15.2　如何獲取和運行示例系統200

15.3　管道構建的五大策略200

15.3.1　從數據源和接收裝置工作200

15.3.2　由中間向外發展200

15.3.3　基於企業集成模式(EIP)的開發200

15.3.4　基於規則的訊息管道開發201

15.3.5　控制+數據(控制流)管道202

15.4　本章小結202

15.5　參考文獻203

第16章　大數據分析的總結與展望205

16.1　總結205

16.2　大數據分析的現狀206

16.3　“孵化項目”和“初期

項目”208

16.4　未來Hadoop及其後續思考209

16.5　不同觀點：目前Hadoop的替代方案211

16.6　在“未來Hadoop”中使用機器學習和深度學習技術211

16.7　數據可視化和BDA的前沿領域212

16.8　結束語212

附錄A　設定分散式分析環境215

附錄B　獲取、安裝和運行示例分析系統227

相關詞條

熱門詞條

聯絡我們