實戰Hadoop大數據處理

實戰Hadoop大數據處理

《實戰Hadoop大數據處理》是2015年8月清華大學出版社出版的圖書,作者是曾剛。

基本介紹

  • 中文名:實戰Hadoop大數據處理
  • 作者:曾剛
  • 出版社:清華大學出版社
  • 出版時間:2015年8月
  • 定價:39 元
  • ISBN:9787302411444
內容簡介,圖書目錄,

內容簡介

本書以“大數據”為起點,較詳細地介紹了Hadoop的相關知識。全書共分為9章,介紹了大數據的基本理論、Hadoop生態系統、Hadoop的安裝、HDFS分散式檔案系統、MapReduce的原理及開發、HBase資料庫、Hive數據倉庫、Sqoop數據轉換工具,最後結合實際介紹了大數據在智慧型交通和情報分析中的套用。本書力求用淺顯的語言、生動的案例、詳細的操作步驟向廣大讀者介紹Hadoop;力求深入淺出,把複雜的理論與實際案例相結合,用平實的語言把深奧的原理簡單化;力求圖文並茂,通過適當的圖表把零亂的知識點有序地展現在讀者面前;力求緊跟時代步伐,儘量結合較新版本的軟體闡述大數據處理的相關知識。
本書適合作為Hadoop技術的初學者、工程技術人員、大專院校研究生或高年級本科生的學習用書或參考書。

圖書目錄

第1章大數據概述1
1.1大數據簡介1
1.1.1大數據的概念與特點2
1.1.2大數據研究的背景4
1.1.3大數據的套用示例5
1.1.4大數據研究的意義6
1.2大數據處理技術簡介6
1.2.1大數據的關鍵技術6
1.2.2大數據處理模式及其系統9
1.3大數據帶來的挑戰13
1.4大數據的研究與發展方向14
第2章Hadoop簡介16
2.1Hadoop項目起源17
2.2Hadoop的由來19
2.3Hadoop核心組件及相關項目簡介21
2.4Hadoop的版本衍化26
2.5Hadoop的發展趨勢26
第3章Hadoop的安裝28
3.1安裝Ubuntu Server28
3.1.1VMware網路適配器的連線模式28
3.1.2“僅主機模式”網路的設定29
3.1.3安裝Ubuntu Server31
3.1.4遠程管理Ubuntu Server37
3.1.5安裝JDK39
3.1.6克隆其他虛擬機41
3.1.7配置hosts檔案43〖2〗〖4〗實戰Hadoop大數據處理〖3〗3.2配置SSH公鑰認證43
3.2.1為什麼要公鑰認證43
3.2.2公鑰認證的工作原理44
3.2.3SSH客戶端的安裝44
3.2.4SSH配置45
3.2.5配置SecureCRT公鑰登錄Linux伺服器47
3.3安裝配置Hadoop49
3.3.1單機安裝50
3.3.2偽分布模式的安裝51
3.3.3分散式安裝53
3.3.4Hadoop管理員常用命令58
3.4雙NameNode分散式安裝Hadoop 2.2.063
3.4.1安裝配置Zookeeper集群64
3.4.2安裝Hadoop 2.2.065
第4章HDFS檔案系統71
4.1網際網路時代對存儲系統的新要求71
4.2HDFS系統的特點72
4.3HDFS檔案系統73
4.3.1HDFS系統組成73
4.3.2HDFS檔案數據的存儲組織75
4.3.3元數據及其備份機制77
4.3.4數據塊備份79
4.3.5數據的讀取過程80
4.3.6數據的寫入過程81
4.4HDFS Shell命令82
4.5API訪問HDFS88
4.5.1編譯Hadoop的Eclipse外掛程式88
4.5.2在Eclipse中安裝Hadoop外掛程式90
4.5.3Hadoop URL讀取數據92
4.5.4FileSystem類93
4.5.5取得HDFS的元信息97
4.6HDFS的高可用性99
4.6.1元數據的備份99
4.6.2使用SecondaryName進行備份100
4.6.3BackupNode備份100
4.6.4Hadoop 2.X中HDFS的高可用性實現原理100
4.6.5Federation機制101
4.7HDFS中小檔案存儲問題105
4.7.1檔案歸檔技術105
4.7.2SequenceFile格式108
4.7.3CombineFileInputFormat108
第5章MapReduce原理及開發110
5.1初識MapReduce110
5.1.1試用WordCount110
5.1.2自己編寫WordCount111
5.1.3WordCount處理過程118
5.2MapReduce工作原理119
5.2.1MapReduce數據處理過程119
5.2.2MapReduce框架組成120
5.2.3MapReduce運行原理121
5.3Shuffle和Sort123
5.3.1Map端的Shuffle124
5.3.2Reduce端Shuffle126
5.3.3Shuffle過程最佳化127
5.4任務的執行128
5.4.1推測執行128
5.4.2任務JVM重用129
5.4.3跳過壞的記錄129
5.4.4任務執行的信息129
5.5故障處理130
5.5.1任務失敗130
5.5.2TaskTracker失敗130
5.5.3JobTracker失敗130
5.5.4任務失敗重試的處理方法130
5.6作業調度131
5.6.1先進先出(FIFO)調度器131
5.6.2能力調度器132
5.6.3公平調度器132
5.7MapReduce編程接口132
5.7.1InputFormat——輸入格式類133
5.7.2FileInputFormat——檔案輸入格式類134
5.7.3InputSplit——數據分塊類134
5.7.4RecordReader——記錄讀取類135
5.7.5Mapper類135
5.7.6Reducer類136
5.7.7OutputFormat——輸出格式類137
5.7.8FileOutputFormat類——檔案輸出格式類138
5.7.9RecordWriter類——記錄輸出類138
5.8MapReduce套用開發138
5.8.1計數類套用139
5.8.2去重計數類套用143
5.8.3簡單排序類套用145
5.8.4倒排索引類套用148
5.8.5二次排序類套用154
第6章HBase資料庫160
6.1HBase介紹160
6.1.1網際網路時代對資料庫的要求160
6.1.2HBase的特點160
6.2HBase架構與原理161
6.2.1系統的架構及組成161
6.2.2HBase邏輯視圖163
6.2.3HBase的物理模型164
6.2.4元數據表165
6.3安裝HBase166
6.3.1單機模式安裝166
6.3.2偽分布模式安裝168
6.3.3分散式安裝169
6.4HBase Shell操作171
6.4.1基本Shell命令171
6.4.2DDL操作172
6.4.3DML操作174
6.4.4HBase Shell腳本176
6.5基於API使用HBase176
6.5.1API簡介177
6.5.2表操作示例179
6.5.3數據操作示例181
6.5.4Filter的套用與示例184
6.6MapReduce操作HBase數據191
6.6.1HBase MapReduce匯總到檔案193
6.6.2HBase MapReduce匯總到HBase195
6.7HBase最佳化196
6.7.1JVM GC最佳化196
6.7.2HBase參數調優197
6.7.3表設計最佳化199
6.7.4讀最佳化200
6.7.5寫最佳化201
第7章Hive數據倉庫202
7.1Hive簡介202
7.1.1數據分析工具應具有的特徵202
7.1.2Pig與Hive的比較202
7.1.3Hive架構203
7.1.4Hive的元數據存儲205
7.1.5Hive檔案存儲格式206
7.1.6Hive支持的數據類型207
7.2Hive的安裝207
7.2.1安裝MySQL207
7.2.2安裝Hive209
7.2.3Hive的用戶接口211
7.3Hive QL講解214
7.3.1DDL命令214
7.3.2DML操作219
7.3.3SELECT查詢222
7.4Hive複雜類型228
7.4.1Array(數組)228
7.4.2Map類型229
7.4.3Struct類型229
7.5Hive函式230
7.5.1Hive內置函式230
7.5.2Hive用戶自定義函式231
第8章數據整合235
8.1大數據整合問題235
8.2Sqoop 1.4X整合工具236
8.3Sqoop2整合工具240
第9章典型套用案例介紹245
9.1大數據在智慧型交通中的套用245
9.1.1交通運輸業面臨的挑戰245
9.1.2智慧型交通大數據平台的架構247
9.1.3數據分析層的數據基礎分析248
9.2大數據在情報分析中的套用253
9.2.1公安情報分析的現狀254
9.2.2大數據情報分析系統架構254
9.2.3數據的整合255
9.2.4情報分析的方法256
9.2.5基於文本的串併案件聚類分析257
參考文獻264

相關詞條

熱門詞條

聯絡我們