《MapReduce 2.0源碼分析與編程實戰》是王曉華創作的軟硬體開發類書籍。
基本介紹
- 書名:MapReduce 2.0源碼分析與編程實戰
- 作者:王曉華
- 類別:軟硬體開發
- 出版社:人民郵電出版社
- 出版時間:2014年01月01日
- 定價:49 元
- ISBN:9787115332370
- 著作權方:人民郵電出版社
圖書簡介,編輯推薦,作者簡介,圖書目錄,
圖書簡介
《MapReduce2.0源碼分析與編程實戰》比較系統地介紹了新一代MapReduce2.0的理論體系、架構和程式設計方法。全書分為10章,系統地介紹了HDFS存儲系統,Hadoop的檔案I/O系統,MapReduce2.0的框架結構和源碼分析,MapReduce2.0的配置與測試,MapReduce2.0運行流程,MapReduce2.0高級程式設計以及相關特性等內容。《MapReduce2.0源碼分析與編程實戰》最後部分介紹了數據挖掘的初步知識,以及不同套用類型的MapReduce2.0編程實戰。《MapReduce2.0源碼分析與編程實戰》強調理論聯繫實際,幫助讀者在掌握MapReduce2.0基本知識和特性的基礎上,培養實際編程和解決大數據處理相關問題的能力。《MapReduce2.0源碼分析與編程實戰》可作為學習MapReduce2.0的源碼、MapReduce2.0程式設計、數據挖掘、機器學習等相關內容的程式設計人員的培訓和自學讀物,也可以作為高等院校相關專業的教學輔導書。
編輯推薦
資深雲計算技術講師潛心力作CSDNHadoop版主鼎力推薦 深入淺出、結合實例,幫你在實戰中掌握MapReduce2.0編程的精髓
作者簡介
王曉華,高校資深計算機專業講師,給研究生和本科生講授面向對象程式設計、數據結構、Hadoop程式設計等相關課程。主要研究方向為雲計算、數據挖掘。曾主持和參與多項國家和省級科研課題,獨立完成一項科研成果獲省級成果認定,發表過多篇論文,申請一項專利。
圖書目錄
第1章 大象也會跳舞
1.1 大數據時代
1.2 大數據分析時代
1.3 簡單、粗暴、有效這就是Hadoop
1.4 MapReduce與Hadoop
1.5 看,大象也會跳舞
本章小結
第2章 大象的肚子HDFS檔案系統詳解
2.1 HDFS基礎詳解
2.1.1 HDFS設計思路
2.1.2 HDFS架構與基本存儲單元
2.2 HDFS數據存取流程分析
2.2.1 HDFS數據存儲位置與複製詳解
2.2.2 HDFS 輸入流程分析
2.2.3 HDFS輸出流程分析
2.3 HDFS命令行操作詳解
2.3.1 HDFS中4個通用的命令行操作
2.3.2 HDFS檔案18個基本命令行的操作
2.3.3 HDFS檔案訪問許可權詳解
2.4 通過Web瀏覽HDFS檔案
2.5 HDFS接口使用詳解
2.5.1 使用FileSystem API操作HDFS中的內容
2.5.2 使用FileSystem API讀取數據詳解
2.5.3 使用FileSystem API寫入數據詳解
2.6 HDFS檔案同步與並發訪問
本章小結
第3章 “吃下去吐出來”Hadoop檔案I/O系統詳解
3.1 Hadoop的壓縮類型介紹
3.2 Hadoop的壓縮類庫
3.2.1 從一個簡單的例子開始
3.2.2 CompressionCodec接口
3.2.3 CompressionCodecFactory類詳解
3.2.4 壓縮池
3.2.5 在Hadoop中使用壓縮
3.3 I/O中序列化類型詳解
3.3.1 Text類詳解
3.3.2 IntWritable類詳解
3.3.3 ObjectWritable類詳解
3.3.4 NullWritable類詳解
3.3.5 ByteWritable類詳解
3.4 實現自定義的Writable類型
3.4.1 Writable接口
3.4.2 WritableComparable接口與RawComparator接口
3.4.3 自定義的Writable類
3.4.4 為了更快的比較
3.5 Hadoop中小檔案處理詳解
3.5.1 SequenceFile詳解
3.5.2 MapFile詳解
本章小結
第4章 “大象的大腦”MapReduce框架結構與源碼分析
4.1 MapReduce框架結構與源碼分析
4.1.1 MapReduce框架分析與執行過程詳解
4.1.2 MapReduce輸入輸出與源碼分析
4.1.3 MapReduce中Job類詳解
4.2 編程實戰:經典的MapReduce單詞計數程式
4.2.1 準備工作
4.2.2 MapReduce過程分析
4.2.3 計數程式的MapReduce實現
4.2.4 計數程式的main方法
4.2.5 注意事項
4.2.6 運行結果
4.2.7 Mapper中的Combiner詳解
本章小結
第5章 深入!MapReduce配置與測試
5.1 MapReduce環境變數配置詳解
5.1.1 使用XML配置新的配置檔案
5.1.2 修改已有的配置檔案
5.1.3 輔助類ToolRunner、Configured詳解
5.2 使用MRUnit對MapReduce進行測試
5.2.1 MRUnit簡介與使用
5.2.2 使用MRUnit完成Mapper單元測試
5.2.3 使用MRUnit完成Reduce單元測試
5.2.4 使用MRUnit完成MapReduce單元測試
5.3 在本地磁碟上進行MapReduce測試
5.3.1 偽環境欺騙
5.3.2 在Eclipse中配置Hadoop外掛程式
5.3.3 編寫本地測試代碼
5.4 MapReduce計數器
5.4.1 使用計數器的MapReduce程式設計
5.4.2 通過Web接口進行任務分析
5.4.3 通過Web接口查看計數器
本章小結
第6章 大象的思考流程MapReduce運行流程詳解
6.1 經典MapReduce任務的工作流程
6.1.1 ClientNode執行任務的初始化
6.1.2 訊息傳遞
6.1.3 MapReduce任務的執行
6.1.4 任務的完成與狀態更新
6.2 經典MapReduce任務異常處理詳解
6.2.1 MapReduce任務異常的處理方式
6.2.2 MapReduce任務失敗的處理方式
6.3 經典MapReduce任務的數據處理過程
6.3.1 Map端的輸入數據處理過程
6.3.2 Reduce端的輸入數據處理過程
6.3.3 Java虛擬機重用
6.4 MapReduce 2.0(YARN)工作流程詳解
6.4.1 YARN概述
6.4.2 YARN任務過程分析
6.4.3 YARN的異常處理
本章小結
第7章 更強的大象MapReduce高級程式設計續
7.1 MapReduce程式設計默認格式類型詳解
7.1.1 map與reduce方法的默認輸入輸出類型
7.1.2 自定義輸入輸出類型設定
7.1.3 自定義全局類型變數設定要求
7.1.4 默認的MapReduce程式設定
7.2 InputFormat輸入格式詳解
7.2.1 輸入記錄與分區
7.2.2 InputFormat源碼及執行過程分析
7.2.3 實現自己的RecordReader類
7.2.4 自定義的FileInputFormat類
7.2.5 一些常用的InputFormat類詳解
7.3 OutputFormat輸出格式詳解
7.3.1 OutputFormat默認輸出格式
7.3.2 自定義OutputFormat輸出格式
7.3.3 對Reduce任務數進行設定
7.3.4 OutputFormat分區類Partitioner詳解
7.4 多種輸入與輸出使用介紹
7.4.1 MultipleInputs多種輸入方式詳解
7.4.2 MultipleOutputs多種輸出方式詳解
本章小結
第8章 MapReduce相關特性詳解
8.1 MapReduce計數器
8.1.1 Hadoop框架內置的計數器
8.1.2 自定義計數器
8.1.3 動態計數器
8.1.4 獲取計數器值
8.2 排序與查找
8.2.1 普通排序規則與查找
8.2.2 使用MapFile進行排序與查找
8.3 對輸出結果的值分組排序
8.3.1 準備工作
8.3.2 對結果進行分組處理
8.3.3 對鍵的二次排序
8.3.4 自定義輸出分組
8.4 編程實戰:使用二次排序自動查找最小值
8.4.1 思路分析
8.4.2 驗證輸入輸出結果
8.4.3 對結果進行二次排序
8.4.4 對結果進行分組
8.4.5 分片處理排序與分組
8.4.6 驗證結果
本章小結
第9章 啤酒與尿布MapReduce連線與數據挖掘初步
9.1 對於同樣格式數據進行MapReduce連線
9.2 對於不同格式數據進行MapReduce連線
9.3 不能說的秘密啤酒與尿布
9.3.1 銷售清單的秘密
9.3.2 設計程式
9.3.3 程式執行結果
9.4 數據挖掘初步
本章小結
第10章 MapReduce實戰編程及深度分析
10.1 編程實戰:自定義資料庫中讀取數據
10.1.1 準備工作
10.1.2 程式分析
10.1.3 自定義SQLInputFormat
10.1.4 使用自定義程式從資料庫中讀取數據
10.1.5 程式運行及數據分析
10.1.6 使用合併記錄進行性能調優
10.2 編程實戰:串聯尋找共同轉載微博
10.2.1 套用分析
10.2.2 第一步錶轉換
10.2.3 建立關注連線
10.2.4 自定義的OutputFormat
10.2.5 串聯解決共同轉載微博
10.2.6 性能調優及後續處理
10.3 編程實戰:雲存儲模型
10.3.1 套用分析
10.3.2 Tomcat簡介
10.3.3 配置Tomcat伺服器
10.3.4 測試Tomcat伺服器
10.3.5 在Eclipse中配置Tomcat
10.3.6 創建雲存儲目錄
10.3.7 獲取雲存儲列表
10.3.8 將檔案上傳至數據云存儲中
10.3.9 刪除檔案
10.3.10 下載雲端存儲檔案
10.3.11 程式執行與性能調優
10.4 編程實戰:多文檔相似關鍵字檢索
10.4.1 套用分析
10.4.2 自定義任務處理類
10.4.3 程式執行及後續分析
10.5 編程實戰:學生成績整理與分組
10.5.1 套用分析
10.5.2 自定義的ScoreWritable
10.5.3 自定義的MapReduce
10.5.4 自定義的分組
10.5.5 程式運行結果
10.5.6 採用更多分組類型
本章小結