Hadoop MapReduce性能最佳化

《Hadoop MapReduce性能最佳化》是人民郵電出版社出版的圖書,作者是(法)Khaled Tannir等。

基本介紹

  • 書名:Hadoop MapReduce性能最佳化
  • 作者: (法)Khaled Tannir等
  • 出版社:人民郵電出版社
  • ISBN:9787115381279  
主要內容,目錄,

主要內容

大數據時代,MapReduce的重要性不言而喻。Hadoop作為MapReduce框架的一個實現,受到業界廣泛的認同,並被廣泛部署和套用。儘管Hadoop為數據開發工程師入門和編程提供了極大便利,但構造一個真正滿足性能要求的MapReduce程式並不簡單。數據量巨大是大數據工作的現實問題,而對低回響時間的要求則時常困擾著數據開發工程師。《Hadoop MapReduce性能最佳化》採用原理與實踐相結合的方式,通過原理講解影響MapReduce性能的因素,透過實例一步步地教讀者如何發現性能瓶頸並消除瓶頸,如何識別系統薄弱環節並改善薄弱環節,講解過程中融合了作者在最佳化實踐過程中積累的豐富經驗,具有很強的針對性。讀完本書,能讓讀者對Hadoop具有更強的駕馭能力,從而構造出性能最優的MapReduce程式。Hadoop性能問題既是程式層面的問題,也是系統層面的問題。本書既覆蓋了系統層面的最佳化又覆蓋了程式層面的最佳化,非常適合Hadoop管理員和有經驗的數據開發工程師閱讀。對於初學者,本書第1章也作了必要的技術鋪墊,避免對後面章節的理解產生梯度。

目錄

第1章 了解Hadoop MapReduce 1
1.1 MapReduce模型 1
1.2 Hadoop MapReduce概述 3
1.3 Hadoop MapReduce的工作原理 4
1.4 影響MapReduce性能的因素 5
1.5 小結 8
第2章 Hadoop參數概述 9
2.1 研究Hadoop參數 9
2.1.1 配置檔案mapred-site.xml 10
2.1.2 配置檔案hdfs-site.xml 15
2.1.3 配置檔案core-site.xml 18
2.2 Hadoop MapReduce性能指標 19
2.3 性能監測工具 20
2.3.1 用Chukwa監測Hadoop 21
2.3.2 使用Ganglia監測Hadoop 21
2.3.3 使用Nagios監測Hadoop 21
2.4 用Apache Ambari監測Hadoop 22
2.5 小結 23
第3章 檢測系統瓶頸 25
3.1 性能調優 25
3.2 創建性能基線 27
3.3 識別資源瓶頸 30
3.3.1 識別記憶體瓶頸 30
3.3.2 識別CPU瓶頸 31
3.3.3 識別存儲瓶頸 32
3.3.4 識別網路頻寬瓶頸 33
3.4 小結 34
第4章 識別資源薄弱環節 35
4.1 識別集群薄弱環節 35
4.1.1 檢查Hadoop集群節點的健康狀況 36
4.1.2 檢查輸入數據大小 37
4.1.3 檢查海量I/O和網路阻塞 38
4.1.4 檢查並發任務不足 39
4.1.5 檢查CPU過飽和 40
4.2 量化Hadoop集群 41
4.3 正確配置集群 44
4.4 小結 47
第5章 強化map和reduce任務 49
5.1 強化map任務 49
5.1.1 輸入數據和塊大小的影響 51
5.1.2 處置小檔案和不可拆分檔案 51
5.1.3 在Map階段壓縮溢寫記錄 53
5.1.4 計算map任務的吞吐量 55
5.2 強化reduce任務 57
5.2.1 計算reduce任務的吞吐量 58
5.2.2 改善Reduce執行階段 59
5.3 調優map和reduce參數 60
5.4 小結 64
第6章 最佳化MapReduce任務 65
6.1 使用Combiner 65
6.2 使用壓縮技術 68
6.3 使用正確Writable類型 72
6.4 明智地復用類型 74
6.5 最佳化mapper和reducer的代碼 76
6.6 小結 78
第7章 最佳實踐與建議 81
7.1 硬體調優與作業系統推薦 81
7.1.1 Hadoop集群檢查表 81
7.1.2 Bios調優檢查表 82
7.1.3 OS配置建議 82
7.2 Hadoop最佳實踐與建議 83
7.2.1 部署Hadoop 83
7.2.2 Hadoop調優建議 84
7.2.3 使用MapReduce模板類代碼 86
7.3 小結 90

相關詞條

熱門詞條

聯絡我們