《重複數據刪除技術——面向大數據管理的縮減技術》是2021年清華大學出版社出版的圖書。本書面向從事大數據存儲系統設計及相關技術研究和開發工作的讀者。
基本介紹
- 中文名:重複數據刪除技術——面向大數據管理的縮減技術
- 作者:付印金、肖儂
- 出版社:清華大學出版社
- ISBN:9787302566113
內容簡介,圖書目錄,作者簡介,
內容簡介
本書面向從事大數據存儲系統設計及相關技術研究和開發工作的讀者。既可以作為存儲 系統架構師、軟體開發工程師、產品或項目經理、數據中心運維人員等的實用工具書,還可 以作為普通高等院校計算機和大數據科學相關專業的教學或科研人員、研究生、高年級本科 生及相關培訓機構學員的學習參考書。
圖書目錄
第1章概述1
1.1 大數據簡介2
1.1.1 大數據定義和維度2
1.1.2 大數據管理挑戰6
1.2 高效能存儲管理9
1.2.1 存儲虛擬化10
1.2.2自動分層存儲13
1.2.3 自動精簡配置17
1.2.4 數據縮減技術19
1.3 本章小結21
第2章存儲技術基礎23
2.1 存儲介質24
2.1.1 磁存儲介質24
2.1.2 光存儲介質26
2.1.3 電子存儲介質28
2.2 存儲接口32
2.2.1 IDE接口33
2.2.2 SATA接口33
2.2.3 SCSI接口34
2.2.4 SAS接口35
2.2.5 PCIE接口36
2.2.6 FC接口37
2.3 存儲系統架構38
2.3.1 存儲器分層結構38
2.3.2 RAID技術40
2.4 網路存儲系統44
2.4.1 直接連線存儲44
2.4.2 網路附加存儲46
2.4.3 存儲區域網路47
2.4.4 基於對象存儲48
2.4.5 幾種存儲結構的比較49
2.5 本章小結51
第3章大數據管理技術52
3.1 分散式計算框架53
3.2 分散式檔案系統56
3.2.1 HDFS58
3.2.2 Ceph59
3.2.3 Lustre 61
3.3 NoSQL資料庫63
3.3.1 HBase64
3.3.2 MongoDB66
3.4 大數據倉庫67
3.4.1 Hive68
3.4.2 Pig69
3.4.3 Phoenix70
3.5 本章小結73
第4章重複數據刪除存儲系統74
4.1 重複數據刪除的概念及分類75
4.1.1 基本概念76
4.1.2 技術分類78
4.2 重複數據刪除存儲原理81
4.2.1 系統架構81
4.2.2 主要步驟82
4.2.3 衡量指標83
4.3 重複數據刪除技術套用場景84
4.3.1 數據備份84
XI
4.3.2 歸檔存儲85
4.3.3 遠程容災85
4.3.4 虛擬化環境86
4.3.5 主存儲系統86
4.3.6 新型存儲介質87
4.4 相關產品及開源項目87
4.4.1 企業產品88
4.4.2 開源項目91
4.5 本章小結94
第5章重複數據刪除關鍵技術95
5.1 數據劃分方法96
5.1.1 全檔案分塊97
5.1.2 靜態分塊97
5.1.3 基於內容分塊98
5.1.4 基於套用分塊100
5.1.5 Delta編碼100
5.2 塊索引查詢最佳化技術102
5.2.1 基於塊局部性的最佳化策略102
5.2.2 基於分層消重的最佳化策略104
5.2.3 基於固態存儲的最佳化策略105
5.3 可擴展數據路由技術107
5.3.1 基於分散式哈希表的塊級數據路由技術107
5.3.2 基於狀態信息的超塊級數據路由技術108
5.3.3 基於相似性的檔案級數據路由技術109
5.4 塊指紋計算加速方法110
5.4.1 多核CPU加速方法110
5.4.2 GPGPU加速方法111
5.5 數據還原方法113
5.5.1 主存儲還原方法113
5.5.2 備份存儲還原方法113
5.5.3 雲存儲還原方法115
5.6 垃圾回收技術116
5.6.1 引用計數法116
5.6.2 標記清理法117
5.7 高可靠數據配置策略118
5.7.1 糾錯編碼技術118
5.7.2 副本策略119
5.8 數據安全技術120
5.8.1 加密衝突121
5.8.2 旁路攻擊121
5.8.3 所有權證明122
5.9 本章小結123
第6章套用感知源端重複數據刪除機制124
6.1 研究背景125
6.2 相關研究工作127
6.2.1 套用感知存儲研究127
6.2.2 基於源端重複數據刪除的雲備份研究127
6.3 基本形式化模型128
6.3.1 符號與基本定義128
6.3.2 模型抽象與問題定義129
6.4 研究動機132
6.5 高效套用感知源端重複數據刪除的設計與實現139
6.5.1 ALG-Dedupe體系結構簡介139
6.5.2 檔案大小過濾器140
6.5.3 智慧型數據分塊策略141
6.5.4 套用感知的消重器141
6.5.5 套用感知索引結構142
6.5.6 段和容器管理143
6.6 實驗評估144
6.6.1 實驗平台和數據集144
6.6.2 重複數據刪除效果145
6.6.3 重複數據刪除效率146
6.6.4 雲備份視窗147
6.6.5 能耗利用率148
6.6.6 雲存儲代價149
6.6.7 系統開銷150
6.7 本章小結151
第7章高可擴展集群重複數據刪除技術152
7.1 研究背景154
7.2 相關研究工作155
7.3 基本模型與算法157
7.3.1 超塊相似性分析158
7.3.2 基於手紋的數據路由算法160
7.4 系統設計與實現162
7.4.1 Σ-Dedupe系統架構162
7.4.2 數據路由訊息通信164
7.4.3 相似索引查詢最佳化165
7.5 性能評估166
7.5.1 實驗平台和工作負載167
7.5.2 驗證度量167
7.5.3 單節點並行重複數據刪除效率168
7.5.4 集群重複數據刪除效率172
7.6 本章小結176
第8章重複數據刪除存儲案例分析177
8.1 重複數據刪除縮減率評估178
8.2 主流廠商相關產品套用案例181
8.2.1 DellEMC公司產品案例181
8.2.2 IBM公司產品案例195
8.2.3 飛康軟體公司產品案例199
8.2.4 富士通公司產品案例204
8.2.5 NetApp公司產品案例211
8.2.6 Quantum公司產品案例218
8.3 本章小結224
作者簡介
付印金 博士
軍事科學院系統工程研究院博士後、陸軍工程大學講師,現為中國計算機學會高級會員、信息存儲技術/系統軟體專業委員會委員。長期從事網路存儲、大數據管理與雲計算方向的課題研究。已主持完成國家自然科學基金、江蘇省自然科學基金等課題多項,發表學術論文50多篇,申請和授權國家發明專利10餘項。主講過“計算機組成原理”、“計算機網路”與“雲計算”等本科與研究生專業課程。
肖儂 教授
中山大學國家超算計算廣州中心教授、博士生導師,國防科技大學教授。獲得教育部長江學者特聘教授、國家傑出青年科學基金資助。現任CCF Fellow、中國計算機學會大數據專家委員會副主任、信息存儲技術專業委員會副主任。研究方向為網路計算與雲計算、新型存儲和系統結構,是我國高性能網路計算技術研究的先行開拓者之一。負責過863重大項目和國家自然科學基金重點項目等課題,發表學術論文200多篇。