《大數據清洗技術》是2020年哈爾濱工業大學出版社出版的圖書。
基本介紹
- 書名:大數據清洗技術
- 作者:王宏志
- 類別:計算機/網路類圖書
- 出版社:哈爾濱工業大學出版社
- 出版時間:2020年
- 開本:16 開
- 裝幀:平裝
- ISBN:9787560377537
內容簡介,作者簡介,圖書目錄,
內容簡介
本書主要介紹了大數據清洗方面的研究成果。全書共分7章,重點面向大數據清洗中計算困難、錯誤混雜、缺少知識等難題,針對實體識別、真值發現、缺失值填充、不一致檢測與修復等問題提出了相應的技術和算法,並在第7章提出了多數據質量問題綜合清洗與最佳化技術。 本書可作為高等院校和科研機構大數據、數據質量管理、數據治理等方面的教學和科研參考書。
作者簡介
王宏志,哈爾濱工業大學計算機科學與技術學院教授、博士生導師,青年龍江學者。其研究方向為大數據、數據科學、數據管理與分析。在VLDB, SIGMOD等國內外重要會議和期刊發表學術論文200餘篇,出版學術專著兩本,先後主持國家自然科學基金重點項目等10餘個項目。獲得黑龍江省自然科學一等獎、教育部高等學校科技進步一等獎、黑龍江省青年科技獎等獎勵和榮譽。任ACM SIGMOD中國秘書長、中國資料庫專業委員會常務委員、ACM數據科學學科標準編寫組專家。
圖書目錄
第 1章 緒論 1
1.1 大數據的定義及其套用 2
1.2 數據質量問題 4
1.3 大數據的質量問題與挑戰 12
1.4 數據清洗研究進展 13
1.5 本書的內容 16
本章參考文獻 17
第 2章 大數據處理技術概述 21
2.1 大數據並行計算平台 22
2.2 眾包技術 26
本章參考文獻 29
第3章 實體識別 30
3.1 實體識別概述 31
3.2 串列實體識別算法 35
3.3 並行實體識別算法 45
3.4 增量實體識別算法 77
3.5 基於眾包的實體識別 94
本章參考文獻 100
第4章 真值發現 107
4.1 真值發現算法概述 108
4.2 並行真值發現算法 109
4.3 增量真值發現算法 127
4.4 基於眾包的真值發現 140
本章參考文獻 144
第5章 缺失值填充 145
5.1 缺失值填充算法概述 146
5.2 基於貝葉斯網路的串列缺失值填充算法 150
5.3 實驗結果及分析 175
5.4 並行缺失值填充算法 182
5.5 基於眾包的缺失值填充算法 196
本章參考文獻 202
第6章 不一致數據檢測與修復 205
6.1 不一致數據檢測與修復概述 206
6.2 並行不一致數據檢測與修復算法 211
6.3 基於眾包的不一致數據檢測與修復算法 225
6.4 掃描數據一次的大數據不一致檢測算法 229
本章參考文獻 244
第7章 多數據質量問題綜合清洗與最佳化 249
7.1 數據質量維度的關聯 250
7.2 基於任務合併的並行數據清洗最佳化 274
7.3 綜合大數據清洗系統 293
本章參考文獻 303
名詞索引 307