大數據清洗技術

大數據清洗技術

《大數據清洗技術》是2020年哈爾濱工業大學出版社出版的圖書。

基本介紹

  • 書名:大數據清洗技術
  • 作者:王宏志
  • 類別:計算機/網路類圖書
  • 出版社:哈爾濱工業大學出版社
  • 出版時間:2020年
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787560377537
內容簡介,作者簡介,圖書目錄,

內容簡介

本書主要介紹了大數據清洗方面的研究成果。全書共分7章,重點面向大數據清洗中計算困難、錯誤混雜、缺少知識等難題,針對實體識別、真值發現、缺失值填充、不一致檢測與修復等問題提出了相應的技術和算法,並在第7章提出了多數據質量問題綜合清洗與最佳化技術。 本書可作為高等院校和科研機構大數據、數據質量管理、數據治理等方面的教學和科研參考書。

作者簡介

王宏志,哈爾濱工業大學計算機科學與技術學院教授、博士生導師,青年龍江學者。其研究方向為大數據、數據科學、數據管理與分析。在VLDB, SIGMOD等國內外重要會議和期刊發表學術論文200餘篇,出版學術專著兩本,先後主持國家自然科學基金重點項目等10餘個項目。獲得黑龍江省自然科學一等獎、教育部高等學校科技進步一等獎、黑龍江省青年科技獎等獎勵和榮譽。任ACM SIGMOD中國秘書長、中國資料庫專業委員會常務委員、ACM數據科學學科標準編寫組專家。

圖書目錄

第 1章 緒論 1
 1.1 大數據的定義及其套用 2
 1.2 數據質量問題 4
 1.3 大數據的質量問題與挑戰 12
 1.4 數據清洗研究進展 13
 1.5 本書的內容 16
 本章參考文獻 17
第 2章 大數據處理技術概述 21
 2.1 大數據並行計算平台 22
 2.2 眾包技術 26
 本章參考文獻 29
第3章 實體識別 30
 3.1 實體識別概述 31
 3.2 串列實體識別算法 35
 3.3 並行實體識別算法 45
 3.4 增量實體識別算法 77
 3.5 基於眾包的實體識別 94
 本章參考文獻 100
第4章 真值發現 107
 4.1 真值發現算法概述 108
 4.2 並行真值發現算法 109
 4.3 增量真值發現算法 127
 4.4 基於眾包的真值發現 140
 本章參考文獻 144
第5章 缺失值填充 145
 5.1 缺失值填充算法概述 146
 5.2 基於貝葉斯網路的串列缺失值填充算法 150
 5.3 實驗結果及分析 175
 5.4 並行缺失值填充算法 182
 5.5 基於眾包的缺失值填充算法 196
 本章參考文獻 202
第6章 不一致數據檢測與修復 205
 6.1 不一致數據檢測與修復概述 206
 6.2 並行不一致數據檢測與修復算法 211
 6.3 基於眾包的不一致數據檢測與修復算法 225
 6.4 掃描數據一次的大數據不一致檢測算法 229
 本章參考文獻 244
第7章 多數據質量問題綜合清洗與最佳化 249
 7.1 數據質量維度的關聯 250
 7.2 基於任務合併的並行數據清洗最佳化 274
 7.3 綜合大數據清洗系統 293
 本章參考文獻 303
名詞索引 307

相關詞條

熱門詞條

聯絡我們