複雜數據質量控制技術

內容簡介

複雜性是大數據區別於小數據的本質特性，也是當前大數據質量控制與數據治理面臨的核心挑戰。本書圍繞大數據的複雜性開展研究，旨在探索當前數據資源建設與利用過程中面臨的挑戰和技術難題，促進數據價值的充分釋放。

全書分為6部分，共24章。第1部分概述(第1、2章)，綜述所研究數據控制技術的基本概念和任務定位，以及國內外的研究進展；第2部分實體分辨技術(第3~13章)，研究了高維數據實體分辨、名稱分辨、XML數據實體分辨和跨模態數據實體分辨等；第3部分真值發現技術(第14~18章)，研究了單真值發現、多真值發現、文本數據真值發現，以及基於多蟻群最佳化和基於深度神經網路的真值發現等；第4部分基於數據依賴的數據質量控制技術(第19~21章)，研究了數據錄入輔助預測與推理方法、不一致數據檢測與修複方法，以及有限先驗知識下的全局數據質量評估；第5部分系統與平台(第22、23章)，介紹了數據質量控制系統，以及數據治理平台的設計與實現；第6部分結束語(第24章)，歸納總結了當前面臨的風險和挑戰。

本書務實求新，系統性強，易讀性和可操作性好，既可作為數據質量控制與數據治理領域的進階用書，又可作為數據資源建設與利用、信息技術等相關學科領域的教學參考或工程實踐指導用書。

圖書目錄

第1部分概述

第1章緒論

1．1研究背景及意義

1．2基本概念和任務定位

1．2．1實體分辨

1．2．2高維數據實體分辨

1．2．3名稱分辨

1．2．4XML數據實體分辨

1．2．5跨模態數據實體分辨

1．2．6衝突消解與真值發現

1．2．7不一致數據檢測與修復

1．2．8數據錄入輔助預測與修復

1．2．9數據質量評估

1．3本書內容結構安排

本章參考文獻

第2章國內外研究進展

2．1引言

2．2高維數據實體分辨的研究進展

2.2.1實體分辨方法

2．2．2多目標蟻群算法

2．2．3特徵選擇穩定性

2.2.4不平衡數據分類方法

2．3名稱分辨的研究進展

2．3．1機構名稱分辨的研究現狀

2．3．2姓名消歧的研究現狀

2．4XML數據實體分辨的研究進展

2．4．1文本比較方法

2．4．2結構比較方法

2．5跨模態數據實體分辨的研究進展

2．5．1單模態表征

2．5．2相似性度量方法

2．5．3相似性匹配方法

2．6真值發現的研究進展

2．6．1結構化數據真值發現

2．6．2文本數據真值發現

2．6．3特殊場景下的真值發現

2．7不一致數據檢測與修復的研究進展

2．7．1數據檢測

複雜數據質量控制技術

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條