內容簡介
複雜性是大數據區別於小數據的本質特性,也是當前大數據質量控制與數據治理面臨的核心挑戰。本書圍繞大數據的複雜性開展研究,旨在探索當前數據資源建設與利用過程中面臨的挑戰和技術難題,促進數據價值的充分釋放。
全書分為6部分,共24章。第1部分概述(第1、2章),綜述所研究數據控制技術的基本概念和任務定位,以及國內外的研究進展; 第2部分實體分辨技術(第3~13章),研究了高維數據實體分辨、名稱分辨、XML數據實體分辨和跨模態數據實體分辨等; 第3部分真值發現技術(第14~18章),研究了單真值發現、多真值發現、文本數據真值發現,以及基於多蟻群最佳化和基於深度神經網路的真值發現等; 第4部分基於數據依賴的數據質量控制技術(第19~21章),研究了數據錄入輔助預測與推理方法、不一致數據檢測與修複方法,以及有限先驗知識下的全局數據質量評估; 第5部分系統與平台(第22、23章),介紹了數據質量控制系統,以及數據治理平台的設計與實現; 第6部分結束語(第24章),歸納總結了當前面臨的風險和挑戰。
本書務實求新,系統性強,易讀性和可操作性好,既可作為數據質量控制與數據治理領域的進階用書,又可作為數據資源建設與利用、信息技術等相關學科領域的教學參考或工程實踐指導用書。
圖書目錄
目錄
第1部分概述
第1章緒論
1.1研究背景及意義
1.2基本概念和任務定位
1.2.1實體分辨
1.2.2高維數據實體分辨
1.2.3名稱分辨
1.2.4XML數據實體分辨
1.2.5跨模態數據實體分辨
1.2.6衝突消解與真值發現
1.2.7不一致數據檢測與修復
1.2.8數據錄入輔助預測與修復
1.2.9數據質量評估
1.3本書內容結構安排
本章參考文獻
第2章國內外研究進展
2.1引言
2.2高維數據實體分辨的研究進展
2.2.1實體分辨方法
2.2.2多目標蟻群算法
2.2.3特徵選擇穩定性
2.2.4不平衡數據分類方法
2.3名稱分辨的研究進展
2.3.1機構名稱分辨的研究現狀
2.3.2姓名消歧的研究現狀
2.4XML數據實體分辨的研究進展
2.4.1文本比較方法
2.4.2結構比較方法
2.5跨模態數據實體分辨的研究進展
2.5.1單模態表征
2.5.2相似性度量方法
2.5.3相似性匹配方法
2.6真值發現的研究進展
2.6.1結構化數據真值發現
2.6.2文本數據真值發現
2.6.3特殊場景下的真值發現
2.7不一致數據檢測與修復的研究進展
2.7.1數據檢測
2.7.2數據修復
2.8數據錄入輔助預測與推理的研究進展
2.8.1數據預測模型
2.8.2智慧型人機接口
2.9全局數據質量評估的研究進展
本章小結
本章參考文獻
第2部分實體分辨技術
第3章高維數據特徵選擇的多目標蟻群算法
3.1引言
3.2理論方法
3.2.1兩檔案設定
3.2.2等效路徑信息素增強策略
3.2.3多樣性度量指標
3.3算法描述
3.3.1路徑選擇機率公式
3.3.2變異機制
3.3.3兩檔案更新
3.3.4信息素更新方式
3.3.5算法偽代碼及時間複雜度分析
3.4實驗與分析
本章小結
本章參考文獻
第4章高維數據特徵選擇穩定性研究
4.1引言
4.2特徵選擇穩定性指標分析
4.3特徵選擇穩定性集成方法分析
4.4演化算法特徵選擇穩定性提升方法
4.4.1系統描述
4.4.2基於多目標蟻群最佳化的穩定特徵選擇
4.5實驗與分析
4.5.1EAFSSIS實驗分析
4.5.2SFSMOACO實驗分析
本章小結
本章參考文獻
第5章高維數據實體分辨多分類器方法
5.1引言
5.2分類器度量
5.2.1分類器性能度量
5.2.2分類器相似性度量
5.3基於特徵選擇的多分類器方法
5.3.1系統模型設計
5.3.2方法實現
5.4實驗與分析
5.4.1實驗設定與對比方法
5.4.2實驗驗證與結果分析
本章小結
本章參考文獻
第6章高維不平衡數據實體分辨集成學習方法
6.1引言
6.2不平衡數據分類度量指標
6.3遺傳欠採樣多目標蟻群最佳化特徵選擇
6.3.1方法框架
6.3.2V統計量
6.3.3遺傳欠採樣
6.3.4多目標蟻群算法特徵選擇
6.3.5特徵預處理及算法偽代碼描述
6.4實驗與分析
6.4.1實驗數據與評估指標
6.4.2遺傳欠採樣分析
6.4.3算法分析
6.5綜合驗證
6.5.1實驗數據與評估指標
6.5.2實驗與分析
本章小結
本章參考文獻
第7章基於增強相似度數據空間轉換的機構別名挖掘
7.1引言
7.2機構作者二部圖構造
7.3作者集合間的增強相似度計算
7.4集合型數值型數據空間轉換
7.5機構別名挖掘流程及算法
7.5.1機構別名挖掘流程
7.5.2機構別名挖掘算法描述
7.6實驗驗證
7.6.1實驗數據
7.6.2實驗方法
7.6.3評價指標
7.6.4實驗結果
本章小結
本章參考文獻
第8章基於多重集增強相似度數據空間轉換的機構別名挖掘
8.1引言
8.2多重集的定義及運算法則
8.3機構作者加權二部圖構造
8.4作者多重集間的增強相似度計算
8.5機構別名挖掘步驟及算法描述
8.5.1機構別名挖掘步驟
8.5.2機構別名挖掘算法描述
8.6實驗驗證
8.6.1實驗數據
8.6.2實驗方法
8.6.3實驗結果
本章小結
本章參考文獻
第9章基於合作作者和隸屬機構信息的姓名消歧
9.1引言
9.2實體關係圖構造
9.3有效路徑選擇
9.4連線強度計算
9.4.1連線強度
9.4.2路徑機率
9.4.3路徑權重
9.5姓名消歧步驟及算法描述
9.5.1姓名消歧步驟
9.5.2姓名消歧算法描述
9.6實驗驗證
9.6.1實驗數據
9.6.2實驗方法
9.6.3實驗結果
本章小結
本章參考文獻
第10章面向XML數據實體分辨的樹相似度
10.1引言
10.2樹相似度
10.3具有文本相似度的擴展子樹
10.4效果評估
10.4.1實驗設定
10.4.2與其他樹相似度的比較
10.4.3參數對分類正確率的影響
本章小結
本章參考文獻
第11章基於語義空間結構的多模態數據表征
11.1引言
11.2基於語義結構的數據表征
11.3基於參考點的低維語義結構表征
11.3.1語義結構的參考表征
11.3.2參考點選擇策略
11.4實驗分析
11.4.1數據集和實驗設定
11.4.2最近鄰覆蓋率測試結果及分析
11.4.3聚類測試結果及分析
11.4.4運行效率測試及複雜度分析
本章小結
本章參考文獻
第12章基於語義結構一致性的跨模態相似度度量
12.1引言
12.2基於抽象和關聯的跨模態相似度計算框架
12.3語義結構一致性與相似度計算
12.3.1文本與圖像特徵提取
12.3.2多模態語義結構一致性
12.3.3多模態參考點選擇及相似度計算
12.4實驗分析
12.4.1數據集和實驗設定
12.4.2文本圖像相似度驗證
本章小結
本章參考文獻
第13章考慮“相似性漂移”的多模態匹配
13.1引言
13.2跨模態映射的“相似性漂移”問題
13.3基於近鄰傳播的匹配方法
13.4基於近鄰增強的匹配方法
13.5實驗分析
13.5.1數據集和實驗設定
13.5.2平均最近鄰覆蓋率測試
13.5.3跨模態匹配驗證
本章小結
本章參考文獻
第3部分真值發現技術
第14章基於數據源質量多屬性評估的單真值發現
14.1引言
14.2問題定義
14.3基於加權多屬性的真值發現算法
14.3.1模型概述
14.3.2數據源質量多屬性評估
14.3.3MESOTD算法描述
14.4實驗與分析
14.4.1實驗數據及方法
14.4.2評價指標
14.4.3實驗結果分析
本章小結
本章參考文獻
第15章基於多蟻群同步最佳化的多真值發現
15.1引言
15.2問題定義
15.3多真值發現模型
15.3.1模型概述
15.3.2模型分析
15.4MACSOMTD算法設計
15.4.1算法流程描述
15.4.2蟻群算法設計
15.5實驗分析
15.5.1實驗數據及對比算法
15.5.2評價指標
15.5.3參數敏感性分析
15.5.4對比結果分析
本章小結
本章參考文獻
第16章基於深度神經網路嵌入的結構化數據真值發現
16.1引言
16.2問題定義
16.3TDBNNE算法描述
16.3.1數據源觀測值嵌入空間構建
16.3.2基於嵌入空間的真值發現
16.4實驗與分析
16.4.1實驗設定
16.4.2評價指標
16.4.3實驗結果分析
本章小結
本章參考文獻
第17章基於蟻群最佳化的文本數據真值發現
17.1引言
17.2問題定義
17.3Ant_Truth算法描述
17.3.1文本答案預處理
17.3.2文本數據真值發現
17.3.3實驗與分析
17.4蟻群算法參數選擇
17.4.1進化強度
17.4.2ACOP_ES算法描述
17.4.3實驗與分析
本章小結
本章參考文獻
第18章基於圖卷積神經網路的文本數據真值發現
18.1引言
18.2問題定義
18.3GCN_Truth算法描述
18.3.1基於SIF的文本答案語義表征
18.3.2文本數據真值發現
18.4實驗與分析
18.4.1實驗設定
18.4.2評價指標
18.4.3實驗結果分析
本章小結
本章參考文獻
第4部分基於數據依賴的數據質量控制技術
第19章數據錄入輔助預測與推理方法研究
19.1引言
19.2數據預測模型
19.2.1最頻繁使用模型
19.2.2最近使用模型
19.2.3確定性模型
19.2.4基於上下文的協同式頻繁使用模型
19.2.5Usher: 動態監控數據收集質量的系統
19.3基於統計依賴的輔助錄入流程
19.3.1基於貝葉斯網路的數據預測和推理研究
19.3.2數據積累對基於貝葉斯網路推理的影響
19.3.3基於貝葉斯網路的關係數據欄位排序算法
19.4實驗驗證與結果分析
19.4.1貝葉斯網路學習
19.4.2基於貝葉斯網路的預測
19.4.3排序算法
本章小結
本章參考文獻
第20章不一致數據檢測與修複方法研究
20.1引言
20.2數據的檢測與修復
20.3檢測規則與修復規則的轉換
20.3.1修復規則Fixing Rule的形式化定義
20.3.2基於修復規則Fixing Rule抽取常量CFD
20.3.3基於常量條件函式依賴生成Fixing Rule
20.4基於常量CFD和Fixing Rule的不一致數據檢測與修復
20.4.1不一致數據檢測與修復算法DetecRep
20.4.2DetecRep算法複雜度分析
20.4.3實驗驗證與結果分析
本章小結
本章參考文獻
第21章有限先驗知識下的全局數據質量評估
21.1引言
21.2基於貝葉斯網路結構學習的全局數據質量評估
21.3全局數據準確性評估拓展研究
21.3.1基於評分和搜尋全局準確性評估方法
21.3.2基於鄰接矩陣的度量標準
21.4實驗驗證與結果分析
21.4.1實驗設定
21.4.2實驗結果與分析
本章小結
本章參考文獻
第5部分系統與平台
第22章數據質量控制系統
22.1引言
22.2數據質量控制系統的發展現狀
22.2.1存儲層數據質量控制
22.2.2套用層數據質量控制
22.2.3獨立數據質量工具
22.2.4大數據質量控制
22.3基於規則的數據質量控制系統
22.3.1系統功能
22.3.2系統架構
22.4大數據質量控制系統
22.4.1系統功能
22.4.2系統架構
本章小結
本章參考文獻
第23章數據治理平台
23.1引言
23.2數據治理平台的發展現狀
23.2.1數據治理平台概述
23.2.2典型數據治理解決方案
23.3跨域數據質量控制系統
23.3.1系統功能
23.3.2系統架構
23.4目標驅動的數據治理平台
23.4.1平台功能
23.4.2平台架構
本章小結
本章參考文獻
第6部分結束語
第24章被忽視的挑戰和風險
24.1引言
24.2舉步維艱的現實
24.3不得不說的風險和挑戰
24.3.1“開源社區”是“自主可控”還是“失去自我”
24.3.2不得不走的“主數據建設”回頭路
24.3.3“數據中台”的誤導
24.3.4脫離“業務數據需求”的盲目
24.3.5尚不能預判的“挑戰”
本章小結
本章參考文獻
附錄項目資助