大數據錯誤檢測與修復關鍵技術的研究

《大數據錯誤檢測與修復關鍵技術的研究》是依託哈爾濱工業大學,由王宏志擔任項目負責人的面上項目。

基本介紹

  • 中文名:大數據錯誤檢測與修復關鍵技術的研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:面上項目
  • 項目負責人:王宏志
項目摘要,結題摘要,

項目摘要

大數據在當前的套用中廣泛存在,成為數據管理研究的熱點之一。由於其規模性、高速性、多樣性的特點,大數據中有更大可能出現錯誤,即存在不一致、過時、不完整、不精確的數據或描述同一實體的數據出現衝突(簡稱為實體不同一)。能否有效檢測和修復錯誤是以數據為中心的系統成敗的重要因素。然而,由於可擴展性不足、缺少對多類別錯誤的支持、缺乏知識等原因,當前錯誤檢測和修復技術難以套用於大數據。故本項目基於課題組的研究基礎,研究大數據上檢測並修復錯誤的關鍵技術。本項目擬面向大數據提出計算有效的數據質量模型,針對不一致、過時、不完整、不精確和實體不同一這五類數據錯誤分別提出適用於大數據的錯誤檢測與修復算法,提出大數據上多種類型混合錯誤的檢測與修複方法,並開發一套大數據錯誤檢測與修復系統,驗證研究結果的正確性和有效性。

結題摘要

本課題是國家自然科學基金面上項目“大數據錯誤檢測與修復關鍵技術的研究”,該課題針對數據質量這一大數據管理的熱點問題,研究大數據上檢測並修復錯誤的關鍵技術,具體來說,面向大數據提出計算有效的數據質量模型,針對不一致、過時、不完整、不精確和實體不同一這五類數據錯誤分別提出適用於大數據的錯誤檢測與修復算法,提出大數據上多種類型混合錯誤的檢測與修複方法,並開發一套大數據錯誤檢測與修復系統。按照研究計畫,課題組人員開展了研究工作,提出了通用大數據質量模型並分析其計算有效性,針對不一致錯誤提出了基於Hadoop的不一致數據檢測與修復算法、掃描數據一次的不一致數據檢測算法和基於正則表達式的不一致數據檢測與修復算法,針對過時錯誤提出了基於Hadoop的過時數據檢測算法、時鮮數據提取算法、過時數據檢測規則自動發現算法和動態數據的時效性判定算法,針對不完整錯誤提出了基於眾包的缺失值填充最佳化算法、貝葉斯網路與眾包結合的缺失值填充算法、基於近似匹配的缺失值填充算法、不完整時間序列的修復算法、基於不完整數據分類的缺失值填充算法、基於知識庫推理的缺失值填充算法和基於Web的缺失值填充,針對不精確錯誤提出了不精確數據檢測算法,針對實體不同一錯誤提出了基於樹的實體相似性測度、基於圖內聚的實體識別算法、基於Map-Reduce的大數據增量真值發現算法;針對多種混合錯誤檢測與修復,發現了數據錯誤類型關聯,提出了數據混雜類型錯誤修復算法、不一致數據缺失值填充算法、基於任務合併的大數據混合錯誤並行清洗最佳化策略和多源數據自動修復算法。發表論文49篇,SCI收錄26篇, EI收錄45篇,並基於本項目提出的技術開發並研發了大數據清洗系統CleanCloud,在國際會議CIKM上進行了系統演示。課題組成員4次應邀在國際會議上進行國際大會特邀報告,7人次擔任重要國內外學術會議組織委員會委員。

相關詞條

熱門詞條

聯絡我們