數據質量管理中的完整性約束關鍵技術研究

數據質量管理中的完整性約束關鍵技術研究

《數據質量管理中的完整性約束關鍵技術研究》是依託華東師範大學,由金澈清擔任項目負責人的面上項目。

基本介紹

  • 中文名:數據質量管理中的完整性約束關鍵技術研究
  • 項目類別:面上項目
  • 項目負責人:金澈清
  • 依託單位:華東師範大學
項目摘要,結題摘要,

項目摘要

完整性約束管理是大數據質量管理的關鍵內容之一,在醫療衛生、企業信息管理等領域中意義重大。面向大數據的完整性約束管理模式已從數據更新前檢驗約束條件模式發展到數據更新與約束檢驗相對獨立階段,其難點在於如何在海量、分布、增量的資料庫上高效管理近似唯一性約束、(條件)函式依賴等全局型(holistic)完整性約束,且支持自動檢測與修復。本項目擬從四個方面進行探索,包括:(1)設計面向集群的並行算法以提高系統的吞吐率;(2)設計面向分散式網路環境的概要數據結構以降低網路傳輸開銷;(3)設計增量更新方法以避免每次監控時均要掃描全部數據集合;(4)設計自動修復算法(或半自動修復算法)以避免過多採用人工干預。同時,採用理論分析、完整的實驗測試來檢驗新方法與現有方法的差異性。相關研究成果預計將為大數據質量管理提供新的解決思路、顯著提升數據的可用性,因而具有重要的理論與實踐意義。

結題摘要

完整性約束管理是大數據質量管理的關鍵內容之一,在醫療衛生、企業信息管理等領域中意義重大。處理大數據場景之下的完整性約束問題所面臨的主要難點是如何在海量、分布、增量的資料庫上高效管理近似唯一性約束、(條件)函式依賴等全局型完整性約束,且支持自動檢測與修復。本項目的研究內容包括:面向集群的並行算法設計、面向分散式網路環境的低網路傳輸開銷算法設計、增量更新式的完整性約束檢測方法設計、和低質數據自動修復算法設計,並採用理論分析、完整的實驗測試來檢驗新方法與現有方法的差異性。課題組圍繞預先制定的研究方案認真執行,取得了一批原創性的研究成果,具體包括:(1)共發表學術論文32篇,其中包括3篇CCF-A類論文和7篇CCF-B類論文,(2)在新加坡世界出版社出版英文專著1部;(3)獲得授權專利1項;(4)設計完成四個原型系統,並且申請了四項軟體著作權;(5)獲得4項科研獎勵;(6)培養了3名博士研究生和9名碩士研究生,其中多位同學獲得國家獎學金。課題組嚴格按照基金委的要求使用經費。相關研究成果有助於位大數據質量管理提供新的解決思路,提升數據可用性,具有顯著的理論意義和實踐價值。

相關詞條

熱門詞條

聯絡我們