數據質量管理的基礎理論與關鍵技術

《數據質量管理的基礎理論與關鍵技術》是依託北京航空航天大學,由樊文飛擔任項目負責人的重點項目。

基本介紹

  • 中文名:數據質量管理的基礎理論與關鍵技術
  • 依託單位:北京航空航天大學
  • 項目負責人:樊文飛
  • 項目類別:重點項目
項目摘要,結題摘要,

項目摘要

數據質量研究旨在自動定位和修複數據中的錯誤,提高數據可用性,對信息化社會的工農業生產、醫療衛生、信息服務、國防安全等各個領域 具有重要意義。國際學術界和工業界已將數據質量列為信息管理的首要問題。本項目基於已有工作基礎,在統一的邏輯框架下研究數據質量的核心問題,即確保數據一致性、精確性、完全性、時效性和實體同一性,並研究這些問題的互動作用。對每一問題,提出質量模型、規則語言、公理系統和推理機制,以判別和分析數據中的錯誤、誤差、遺缺、陳舊和冗餘問題,並提出高效算法,自動挖掘保障數據質量的規則、辨識和修複數據錯誤。本項目還將以人壽保險為套用背景,在北京市政府支持下開發一個實用的數據質量原型系統,驗證基礎研究結果的正確性和有效性。

結題摘要

數據質量研究旨在自動定位和修複數據中的錯誤,提高數據可用性,對信息化社會的工家業生產、醫療衛生、信息服務、國防安全等各個領域具有重要意義,已被國際學術界和工業界列為信息管理的首要問題。本項目已完成項目的所有研究目標。(1) 深入研究了數據質量的核心問題,即數據一致性、精確性、完整性、時效性和實體同一性。對每個核心問題建立了理論基礎,包括模型、度量、數據質量規則的約束語言、基礎理論問題的複雜度分析及實用的檢測與修復算法。(2) 首次研究了五個核心問題的互動作用,建立了理論基礎和實用技術。(3) 首次提出了並發算法,用於處理大數據下的數據質量問題。(4) 課題組是最早開始研究圖數據質量的團隊之一,首次提出了圖數據的完整性約束語言,包括函式依賴、主鍵和元組生成依賴等,建立了以上圖數據完整性約束的基礎理論問題的複雜度並設計了圖數據上的不一致性錯誤檢測和實體識別的並發可擴展算法。(5) 開發了數據質量管理系統,基於深圳市“織網工程”建立了政府人口、法人、房屋等基礎信息資源數據質量保障套用示範項目。 課題取得的研究成果已達到並超出了課題任務要求,共出版國際專著1部,其中譯版已在國內出版;在高水平國際期刊和國際會議發表學術論文共72篇,其中在國際一流期刊ACM Transactions on Database Systems、IEEE Transactions on Knowledge and Data Engineering、Theoretical Computer Sciences和一流國際會議SIGMOD、PODS、VLDB、ICDE、SIGIR、AAAI、WWW等發表學術論文共40篇,特邀論文11篇。申請專利19項, 其中中國專利7項、美國專利6項、英國專利3項、韓國專利3項,其中兩項韓國專利已授權。開發的數據質量管理系統在深圳織網工程示範套用中累計清洗數據近100億條數據,精度達到95%以上,助力深圳市獲得了全國第一個也是目前唯一一個“國家政務信息共享示範城市”,和第一批“國家信息惠民示範城市”。

相關詞條

熱門詞條

聯絡我們