數據質量管理中實體識別關鍵技術的研究

《數據質量管理中實體識別關鍵技術的研究》是依託哈爾濱工業大學,由王宏志擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:數據質量管理中實體識別關鍵技術的研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:青年科學基金項目
  • 項目負責人:王宏志
項目摘要,結題摘要,

項目摘要

數據質量管理對數據的有效使用起著決定性作用。實體識別是數據質量管理的重要步驟,目的是在一個或多個資料庫中辨識描述同一個實體的不同表示方法,正確地識別出資料庫中的所有不同實體,其結果是資料庫中所有不同實體的集合以及每個實體的不同描述方法。然而,當前的實體識別技術難以有效處理大數據量、更新頻繁和具有複雜結構的數據,不能滿足數據質量管理的要求。本課題從數據管理的角度,研究數據質量管理中實體識別的理論和關鍵技術,其目的是快速有效地處理大數據量、更新頻繁和具有複雜結構數據上的實體識別,獲得具有質量保證的識別結果,為數據質量管理提供有效的支持。本課題研究內容包括實體識別結果質量評估方法、海量動態結構化數據上實體識別方法、海量動態非結構化數據(重點是XML數據和圖數據)上實體識別方法,並研製相應的實體識別原型系統,驗證課題所提出的理論和方法。

結題摘要

本課題是國家自然科學基金青年基金項目“數據質量管理中實體識別關鍵技術的研究”,該課題以數據質量管理為背景,研究實體識別結果質量評估、海量動態關係數據上實體識別、海量動態XML數據上實體識別、海量動態圖數據集合上實體識別、大規模複雜網路上實體識別以及多種混合數據上海量數據實體識別的關鍵技術。按照研究計畫,課題組人員開展的研究工作,提出了基於機率的實體識別結果質量評估方法、針對海量動態關係數據提出了基於屬性順序規則和基於波形的關係數據實體識別算法、基於Map-Reduce的並行關係數據實體識別方法以及不確定關係數據和基於眾包的關係數據實體識別算法;針對海量動態XML數據提出了支持XML文檔片段實體識別的XML數據片段近似匹配算法、大規模XML數據實體識別算法、用於XML數據流上實體識別的關鍵字匹配和路徑匹配算法;針對海量動態圖數據提出了支持圖集合實體識別的圖數據近似匹配算法和增量匹配算法、支持實體識別的複雜網路壓縮存儲與模式匹配和路徑匹配算法;針對多種結構混合數據實體識別提出了數據對象特徵的聚類算法、基於上下文的實體識別技術和支持混合數據實體識別基本操作和查詢最佳化算法等理論和技術。發表論文36篇,SCI收入3篇, EI收錄26篇,學術章節3篇,並基於本項目提出的技術開發海量數據實體識別原型系統和基於實體的商品檢索技術。課題組成員17人次擔任國內外學術會議組織委員會委員。

相關詞條

熱門詞條

聯絡我們