基於眾包的數據清洗關鍵技術研究

《基於眾包的數據清洗關鍵技術研究》是依託清華大學,由馮建華擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於眾包的數據清洗關鍵技術研究
  • 依託單位:清華大學
  • 項目負責人:馮建華
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

在信息化高速發展的今天,數據在各行各業發揮著越來越重要的地位,例如:數據分析常常可以幫助企業在市場上做出正確的商業決策。然而,如果數據不乾淨,那么基於髒數據所做的分析結果可能會導致完全錯誤的商業決策,給公司帶來巨大的損失。根據益百利公司的最新調查結果表明,2011年英國的商業公司因為數據不乾淨的問題總共損失高達80億英鎊。為了清洗這些髒數據,基於機器算法的數據清洗技術已經得到了廣泛關注,但是目前方法還不能達到滿意的效果。最近幾年,眾包技術在工業界和學術界獲得了廣泛的關注,並被驗證可以比精巧的機器算法獲得更好的結果。受此啟發,本課題研究基於眾包的數據清洗技術,具體研究內容包括:(1)眾包數據錯誤檢測;(2)眾包數據錯誤修復;(3)眾包冗餘數據去重;(4)眾包數據清洗結果的質量控制。此外,我們還將把以上研究成果融為一體,開發一套比當前主流的數據清洗系統結果更好的眾包數據清洗系統。

結題摘要

在信息化高速發展的今天,數據在各行各業發揮著越來越重要的地位,例如:數據分析常常可以幫助企業在市場上做出正確的商業決策。然而,如果數據不乾淨,那么基於髒數據所做的分析結果可能會導致完全錯誤的商業決策,給公司帶來巨大的損失。根據益百利公司的最新調查結果表明,2011年英國的商業公司因為數據不乾淨的問題總共損失高達80億英鎊。為了清洗這些髒數據,基於機器算法的數據清洗技術已經得到了廣泛關注,但是目前方法還不能達到滿意的效果。最近幾年,眾包技術在工業界和學術界獲得了廣泛的關注,並被驗證可以比精巧的機器算法獲得更好的結果。受此啟發,本課題研究基於眾包的數據清洗技術。 本項目嚴格按照研究計畫執行,在基於眾包的數據清洗的方面取得了多項突破性成果,按照預期解決了關鍵問題。提出了基於知識圖譜的數據清洗方法,人機協作數據修複方法,基於偏序的圖疊代數據去重模型,質量感知的眾包任務質量控制方法,基於資訊理論的眾包質量控制機制,並將這些技術套用到教育數據、時空數據的清洗、修復和去重。 發表了CCF A類論文15篇。獲得了CIKM 2017 最佳論文獎以及ICDE 2018最佳論文候選。

相關詞條

熱門詞條

聯絡我們