《基於用戶反饋的不確定性數據清洗技術研究》是依託中國人民大學,由陳晉川擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於用戶反饋的不確定性數據清洗技術研究
- 項目類別:青年科學基金項目
- 項目負責人:陳晉川
- 依託單位:中國人民大學
項目摘要,結題摘要,
項目摘要
在數據密集型計算環境下,不確定性數據已廣泛地出現於以數據集成系統為代表的大量套用中。有效地清除不確定性數據是提高套用系統服務質量的客觀要求。過往關於不確定性數據清洗的研究多側重於對清洗對象的選擇,依賴領域專家或已有領域知識來得到準確數據。本課題旨在利用用戶對查詢結果的反饋自動清除系統中的不確定性數據。該方法可避免領域專家繁重的人工勞動,滿足海量不確定性數據管理的需求。同時,用戶反饋多的數據對象必然具備高的使用價值,因此,我們的方法還可最佳化對清洗對象的選擇,最大限度地利用系統資源提供儘可能好的服務。本課題基於可能世界模型,研究通過索引(如PW Tree)快速從用戶反饋定位到源數據;研究通過數據挖掘的手段從大量反饋中自動歸納可能的通用知識規則,以清除尚未被反饋涉及的錯誤數據;研究通過更新參數的方法快速更新資料庫。項目的研究成果將對大規模數據管理系統的研製提供有力的支持。
結題摘要
不確定性數據的處理是當前學術界和產業界的共同焦點。在很多實際套用系統中,不確定性數據規模與日俱增,已影響到了用戶體驗。為了提升服務質量,我們迫切需要高效清洗不確定性數據的技術。本課題提出利用用戶的反饋來清洗不確定性數據的方法,與傳統的數據清洗方法相比,具有精度高,成本低,知識資源豐富等優點。此外,本課題還提出了將用戶的反饋自動轉換為知識約束的方法,避免了逐一掃描所有的可能世界,極大地提高了效率。本課題還進一步提出通過快取中間結果來進一步提高反饋處理效率的技術,該技術不但可以加速不確定性數據清洗過程,還可套用於機率推斷和機率查詢等其他不確定性數據的操作。上述方法的有效性和性能已經在大規模真實數據和人工數據集上進行了檢驗。在此基礎上,還開發了原型系統。課題部分研究成果已經在高水平的國際會議上發表,並已申請了國家專利。在國家自然科學基金的支持下,我們順利了完成了課題的工作,下一步計畫展開更為深入的研究,例如處理不精確的用戶反饋,以及通過設計用戶界面來獲取更有效的反饋知識等。