《大數據一致性錯誤管理理論與關鍵技術》是依託哈爾濱工業大學,由劉顯敏擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:大數據一致性錯誤管理理論與關鍵技術
- 依託單位:哈爾濱工業大學
- 項目類別:青年科學基金項目
- 項目負責人:劉顯敏
項目摘要,結題摘要,
項目摘要
大數據的質量問題正在成為一個越來越重要的問題,已經給社會帶來了巨大的經濟損失和嚴重的後果。一致性是數據質量五大維度之一,是數據質量的重要方面。一致性錯誤會帶來諸如“同一郵政編碼代表兩個不同城市”的錯誤信息,嚴重影響了數據的可用性。目前,大數據一致性錯誤管理的研究工作還很少。提供大數據一致性錯誤管理的理論與技術具有較大的學術和實際意義。為此,本項目主要研究大數據一致性錯誤管理的理論與關鍵技術,包括大數據一致性錯誤管理的理論基礎,大數據一致性錯誤評估算法,大數據一致性錯誤修復算法以及不一致大數據查詢處理算法。從理論角度研究一致性錯誤管理基本問題的複雜性與參數複雜性;基於採樣等思想設計適用於大數據的線性、亞線性錯誤評估算法,評估數據質量;設計基於用戶反饋的大數據一致性錯誤修復算法,改進數據質量;設計不一致大數據上的查詢處理算法,支持對不一致數據的容忍;實現大數據一致性錯誤管理的原型系統。
結題摘要
大數據的質量問題正在成為一個越來越重要的問題,已經給社會帶來了巨大的經濟損失和嚴重的後果。一致性是數據質量五大維度之一,是數據質量的重要方面。一致性錯誤會帶來諸如“同一郵政編碼代表兩個不同城市”的錯誤信息,嚴重影響了數據的可用性。目前,大數據一致性錯誤管理的研究工作還很少。提供大數據一致性錯誤管理的理論與技術具有較大的學術和實際意義。為此,本項目主要研究大數據一致性錯誤管理的理論與關鍵技術,包括大數據一致性錯誤管理的理論基礎,大數據一致性錯誤評估算法,大數據一致性錯誤修復算法以及不一致大數據查詢處理算法。本項目解決了大數據一致性錯誤管理基礎問題的參數複雜性分析、亞線性時間代價的一致性錯誤評估算法、基於反饋的一致性錯誤修復算法以及融合多修復可能的一致查詢處理算法等四個關鍵科學問題,建立了大數據一致性錯誤管理的理論基礎,提出了一系列大數據一致性錯誤評估、修復算法,提出了支持劣質容忍的一致查詢處理算法。本項目共發表學術論文17篇,其中CCF A類期刊1篇,CCF B類期刊7篇,CCF A類會議論文2篇,在理論計算機科學領域國際期刊《Theoretical Computer Science》上發表論文3篇。本項目在參數複雜性、亞線性算法等基礎理論方面的成果為後續的研究打開了新的突破口。2018年本項目負責人以主要成員身份參與的國家自然科學基金重點項目《大數據分析的計算理論與高效算法》獲批,其中一個重要的研究內容就是面向大數據設計亞線性時間的高效算法和研究大數據分析問題的參數複雜性。本項目套用所提出的理論和算法方面的研究成果,實現了大數據一致性錯誤管理的原型系統,驗證了項目所提出理論與算法的正確性和有效性。在此基礎上,形成了大數據一致性錯誤評估與修復算法庫,2018年項目負責人參與的國家自然科學基金重大項目《基於超算的大數據分析處理基礎算法與編程支撐環境》獲批,將與天河二號深入合作,在其平台套用本項目在大數據一致性錯誤評估與修複方面的研究成果。