面向相似性數據的自適應世系管理關鍵技術研究

中文摘要

數據產生、並隨著時間推移而演變的整個過程稱為數據世系或數據溯源。數據世系管理對於用戶理解數據的產生過程、確保數據的可重現、避免重複操作、對原始數據進行恢復等起到十分重要的作用。伴隨著數據量的爆炸式增長，數據來源變得分散而廣泛，導致數據具有來源多樣性、粒度不統一、表示不一致性等特點。這些特點體現在數據具有一定程度的相似性，針對這些相似性數據進行世系管理變得更加複雜，具有挑戰性。現有的世系管理技術對數據的上述特點支持不夠，不具有自適應能力。項目旨在揭示相似性數據在產生和傳遞過程中的內在聯繫，為實現更加適合實際套用的世系管理提供重要的依據。主要研究內容包括：世系關係自適應抽取技術、世系關係的自動驗證技術、動態存儲管理技術、數據質量評價模型與相關算法研究。設計、實現和評價相關的算法, 爭取在資料庫理論和技術上取得一定的突破, 為今後的實際套用推廣奠定堅實的基礎。

結題摘要

項目研究面向相似性數據的自適應世系管理關鍵技術。數據世系管理對於用戶理解數據的產生、確保數據的可重現、避免重複操作、原始數據恢復等起到十分重要的作用。伴隨著數據量的爆炸式增長，數據來源變得分散而廣泛，導致數據具有來源多樣性、粒度不統一、表示不一致性等特點。這些特點體現在數據具有一定程度的相似性，針對這些相似性數據進行世系管理變得更加複雜，具有挑戰性。現有的世系管理技術對數據的上述特點支持不夠，不具有自適應能力。項目揭示了相似性數據在產生和傳遞過程間的內在聯繫，為實現更加適合實際套用的世系管理提供重要的依據。主要研究目標及內容包括：世系可表達性、世系自動抽取與驗證技術、基於增量序列的世系存儲技術、以及複雜世系查詢技術。設計、實現和評價相關的算法, 在資料庫理論和技術上取得了一定的突破, 為今後的實際套用推廣奠定堅實的基礎。針對上述目標進行了相關研究工作，在基於領域知識的相似性衡量、近似謂詞的自動選取問題、基於不同數據粒度的雙親映射關係抽取、世系關係的完整性表示、世系關係的可靠性驗證、世系關係的完備性驗證、支持非統一數據粒度的存儲結構、世系壓縮技術、版本實例化技術、數據質量評估模型、機率世系關係的溯源算法、基於數據質量的排序算法、世系質量評測算法等方面取得了多項研究成果。在國際、國內學術會議和期刊發表論文28篇，其中SCI收錄5篇，EI收錄18篇，ISTP收錄5篇。代表性研究成果發表在國際頂級資料庫會議ACM SIGMOD 2013、VLDB 2012和ICDE 2013上。並開發了一個面向email處理的自適應世系管理系統EmailTracer。在項目實施過程中，培養博士生1名，碩士生14名，本科生6名。主辦國際會議workshop 3次，特邀報告3次，先後派22人次境外訪學、國際交流或參加國際會議，邀請海內外專家學者15人次前來講學。獲得2次國際會議優秀論文，獲得美國發明專利一項，申請中國發明專利一項。

面向相似性數據的自適應世系管理關鍵技術研究

基本介紹

中文摘要

結題摘要

相關詞條

熱門詞條