《面向相似性數據的自適應世系管理關鍵技術研究》是依託東北大學,由楊曉春擔任項目負責人的面上項目。
基本介紹
- 中文名:面向相似性數據的自適應世系管理關鍵技術研究
- 項目類別:面上項目
- 項目負責人:楊曉春
- 依託單位:東北大學
中文摘要,結題摘要,
中文摘要
數據產生、並隨著時間推移而演變的整個過程稱為數據世系或數據溯源。數據世系管理對於用戶理解數據的產生過程、確保數據的可重現、避免重複操作、對原始數據進行恢復等起到十分重要的作用。伴隨著數據量的爆炸式增長,數據來源變得分散而廣泛,導致數據具有來源多樣性、粒度不統一、表示不一致性等特點。這些特點體現在數據具有一定程度的相似性,針對這些相似性數據進行世系管理變得更加複雜,具有挑戰性。現有的世系管理技術對數據的上述特點支持不夠,不具有自適應能力。項目旨在揭示相似性數據在產生和傳遞過程中的內在聯繫,為實現更加適合實際套用的世系管理提供重要的依據。主要研究內容包括:世系關係自適應抽取技術、世系關係的自動驗證技術、動態存儲管理技術、數據質量評價模型與相關算法研究。設計、實現和評價相關的算法, 爭取在資料庫理論和技術上取得一定的突破, 為今後的實際套用推廣奠定堅實的基礎。
結題摘要
項目研究面向相似性數據的自適應世系管理關鍵技術。數據世系管理對於用戶理解數據的產生、確保數據的可重現、避免重複操作、原始數據恢復等起到十分重要的作用。伴隨著數據量的爆炸式增長,數據來源變得分散而廣泛,導致數據具有來源多樣性、粒度不統一、表示不一致性等特點。這些特點體現在數據具有一定程度的相似性,針對這些相似性數據進行世系管理變得更加複雜,具有挑戰性。現有的世系管理技術對數據的上述特點支持不夠,不具有自適應能力。項目揭示了相似性數據在產生和傳遞過程間的內在聯繫,為實現更加適合實際套用的世系管理提供重要的依據。主要研究目標及內容包括:世系可表達性、世系自動抽取與驗證技術、基於增量序列的世系存儲技術、以及複雜世系查詢技術。 設計、實現和評價相關的算法, 在資料庫理論和技術上取得了一定的突破, 為今後的實際套用推廣奠定堅實的基礎。針對上述目標進行了相關研究工作,在基於領域知識的相似性衡量、近似謂詞的自動選取問題、基於不同數據粒度的雙親映射關係抽取、世系關係的完整性表示、世系關係的可靠性驗證、世系關係的完備性驗證、支持非統一數據粒度的存儲結構、世系壓縮技術、版本實例化技術、數據質量評估模型、機率世系關係的溯源算法、基於數據質量的排序算法、世系質量評測算法等方面取得了多項研究成果。在國際、國內學術會議和期刊發表論文28篇,其中SCI收錄5篇,EI收錄18篇,ISTP收錄5篇。代表性研究成果發表在國際頂級資料庫會議ACM SIGMOD 2013、VLDB 2012和ICDE 2013上。並開發了一個面向email處理的自適應世系管理系統EmailTracer。在項目實施過程中,培養博士生1名,碩士生14名,本科生6名。主辦國際會議workshop 3次,特邀報告3次,先後派22人次境外訪學、國際交流或參加國際會議,邀請海內外專家學者15人次前來講學。獲得2次國際會議優秀論文,獲得美國發明專利一項,申請中國發明專利一項。