非結構化數據管理若干關鍵技術研究

《非結構化數據管理若干關鍵技術研究》是依託清華大學,由王建民擔任項目負責人的面上項目。

基本介紹

  • 中文名:非結構化數據管理若干關鍵技術研究
  • 依託單位:清華大學
  • 項目負責人:王建民
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

本課題面向網路化套用對非結構化數據管理需求,重點突破非結構化數據一體化管理核心技術,研製非結構化數據管理系統,並在電信服務領域進行套用驗證。借鑑非結構化數據管理相關理論和方法,重點突破非結構化數據管理統一數據模型、可擴展體系結構、查詢訪問機制(包括存儲、索引、並發控制、查詢處理和最佳化、一致性管理)等關鍵技術,開發新型支持關鍵字檢索和近似查詢的類SQL語言,並在雲計算(低成本計算機群)平台上,研製開放、可靠、高效、可擴展的非結構化數據管理原型系統,支持多種非結構化數據的一體化管理和訪問。本項目研製的非結構化數據管理系統將在電信服務領域(3G互動社區)進行套用驗證。

結題摘要

不同類型的非結構化數據通常具有不同的模式,而且具有不同的處理操作,同時非結構化數據還具有海量、動態、多樣等大數據特點,其管理面臨著巨大挑戰。 三年來,項目負責人及本項目團隊根據《資助項目計畫書》,圍繞非結構化數據管理系統關鍵技術進行了攻關,提出了一種開放式、多層次、組件化、可組裝的體系結構,設計了一種類SQL的非結構化數據統一查詢語言LaSQL,給出了非結構化數據分散式索引系列方法,提出了一種用戶可定製的副本一致性形式化方法與實現機制,開發非結構化數據管理系統原型LaUDMS,並在工業大數據和網際網路金融領域進行了套用驗證。 非結構化數據管理系統包括數據存儲、特徵管理和語義服務三個層次。其中,LaUDStore是對數據存儲層的具體實現,統一支撐結構化和非結構化數據的存儲;特徵管理通過對高維向量和關鍵字兩種典型特徵支持來實現,分別基於高維索引檢索模組和Katta系統,涵蓋特徵抽取、高維索引檢索和文本索引抽取三個模組;語義服務主要通過RDF來實現。 定義了非結構化數據統一查詢語言LaSQL,LaSQL是一種標準查詢語言,為La Structure Query Language的簡稱。LaSQL語言標準以Cassandra Query Language v2.0與Hive Query Language為基礎、參照了UnQL和SQLMM進行設計,涵蓋了非結構化數據管理的基本操作需求,即基於鍵值KV模型與檔案存儲訪問的需求。 針對多種非結構化數據的並行查詢處理框架特點,實現了Hybrid Spill Tree算法,其核心是基於減少回溯的高維索引結構,其特點是檢索效率快,而缺點則是只能搜尋近似KNN,但可通過參數的調整使得Hybrid Spill Tree的近似KNN與精確KNN接近。 由於不同的非結構化數據有對於存儲訪問延遲有不同的需求,課題組提出了一種基於數據訪問訪問過程解構與執行過程重組的方法,利用可擴展雲存儲的延遲與一致性間的權衡關係,為不同非結構化數據訪問提供了可在指定延遲中返回的非結構化數據存儲接口。 將過程模型和過程實例看作一種特殊的非結構化數據,提出了2個過程模型相似性度量,提出了多種模型快速索引結構和1個過程挖掘算法快速挖掘框架。 在VLDB會議、IEEE TSC等會議和期刊上發表相關學術論文12篇,獲得相關中國發明專利3項,申請1項軟體著作權。

相關詞條

熱門詞條

聯絡我們