基於支撐點空間模型的度量空間索引研究

基於支撐點空間模型的度量空間索引研究

《基於支撐點空間模型的度量空間索引研究》是依託深圳大學,由毛睿擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於支撐點空間模型的度量空間索引研究
  • 項目類別:面上項目
  • 項目負責人:毛睿
  • 依託單位:深圳大學
項目摘要,結題摘要,

項目摘要

度量空間索引把數據抽象成度量空間的點,利用用戶定義距離函式的三角不等性來實現高速相似性搜尋。它不用把數據轉換成坐標系中的點,距離函式也不限於歐氏距離,高度的普遍適用性使其在多媒體和計算生物等領域有著廣泛的套用前景。多年來,國內外學者設計了一批索引方法,並取得了一定的套用成果。然而,坐標的缺失導致理論研究分析難以進行,目前大部分的方法是啟發式的。各種方法自成一家,無法進行統一的分析、比較和評測,整個領域缺乏理論基礎,進展緩慢。.項目負責人近期總結提出的支撐點空間模型把度量空間索引轉移到具有坐標的向量空間中。以此為基礎,本項目將運用數學工具深入研究度量空間索引的主要問題,如支撐點選取和數據劃分等,完善支撐點空間模型,建立統一化索引結構,對現有方法做到知其所以然,提供其分析、對比、改進和預測平台,明確度量空間索引和高維向量空間索引的關係,從而建立度量空間索引理論框架,為本領域研究打開新的局面。

結題摘要

度量空間索引把多種數據抽象成度量空間的點,利用用戶定義距離函式的三角不等性來實現高速相似性搜尋,具有高度的普遍適用性。本項目以支撐點空間模型為基礎,重點研究支撐點選取和數據劃分等問題,完善支撐點空間模型,建立統一化索引結構。項目進展順利,各項研究認為均已如期完成。在度量空間索引的理論框架方面,我們提出了大數據抽象(big data abstraction)概念,並設計了一個基於度量空間的大數據並行計算模型;在支撐點選擇方面,提出一個距離敏感的支撐點選取目標函式和一種估算數據內在維度的方法,設計多個基於統計方法的支撐點選取算法和一個基於抽樣的增量式支撐點選取算法框架;在數據劃分方面,提出了CGHT樹,將三大索引流派統一起來並進行了性能分析,對VP樹和VP森林的對比研究,設計一個三路數據劃分算法,並提出逐個支撐點的數據劃分算法框架;在套用方面,設計實現UMAD軟體包,進行了度量空間異常點檢測和度量空間分類研究,實現了蛋白質質譜相似性搜尋軟體MSIndex,並面向時序醫療數據進行了度量空間索引套用。項目成果包括學術論文23篇,其中CCF-A類論文5篇,JCR-1區論文4篇;獲批軟體著作權8項,有5項專利進人實審;培養碩士研究生7人,博士研究生1人,4名本科生被美國名校錄取;舉辦學術會議2次,參加國際學術會議5次。目前大數據的研究基本集中於其大量和快速的挑戰,而針對多樣性挑戰的研究較少。度量空間方法把多種類型的數據抽象到統一的度量空間,針對度量空間的特性構造通用的數據管理分析系統,是應對大數據多樣性挑戰的有效手段之一。本項目研究完善了度量空間索引的理論框架,並對支撐點選擇和數據劃分兩個基本問題進入了深入研究,為度量空間數據管理分析研究奠定了良好的基礎。

熱門詞條

聯絡我們