基於高維地理數據特徵提取的空間數據分析算法研究

基於高維地理數據特徵提取的空間數據分析算法研究

《基於高維地理數據特徵提取的空間數據分析算法研究》是依託西安交通大學,由梁棟擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於高維地理數據特徵提取的空間數據分析算法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:梁棟
  • 依託單位:西安交通大學
中文摘要,結題摘要,

中文摘要

近年來,數據與空間分析新的需求成為地理信息系統技術發展的新契機。由於地理數據自身性質與產生背景的特殊性,其具體套用面臨著高維、海量、非結構化等一系列“大數據”形式處理以及時空觀表達方面的挑戰。因而,目前行業和產業的發展亟需新式空間探索與數據分析框架及其相關技術,以便可以智慧型地讓用戶詳審大容量數據,簡化多變數數據,並且在數據有不確定性與噪聲的情況下,有效進行特徵提取,以充分探測與搜尋空間模式和空間關係,進而支持有效挖掘這些數據背後的知識,提升數據價值。針對以上問題,本項目擬 (1)基於高維地理數據特徵提取,從流形學習及模型聚類研究入手,提出新的降維與聚類方法;(2)通過耦合地理距離和屬性距離,提出一種新的空間數據分析距離概念及其有效估測算法;(3) 結合前述的距離概念和新提出的地理數據降維與聚類方法,發展一個全新的空間數據分析模型框架,用於挖掘不同情形下地理數據的空間關係。

結題摘要

對於分布於低維流形上的非結構化高維數據,如何有效地實現降維處理進而對其進行機器學習?對於像地理數據這樣特殊的非結構化數據,如何更科學準確的衡量空間關係特徵?對於像文本、圖像等普遍存在的非結構化高維數據,如何更加高效和智慧型化地聚類?對於承載數據的網路結構,如何更好地保持網路的穩定性並挖掘網路結構的性質?所有這些都是非結構化數據分析必須面對的突出問題,本項目聚焦於這些問題,研究分析數據規律及挖掘數據知識的理論與方法,以支持非結構化數據的分析和使用,並為後續的綜合處理奠定基礎。針對高維非結構化數據的降維問題,提出了一種套用範圍廣、計算效率高的新的流形學習方法。新方法是熟知的L-Isomap(Landmark Isomap)方法的改造,因其以Landmark點子集來嵌入新的輸入數據,可稱之為EL-Isomap(Extensive Landmark Isomap)。EL-Isomap和L-Isomap在機理、算法與理論基礎方法存在顯著不同,但同樣是全局降維方法,新方法不僅能套用於更廣泛的數據集,而且兼具局部流形學習方法的優點(特別可處理環狀及低維空間凹區域等複雜結構流形數據),同時具有較低的計算複雜性。數據實驗支持了所提新算法的優越性。 針對地理數據,提出並發展了一個全新的空間分析模型。地理數據的複雜性在於它不僅具有通常數據所呈現的屬性特徵,而且與地球表面空間位置相關(即地理信息)。為了分析地理數據,我們提出了一種耦合屬性距離和地理距離的全新地理數據度量——本質度量距離。藉助這一新的度量,地理數據的分析與處理可化歸為通常數據的處理。我們從理論和套用上說明了這一新框架的合理性、有效性與可計算性。針對高維非結構化數據的聚類分析問題,提出了一種基於模型並結合使用非凸正則化的稀疏聚類算法。新算法以混合高斯分布為基礎,結合SCAD (Smoothly Clipped Absolute Deviation)、MCP (Minimax Concave Penalty)、L_0以及 L_{1/2}等非凸正則化技術,並使用EM(Expectation Maximization)算法來進行求解。實驗說明,新算法能夠對超高維數據聚類並在其中自動選擇特徵並去除噪音,因而可廣泛套用。

相關詞條

熱門詞條

聯絡我們