《高維大數據可視化的散度模型、算法及評價》是依託上海交通大學,由嚴京旗擔任項目負責人的面上項目。
基本介紹
- 中文名:高維大數據可視化的散度模型、算法及評價
- 項目類別:面上項目
- 項目負責人:嚴京旗
- 依託單位:上海交通大學
項目摘要,結題摘要,
項目摘要
高維大數據儘管蘊含了更豐富全面的信息,由於無法提供直觀的視覺感知,其意義和價值都是潛隱的。本項目著重在低維空間建立高維大數據的觀測模型,使數據和信息處理透明化,有利於結合人腦的視覺感知和計算機的處理能力,檢測和分析隱藏在數據背後的有效信息,不僅具有理論意義而且具有重大的實用價值。.本項目針對已有研究中存在的問題,擬提出基於Jensen-Shannon散度的隨機近鄰嵌入方法(JS-SNE),利用該散度的對稱性約束改善隨機近鄰嵌入方法在不同數據集上的偏向性;擬提出基於多重格線技術的JS-SNE算法實現,使其具有接近線性的計算複雜度,以適應數據規模的擴大;面向高維大數據,擬利用基於學習和編碼的集壓縮樹方法進行高效的空間劃分和近鄰搜尋,並據此發展面向大數據的圖測地距離快速計算方法;最後,擬藉助三維形體的等距嵌入套用,提供一個可定性和定量評價高維數據低維嵌入和可視化方法的基準測試平台。
結題摘要
本項目試圖在低維空間建立高維大數據的觀測模型,使數據和信息處理透明化,有利於結合人腦的視覺感知和計算機的處理能力,檢測和分析隱藏在數據背後的有效信息。研究了基於Jensen-Shannon 散度的隨機近鄰嵌入方法(JS-SNE)。提出了基於圖距離近鄰網的相似機率重構方法,使得在低維嵌入時能更好地保持高維的結構,有益於高維數據集的低維嵌入和可視化。提出了有效的高維數據的可視化方法,包括:基於ANNOY算法的快速近鄰搜尋算法、基於近鄰關係與類別信息的機率重構算法、基於P-BGLL的可視化算法、基於Feature-Net的可視化算法。基於正常人眼底視網膜圖像的大數據集合,研究了視網膜眼底圖像中各類異常的智慧型檢測方法。在三維圖像數據的可視化方面,針對圖像中屬性相似的結構難以分離的難題,提出了改進的圖像分類算法。本項目的研究結果不僅具有理論意義而且具有重要實用價值。