《非線性降維與聚類中的幾個問題研究》是依託復旦大學,由蘇仰鋒擔任項目負責人的重大研究計畫。
基本介紹
- 中文名:非線性降維與聚類中的幾個問題研究
- 依託單位:復旦大學
- 項目類別:重大研究計畫
- 項目負責人:蘇仰鋒
項目摘要,結題摘要,
項目摘要
本集成項目研究非線性降維和聚類中的幾個問題,包括數據整理階段的圖關係和圖矩陣的建立與純化模型、高效算法;圖關係純化模型及算法在子空間學習及非線性降維中的套用;使用線性判別分析(LDA)之前的去除冗餘及判別的稀疏性要求;使用LDA進行判別或聚類時的線性不可分判別的核化判別分析(KLDA);由LDA跡比率模型導致的非線性特徵值問題和特徵值最佳化問題的理論和算法。本項目側重從數值代數的觀點來研究數據分析中的問題,加深對現有的模型及最佳化算法的理解,改善他們的性能,並給數值代數領域帶來新的研究課題。
結題摘要
1、對於無噪音子空間學習,我們提出了最小樣本子空間(MSS),分析了MSS的數學性質、可檢測性;給出了檢測的模型及多個疊代算法。對於有噪音子空間學習,我們給出了三個算法:稀疏-秩平衡算法很好地平衡了其表示矩陣的稀疏性與低秩性,譜反饋最佳化模型可以顯著提高現有其它五種學習方法效果;最佳化模型SFRM可以用來學習大規模子空間。2、對於圖矩陣的聚類性純化,我們提出了一個以提升聚類性為目的的圖矩陣純化模型,具有顯式稀疏性、類數低秩性、非負和半正定性等結構;給出了求解該模型的疊代算法,該算法具有最優計算複雜度;該圖矩陣純化算法顯著地提升了子空間學習、非線性流形降維、多視角學習等多個算法的計算精度。3、對於遷移學習,我們提出了區域適配方法DACoM, 有效地緩解了因標籤數據匱乏而導致的學習困境,提升了學習的有效性和準確性;可以實現並行計算;在多組模擬數據及實際數據上DACoM均呈現出顯著的優勢。4、我們提出了分割流形上兩類非聚集性點集的新穎方法,這是一個分割兩類點集的最優主分界子流形。我們給出了一個新的數值算法,並證明了局部上,得到的結果與經典的SVM的結果相一致,這比傳統的非線性SVM分類方法更具有解釋性和合理性。5、對於依賴於特徵向量的非線性特徵值問題,我們給出了解存在唯一的一個充分條件,給出了自洽疊代法收斂的局部線性收斂及二階收斂的充分條件。對於電子結構計算中的Kohn-Sham方程以及基於判別分析的跡比率模型中的非線性特徵值問題,此結果比原有的結果更為精細、精確以及實用,計算效率、分類效果均得到顯著提升。6、對於特徵值最佳化問題,我們系統地開展了其代數性質的研究,基於這些理論分析結果,我們給出了多個高效算法。該項研究不但為特徵值最佳化問題提供了高效算法,也為數值代數領域開闢了一個新的研究方向。項目成果發表於相關領域的頂級雜誌上,包括JASA, J. Machin Learning Research, IEEE Trans. Pattern Anal. Machine Intell., SIMAX, SIOPT, SISC等