《一類適用於K-最近鄰分類的非負矩陣分解方法研究》是依託西安交通大學,由張講社擔任項目負責人的面上項目。
基本介紹
- 中文名:一類適用於K-最近鄰分類的非負矩陣分解方法研究
- 項目類別:面上項目
- 項目負責人:張講社
- 依託單位:西安交通大學
中文摘要,結題摘要,
中文摘要
特徵選擇和表示是當今對海量數據進行模式識別所必然面臨的問題,K最近鄰分類方法(KNN)更是強烈地依賴於特徵表示。KNN方法在假設樣本所在的空間是各維同質、各向同性的條件下,基於樣本間的歐氏距離實現最近鄰樣本的選擇。但在許多實際套用中,觀測樣本的數目遠遠小於特徵的個數,且同質同性的假設往往不成立。因此,為KNN分類器探尋合適的特徵表示成為亟待解決的重要問題。本項目將以改善KNN的分類性能為目的,圍繞非負矩陣分解(NMF)算法,研究相關的特徵提取算法。算法的核心思想是對每個訓練樣本,實行隨機KNN分類,使其在新的特徵表示下與它的K個最近鄰樣本儘可能具有相同的類標籤。算法的關鍵是利用樣本的類標籤構造隨機KNN的性能度量指標,以保證特徵提取算法得到的特徵表示包含樣本局部分離的信息。基於上述思想設計的算法,可望有效改善KNN的分類性能,使其在解決自然科學和國民經濟各領域的模式分類問題中得到廣泛套用。
結題摘要
本項目主要研究非負矩陣分解及相關特徵提取算法在分類、回歸問題中的套用,所取得的主要成果集中在下述幾個方面:基於NMF的分類算法研究,基於特徵提取和稀疏表示的分類算法的構造,分類問題的集成學習算法,回歸模型的選擇及套用,設計的算法在遙感圖像處理和氣象數據分析中的套用。 在NMF算法的研究方面,我們提出了一種大邊際NMF算法,實現了穩健的KNN分類,凸顯了數據局部分離類結構;設計了一種關係矩陣非負分解算法,為數據的相似性表示提供了一種新的描述方式;研究了如何利用NMF提取適用於KNN分類的基特徵,設計了基於留一策略的有監督NMF算法。 在特徵提取算法的研究方面,提出了以分類為目的的基於稀疏表示的判別學習算法,構造了能反映更多數據結構信息的稀疏鄰域圖和冪稀疏圖;設計了基於彈性保持投影的特徵提取新算法,其優點是在不破壞數據整體分布的前提下實現數據局部幾何結構的保持;提出了具有較高分類精度的softmax判別分類器與softmax判別分析算法。 在集成學習方法的研究中,我們分析了訓練集的樣本容量對一層和兩層分類器融合性能的影響,利用學習曲線研究了DECORATE及其他幾種集成分類算法的誤差、偏差和方差隨訓練樣本容量變化的一般規律,為相關集成分類算法的實際套用提供了參考。在不平衡數據的分類方面,利用大量試驗研究了數據集的不平衡度對敏感損失的Boosting算法性能的影響,並提出了一種新的集成分類算法IRUSRT;受限玻爾茲曼機(RBM)是一種有效的特徵提取和表示算法,我們將它與集成學習相結合,提出了相關的分類算法。 針對高光譜解混問題,提出了基於Householder變換的最大單純形體積端元提取算法,其優點是計算效率高;基於凸面幾何原理,利用特徵提取和高效的二維凸包計算算法,給出了一個端元提取算法加速框架。同時,研究了所提算法在高光譜解混、風速數據、極端氣溫分析等實際問題中的套用,取得了良好的效果。 本項目的研究截至目前共發表相關期刊論文近30篇,其中SCI檢索21篇。