面向高維數據集成降維的半監督聚類方法研究

《面向高維數據集成降維的半監督聚類方法研究》是依託東南大學,由曾洪擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:面向高維數據集成降維的半監督聚類方法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:曾洪
  • 依託單位:東南大學
中文摘要,結題摘要,

中文摘要

信息檢索、生物信息計算學等領域的實際套用中常需要對高維數據進行聚類分析預處理,而無監督聚類難以提供準確快速的數據分組,極大地影響後續處理的性能。半監督聚類通過引入成對約束提供了判別信息,有助於減少不合理的劃分;進一步對數據降維,可降低過學習風險和計算複雜度。與以往先降維再學習距離測度或聚類導致最終性能依賴於預先降維得到的子空間其質量的方法不同,本項目研究面向高維數據集成降維的半監督聚類方法:(一)如何實現不限定測度陣值空間、同時學習子空間和在該低維子空間的距離測度,為K均值聚類算法提供較精確的距離測度;(二)針對某些聚類算法,如何實現同時學習子空間和在該低維子空間中的聚類,以從理論上保證聚類性能在低維子空間可靠地提高以及算法收斂性;(三)針對一些惡化情形,如何使得上述方法魯棒。本項目的研究將極大地改善對高維數據進行半監督聚類分析的準確性、效率及魯棒性,為實際套用提供有效的聚類分析預處理。

結題摘要

信息檢索、腦機接口等領域常需要對高維數據進行聚類或分類分析,但實際套用中對高維數據的分析常存在較大困難。這主要是因為,一方面,無監督聚類分析難以提供用戶期望的數據分組,極大地影響對數據的理解。另一方面,由於高維數據存在“維數詛咒”問題,通常會造成分類模型出現過學習現象和計算複雜度偏高。目前研究者正主要通過以下兩種途徑進行重點研究,力圖在理論和算法上實現突破:(1)在聚類分析中引入部分先驗信息比如成對約束,即進行半監督聚類分析;(2)進行維數約減,降低過學習風險和計算複雜度。然而,現有半監督聚類算法利用監督信息的機制難以有效地將給定的少量成對約束推廣到對整個數據集的劃分,削弱了成對約束對聚類的指導作用。同時,目前絕大部分降維算法與後續的分類算法最佳化的不是同一個目標函式,難以保證分類算法在該維數約減的子空間中性能最優。因此,本項目開展了以下研究:(1)如何高效地利用成對約束指導聚類的機制;(2)如何實現同時學習子空間和在該低維子空間中的分類模型;(3)在實際套用中更加複雜惡化的情形下,如何提高聚類和分類算法的魯棒性。 通過本基金的支持,本項目取得了如下成果:(1)基於最大間隔原理,設計了有效利用成對約束的機制,提出了一種針對兩類聚類任務的半監督最大間隔聚類算法,並進一步推廣到了針對多類聚類任務的半監督最大間隔聚類算法,顯著地提高了在高維數據上的聚類分析準確度。(2)通過引入促進低秩矩陣的正則化因子,提出了一種集成降維的分類算法,實現了降維和分類模型最佳化同一目標函式,在腦電信號辨識的套用中其準確度明顯優於以往“先降維後分類”的兩步法。(3)針對真實的數據分布與假設的數據分布不同以及數據分組有嚴重的混疊現象的情形,基於完整似然最簡訊息長度準則,提出了一種魯棒的高斯混合模型聚類算法;針對非平穩信號的辨識問題,通過進行平穩正則化,提出了一種魯棒的矩陣Logistic回歸分類算法。 本項目的研究將極大地改善對高維數據進行聚類/分類分析的準確性、效率及魯棒性,為信息檢索、腦機接口等領域的實際套用提供高效的分析工具。

相關詞條

熱門詞條

聯絡我們