面向特定領域的譜聚類分析技術研究

《面向特定領域的譜聚類分析技術研究》是依託北京理工大學,由李侃擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:面向特定領域的譜聚類分析技術研究
  • 依託單位:北京理工大學
  • 項目負責人:李侃
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

網際網路技術日益發展的同時,也導致了網上不良信息的大量傳播。本項目針對網路不良信息這一特定領域開展譜聚類分析技術研究。設計適於樣本外展點的核主成分分析和獨立分量分析的譜聚類選擇模型,提出基於樣本外擴展的多路譜聚類算法,有效解決新增樣本點的聚類問題;針對大規模數據,提出基於無填充不完全Cholesky分解的譜聚類算法,解決譜聚類在大規模數據的相似矩陣存儲和特徵值求解上的難題;研究適合非穩定數據和多類別數據的線上譜聚類算法。對於提出的算法,我們進行算法的性能測試、與最新的相近算法的比較測試來驗證算法的性能,並將算法套用於網路不良信息的聚類分析中,以控制和減少網路不良信息。

結題摘要

針對譜聚類在“可擴展性”、“計算複雜性”、“非穩定數據的線上聚類”上存在待解的基礎理論問題,本項目開展譜聚類算法及套用研究。提出了映射函式可調整的樣本外擴展譜聚類算法,採用基於局部幾何的譜映射進行數據局部幾何特徵的提取,並將數據映射到特徵子空間,生成顯式映射函式,實現樣本外擴展數據向特徵子空間的映射。利用數據分布特點,提出了基於密度分區抽樣的樣本外擴展的譜聚類算法,提高了聚類精度和穩定性,實現了數據動態聚類,降低了聚類的時間複雜度和空間複雜度。為解決大規模數據聚類問題,提出了相似矩陣的稀疏化方法,快速計算矩陣特徵值;可重新開始的Lanczos算法,以更好地控制精度以及具有更好的收斂性;以及基於無填充不完全Cholesky分解的並行譜聚類算法,提高了聚類速度。提出一種自適應數據處理的多層前饋神經網路完成非穩定數據的線上聚類,處理非靜態環境下多類別數據的線上聚類。提出了一種基於統計流形的譜聚類算法,利用Dirichlet 混合多項式流形可與正半球流形建立同胚和等距關係的性質,通過拉回映射將正半球流形的測地距離映射為DCM 流形的測地距離,建立DCM 流形上距離度量,基於統計流形擴展核完成譜聚類。針對新增數據點的聚類問題,提出了一種增量譜聚類算法,採用一種高斯徑向基函式以及參數調整方法度量聚類簇內部相似性,並以此提出了基於相似性度量的聚類簇調整算法,以保證譜聚類算法處理增量問題時的準確性。為解決高維數據聚類問題,提出了一種張量譜聚類算法,進行數據的高階張量表示,利用數據的張量形式完成數據的譜聚類。對於提出的算法,我們與最新的相近算法進行比較測試來驗證算法的性能,並將算法套用於網路不良信息、視頻和圖像等的聚類分析中,取得了良好的套用效果。

相關詞條

熱門詞條

聯絡我們