《有效融合多源異構數據的集成分類器研究》是依託深圳大學,由何麗芳擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:有效融合多源異構數據的集成分類器研究
- 項目類別:青年科學基金項目
- 項目負責人:何麗芳
- 依託單位:深圳大學
項目摘要,結題摘要,
項目摘要
多源異構數據分類技術是近年來數據挖掘和機器學習領域的研究重點和熱點,在網頁分類、文本分類、脫機手寫體字元識別、基於內容的圖像和視頻檢索、生物信息處理等領域有著廣泛的套用。然而由於先驗知識的缺乏,如何構建有效融合多源數據中互補信息和相關信息的泛化模型是當前尚未解決的重要科學問題。鑒於此,本項目擬在集成學習的理論框架下展開以下三個方面研究:.針對有監督分類問題,建立特徵選擇與分類器最佳化耦合的支持向量-張量機集成模型;.針對半監督分類問題,建立特徵選擇與分類器最佳化耦合的半監督支持向量-張量機集成模型;.針對非線性分類問題,設計基於向量-張量複合模式的非線性多核函式,並構造特徵選擇與分類器最佳化耦合的學習算法。.項目旨在揭示模式表達影響數據分類的本質規律,提出針對多源異構數據分類關鍵難題的解決方案,為該方法在相關領域的套用奠定理論基礎和技術基礎,為研究以集成學習為代表的的機器學習算法開拓新的理論視角。
結題摘要
多源異構是大數據的基本特徵之一,即現實中的數據通常以多種呈現形式描述同一主題。因此,對多源異構數據融合和分類器的研究具有十分重要的意義。目前這類問題的智慧型分析技術尚不完善,尤其在(1)如何有效融合多源數據以獲得更好的挖掘、識別效果; (2)如何改進現有分類學習方法、最佳化時間和空間複雜度,這兩方面還存在重要的技術瓶頸。若能突破多源數據融合和分類學習的相關基礎科學難點,有望提升智慧型系統的識別精度和速度,對於涉及該項技術的各類需求,具有重要的現實意義。課題組在本基金項目支持下,按計畫穩步進行了相關研究,重點研究和探索突破以下關鍵科學難點(1)研究了基於張量模式的多源數據表達和分類學習,突破數據融合和模型構建的難點; (2)研究了大規模多源數據情景下張量機學習算法的快速最佳化問題,解決了張量分類器訓練時間過長的問題。取得了以下重要研究進展: 提出了一種基於張量的多源數據和分類信息統一融合的方法(MMC, MFM, SFM),採用張量積(外積)實現了多源數據的統一張量表達,在此基礎上提出了一個系統的張量分類方法,突破了多源數據融合分類的難點; 提出了一種特徵選擇與分類器融合的核化支持張量機(KSTM)分類算法,給出了一種張量空間下種族分類的新視角; 提出了一種保持時空信息的張量核,得到一種時空張量分類算法(STTK),給出了多源異構時空數據張量表達和學習的一種新思路; 提出了SURF算法,該方法為自適應Lasso張量稀疏模型,將線性空間的Lasso稀疏模型推廣到了多線性空間,具有堅實的理論支撐和可解釋性,並提出了分而治之的增量最佳化學習算法,克服了張量非凸最佳化學習速度慢的瓶頸; 提出了一種基於深度學習解決多源數據大規模分類問題的方法,該方法對圖像和圖數據都具有很好的魯棒性; 同時項目組還探索了所提出的模型及算法在各類現實任務上的套用。在成果指標方面,發表SCI期刊論文4篇,均為SCI二區期刊論文; 發表國際會議論文32篇,其中CCF A類會議論文7篇。