基於半監督集成學習的不平衡數據研究

《基於半監督集成學習的不平衡數據研究》是依託中國科學技術大學,由陳歡歡擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於半監督集成學習的不平衡數據研究
  • 項目類別:青年科學基金項目
  • 項目負責人:陳歡歡
  • 依託單位:中國科學技術大學
中文摘要,結題摘要,

中文摘要

多類別數據不平衡問題(即數據中的一類樣本在數量上遠多於另一類或幾類)廣泛存在於各種實際套用中。傳統的學習算法容易對大類過分重視,進而導致分類器在小類別數據上精度很低。採樣方法作為一種重要的平衡數據集的手段受到了研究者廣泛的重視。本課題主要針對現有採樣方法機制單一、缺少容錯機制等問題,提出了一種基於多假設的採樣方法,通過只採樣數據而不指定數據類別的方式從半監督學習的角度來解決多類別不平衡這個特殊的監督學習問題;提出了一種基於協作型半監督集成學習的不平衡數據處理方法,加深了對集成學習模型的理解、擴展了其套用範圍;並且將理論研究成果直接套用於實際的生物信息學問題。

結題摘要

本項目在執行期間對基於半監督集成學習的不平衡數據問題進行了深入的研究。對取得的重要進展和學術成績詳述如下: (1) 提出基於統計學習理論的快速機率分類矢量機,其中基於拉普拉斯近似和期望傳播算法求解模型參數的最大後驗機率;使用梯度下降法與貝葉斯證據最大算法最佳化模型的超參數;基於Rademacher複雜性的理論分析方法得到了其泛化性能界以及解釋了模型的稀疏性與模型泛化能力之間的關係。 (2)研究並提出基於回聲狀態網路的動態系統模擬模型;基於泛函分析的模型之間距離的定義;基於線上參數最佳化的模型空間線上學習;快速有效的分類時間序列數據。 (3) 針對故障診斷問題提出利用模型空間的學習的方法進行故障檢測。提出了模型空間的構建、表示與理論;模型空間上的學習算法及其在故障檢測中的套用;如何在模型空間上進行線上學習,以達到實時檢測故障的目的;如何建立故障類型庫,以存儲已知的故障類型,方便以後的故障診斷;針對實際問題開發相應的套用系統。 (4) 針對化工過程引入了一種新的在模型空間中學習的框架來處理故障檢測和故障隔離,通過比較正常數據與故障數據對應模型之間的差異來監測故障並將及存儲歸類。 (5)對於序列分類,我們提出了一種新穎的模型和測度聯合學習方法(MMCL)。MMCL使得來自同一類的序列可以被距離較近的模型來表示,而不同類的序列用距離較遠的模型來表示。(6)最大平衡Biclique問題(Maximum Balanced Biclique Problem)是一個著名的NP難組合最佳化問題,針對該問題提出了一種新的基於機率模型和結構變異的演化算法。 (7)探索了在支撐向量機(SVM)方法中建模松馳變數的思想,進一步地觀察光滑模型的意義和影響,討論了把原始的SVM松馳項和建模的松馳項相結合是否可能會提高分類性能 (8)為克服大數據知識工程帶來的挑戰,提出了一種三層的數據工程框架,稱為BigKE。BigKE從自治異質數據源中學習碎片化知識,目的是提供個性化的知識服務。 相關的論文發表在IEEE T. on Networks and Learning System,KDD,IJCAI,Computers & Chemical Engineering,Neural Computation,IEEE Intelligent Systems,IEEE T. on Cybernetics上。

相關詞條

熱門詞條

聯絡我們