“新類別發現”學習及其套用

《“新類別發現”學習及其套用》是依託東南大學,由劉胥影擔任項目負責人的面上項目。

基本介紹

  • 中文名:“新類別發現”學習及其套用
  • 項目類別:面上項目
  • 項目負責人:劉胥影
  • 依託單位:東南大學
中文摘要,結題摘要,

中文摘要

新類別發現是本項目提出的一類新的機器學習問題,目標是利用已知類別的標記數據在未標記數據中發現新類別,並使所有類別上的分類能力最優。該問題來源於真實的微生物新物種發現(宏基因組數據封裝)問題:對一個群落所有微生物的基因進行物種分類,其中絕大部分微生物尚未發現。項目圍繞新類別發現及其套用從六個方面深入研究:(1)提出一種利用已知類數據發現新類,並使分類能力最優的算法(2)提出一種結合數據結構信息和監督信息的算法(3)提出一種利用類別相關性處理大量類別的快速高效的算法(4)提出一種有效發現新小類的算法(5)提出一種利用生物分類樹學習的封裝問題算法,並套用於973項目中的真實問題(6)提出一種基於多任務的算法,並套用於973項目中動態研究群落結構。本項目可望發表國際期刊會議國內一級學報高質量論文8-10篇,申請國家發明專利2項,軟體著作權1項。

結題摘要

新類別發現是本項目提出的一類新的機器學習問題,目標是利用已知類別的標記數據在未標記數據中發現新類別,並使所有類別上的分類能力最優。項目圍繞:(1)提出一種利用已知類數據發現新類,並使分類能力最優的算法(2)提出一種結合數據結構信息和監督信息的算法(3)提出一種利用類別相關性處理大量類別的快速高效的算法(4)提出一種有效發現新小類的算法(5)在真實數據上進行套用。 項目(1)針對“新類別發現”學習中未知類缺少監督信息的本質困難,首次提出通過對未標記數據進行預測在整個類別標記空間上的所屬類別來擴展標記訓練集的策略。該策略不僅可以解決未知類缺少監督信息的困難,且可同時解決類別不平衡問題。提出有效算法LCP,並套用在圖片分類、文本分類等真實世界的類別不平衡的套用問題上,取得了顯著優越的性能。(2)在通過對未標記數據預估所屬類別以擴展標記訓練集的過程中,由於缺少未知類的真實監督信息,故在預估的標記信息中存在歧義性。為了進一步面對標記歧義性帶來的挑戰,提出了基於特徵消歧的偏標記學習方法PL-LEAF,利用特徵空間信息幫助解決標記歧義性問題。(3)針對多新類別的“新類別發現“學習問題,本報告首次對該問題進行研究,將上述未知類缺少監督信息的本質困難的策略進行擴展,在包含多個未知類的整個標記空間上預估未標記數據的所屬類別來擴展標記訓練集,提出LSE算法。(4)首先對少有關注的小類樣本有限的類別不平衡問題進行研究,提出利用遷移學習思想從小類合成樣本中遷移有效信息的算法。(5)針對類別不平衡的多標籤發現學習問題,首先對少有關注的類別不平衡的多標記問題進行研究,提出了同時考慮標記相關性與類別不平衡性的集成學習方法。(6)提出一種新型的多任務學習方法(7)提出一種新型的聚類方法。本項目共發表高水平文章7篇,包括1篇SCI索引文章,1篇核心期刊文章,4篇CCF-A類國際會議文章,1篇CCF-B類國際會議文章。

相關詞條

熱門詞條

聯絡我們