適於非精確信息的數據不均衡學習技術的研究

《適於非精確信息的數據不均衡學習技術的研究》是依託東南大學,由劉胥影擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:適於非精確信息的數據不均衡學習技術的研究
  • 項目類別:青年科學基金項目
  • 項目負責人:劉胥影
  • 依託單位:東南大學
中文摘要,結題摘要,

中文摘要

在機器學習領域,數據不均衡性廣泛存在於真實套用中,主要體現為誤分類代價不等和樣本分布不平衡,不符合標準機器學習的假設。現有數據不均衡學習技術假設數據的不均衡性是精確刻畫的,但多種因素會導致數據不均衡性難以精確刻畫。本項目重點在以下四個方面關注數據不均衡的非精確性:(1)領域給定的基於類別的代價信息通常是不精確的;(2)領域給定的基於樣本的代價信息通常是不精確的;(3)多標記的歧義性導致代價信息是不精確的;(4)多標記的歧義性導致樣本分布不平衡性是不精確的。項目組將針對以上四種形式的數據不均衡的非精確性分別提出一種基於類別的非精確代價敏感學習方法、一種基於樣本的非精確代價敏感學習方法、一種代價敏感的多標記學習方法、以及一種多標記數據的樣本分布不平衡學習方法。本項目可望在國際期刊、國際會議和國內一級學報上發表高質量論文5-8篇,申請國家發明專利1 項,培養研究生2名。

結題摘要

本項目針對適於非精確信息的數據不平衡學習技術進行研究,研究計畫要點包括基於類別的代價信息不精確情況下的學習,基於類別的樣本分布不平衡信息不精確情況下的學習,多標記的歧義性導致的樣本分布不平衡信息不精確情況下的學習。項目進展順利,目前取得的研究成果包括7篇論文,其中被EI索引4篇,ISTP索引1篇,其中1篇發表在中國計算機學會認定的B類會議IEEE ICDM’13上,2篇發表在中國計算機學會認定的C類會議IEEE IJCNN’14\PAKDD’13上,1篇被收錄在第一本介紹類別不平衡學習技術的著作《Imbalanced Learning: Foundations, Algorithms, and Applications》中。具體成果包括:(1)提出一種基於極大極小多目標最佳化的代價區間敏感學習方法;(2)提出一種基於糾錯輸出碼的多類類別不平衡方法imECOC,兩種基於集成的多類類別不平衡方法EasyEnsemble.M和ChunkCombine;(3)對類別不平衡問題中的極端不平衡問題進行了研究,比較了基於Boosting的常用類別不平衡學習方法在極端類別不平衡問題上的性能,得出了有意義的結論;(4)詳細綜述了兩類的類別不平衡學習中的集成技術;(5)針對短文本這種新形式的數據不均衡性進行研究,提出了一種對短文本進行擴展的方法Crest;(6)提出了一種適用於多標記數據的樣本分布不平衡學習方法COCOA。在項目期間,參加國際著名學術會議2次,口頭報告1次,參加國內學術會議3次,口頭報告2次,特邀報告1次。培養研究生4名,其中畢業1名,在讀3名。

相關詞條

熱門詞條

聯絡我們