《多態異構機器學習及其在大數據挖掘中的套用》是依託華南理工大學,由楊沛擔任項目負責人的面上項目。
基本介紹
- 中文名:多態異構機器學習及其在大數據挖掘中的套用
- 項目類別:面上項目
- 項目負責人:楊沛
- 依託單位:華南理工大學
項目摘要,結題摘要,
項目摘要
隨著大數據挖掘的興起,許多重要的機器學習套用系統面臨著多重異構性和稀缺性並存的挑戰,例如:搜尋引擎欺詐點擊檢測、內部惡意行為檢測、線上社交媒體分析、半導體晶片生產缺陷檢測、大腦圖像分析等。異構性包括任務、視圖、實例、標籤、神諭異構等;稀缺性包括稀缺類、異常點、不平衡性等。而目前的研究大都是針對單一的稀缺性或異構性問題。為此,我們提出了一系列新穎的多重異構性和稀缺性並存的研究問題,並且提出了新穎的模型算法,例如:基於二部圖的多視圖多任務多示例學習模型、基於三部圖的多視圖多任務多示例學習模型、基於邊界度的多視圖多任務學習框架等。以此為突破口,我們希望通過本研究,建立一個統一的多態異構機器學習算法框架,以適用於各種不同的異構性和稀缺性並存的問題。同時,從Rademacher複雜度、泛化誤差邊界、PAC可學習性等角度,對多態異構機器學習算法進行深入的理論分析,以夯實多態異構機器學習領域的理論基礎。
結題摘要
異構性和稀缺性是許多機器學習和數據挖掘套用系統面臨的兩大挑戰。如何有效地挖掘異構性和稀缺性,以提升機器學習系統的泛化性能,是多態異構機器學習亟待解決的關鍵問題。我們針對異構機器學習領域的不同類型的數據異構性和稀缺性並存的問題進行了深入研究,提出了一系列創新的算法模型,包括:基於結構稀疏性的多任務函式回歸模型、基於協同篩選的函式-函式回歸模型、基於多路特徵選擇的協同聚類模型、基於結構稀疏性的異構表示學習模型、基於模稀疏性的函式-函式回歸模型、基於深度隱式空間的多異構學習模型、基於超圖的雙異構學習、針對稀有類別的多任務多視圖學習模型、多任務多視圖多實例學習模型等。我們進一步從機器學習複雜度和可學習性等角度對各種算法模型進行深入的理論分析,以夯實多態異構機器學習領域的理論基礎。項目組取得了多項創新成果,高質量地完成了研究目標。相關的學術論文發表在數據挖掘領域的國際期刊(TKDE、TKDD、KAIS等)和頂級會議(SIGKDD、ICDM、SDM等)。項目組目前已經發表了12篇高水平學術論文,包括:CCF-A類會議論文2篇、CCF-B類會議論文5篇、CCF-A類期刊論文1篇和CCF-B類期刊論文4篇。其中,我們的基於結構稀疏性的異構表示學習的工作發表在數據挖掘國際頂級會議ICDM-2016上,並獲得了最佳論文獎。我們在多態異構機器學習的研究成果有望提升網際網路、工業製造、生物醫藥等領域的諸多核心套用(如:圖像分析,多模式數據融合、基因功能預測、惡意行為檢測,線上社交媒體分析,醫學數據分析、半導體晶片設計和缺陷分析等)的發展水平。