《基於分治融合與主動學習的極速學習機方法研究》是依託深圳大學,由王冉擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於分治融合與主動學習的極速學習機方法研究
- 項目類別:青年科學基金項目
- 項目負責人:王冉
- 依託單位:深圳大學
項目摘要,結題摘要,
項目摘要
針對海量數據構建高速有效的學習機是近年來機器學習與模式識別領域最具挑戰的問題之一。由於極速學習機(ELM)具有泛化性能高與訓練速度極快的特點,在處理海量數據上具有很高的套用潛能。本項目基於前期的研究成果,進一步從理論和算法方面深入研究面向海量數據的極速學習機方法。研究內容包括:(1) 提出基於均勻度分析的ELM誤差估計模型;(2) 構建分治融合策略下的ELM算法及其分散式並行模式下的實現策略,討論融合後的ELM向目標函式的收斂;(3) 構建基於ELM的主動學習算法和離群點檢測算法,通過選擇取樣的方式收集高質量的訓練樣本,提高ELM的泛化性能;(4) 將上述研究結果套用到海量釣魚網站的文本與視覺特徵的識別,從而克服傳統方法識別率低與識別速度慢的問題,為建立高性能的釣魚網站智慧型識別系統提供堅實的理論依據與可靠的技術支持。預期成果將為海量數據分類提供新的理論及套用工具。
結題摘要
極速學習機(Extreme Learning Machine-ELM)是近些年新興的一類基於單層前饋神經網路的監督學習模型,通過對輸入權值進行隨機賦值、對輸出權值進行基於矩陣偽逆的求解,克服了傳統BP神經網路訓練速度慢、易陷入局部最優的缺點,並保持了很高的泛化性能,在大數據機器學習上具有十分廣泛的理論價值與套用前景。本項目系統地研究了ELM的泛化能力與誤差估計,提出了一系列在大數據上改進其泛化能力的模型,提出了基於ELM與相關分類器的一系列主動學習算法,並且將以上理論與算法研究成果套用到了幾個大數據、時間-空間數據分析的問題上。主要研究內容和重要結果包括: 1、將樣本均勻度分析與分類複雜度的概念引入到ELM 的誤差估計與泛化能力研究,在不同分類複雜度與樣本高斯分布的假設與前提下,探討 ELM 的泛化能力與模型輸出不確定性之間的關聯,從而為提高模型性能給出了新的指引方向; 2、提出了一系列大數據上 ELM 的算法改進,包括基於多重準則決策系統的ELM結構選擇 (即網路隱層節點個數選擇)、大數據上消除數據冗餘的區間ELM方法、基於受限波茲曼機的深度 ELM 網路訓練模型、適用於各種輸出層節點分布的廣義 ELM 模型、快速訓練模型等,從而在學習性能與效率上實現了提升; 3、提出了一系基於 ELM 與相關分類器的主動學習算法,包括基於樣本池與樣本流的主動學習框架,樣本的信息度評價標準--如不確定性度量、不一致性度量、基於模糊粗糙集的隸屬度計算等,並將主動學習算法從傳統二分類問題擴展到多分類問題與多實例問題; 4、將以上理論研究與算法研究的成果套用到實際的大數據、時間-空間數據分析的問題上,包括手機基站數據、計程車GPS軌跡數據、視頻編碼數據等,針對具體的數據套用建立了可行的分析系統。 以上是本項目通過研究ELM的泛化性能、ELM在大數據上的改進算法與基於ELM的主動學習算法得到的主要結果。項目研究迄今發表學術論文14篇。其中,SCI檢索11篇,JCR一區論文6篇,JCR二區論文3篇,JCR三區論文2篇(其中包括中科院一區TOP論文4篇,CCF A類論文1篇)。這些研究成果豐富了ELM的理論研究和套用,對於複雜環境下的大數據、時間-空間數據分析有重要意義,在構建高性能複雜分類系統、大數據決策支持系統等領域有著廣泛的套用。