基於增量式學習的可擴展偏最小二乘模型的研究

基於增量式學習的可擴展偏最小二乘模型的研究

《基於增量式學習的可擴展偏最小二乘模型的研究》是依託南昌大學,由曾雪強擔任項目負責人的地區科學基金項目。

基本介紹

  • 中文名:基於增量式學習的可擴展偏最小二乘模型的研究
  • 項目類別:地區科學基金項目
  • 項目負責人:曾雪強
  • 依託單位:南昌大學
項目摘要,結題摘要,

項目摘要

在大數據時代,數據量的急劇增長給傳統機器學習技術帶來了嚴峻挑戰;如何讓傳統的機器學習模型能夠適應並處理海量的數據是大數據時代機器學習研究的焦點之一。偏最小二乘(Partial Least Square, PLS)作為一種多元數據分析的有效技術,在WEB文本分類和生物醫學數據分析等多個科學技術領域顯示出別具特色的性能,值得深入研究;但傳統PLS算法的可擴展性較差,不能適應大數據的要求。本項目主要從大數據同時具有高維特徵和海量樣本的特點入手,研究(1)可增量式學習的PLS算法,解決海量樣本的建模效率問題;(2)利用特徵選擇技術提升增量式PLS算法在高維特徵情況下的性能;(3)針對多因變數(多標記)和非線性等複雜數據的特點,設計多因變數非線性的可擴展增量式PLS算法。新算法預期將明顯提升PLS在大數據上的可擴展性能,提供WEB文本和生物醫學等大規模數據挖掘的新方法。

結題摘要

隨著數據採集技術的快速進步,傳統機器學習技術越來越難以處理超大規模數據量的數據挖掘任務。針對這一問題;對傳統機器學習模型進行改進以使之能夠適應並處理海量的數據是當前機器學習領域研究的焦點之一。偏最小二乘(Partial Least Square, PLS)作為一種多元數據分析的有效技術,具有良好的數據分析性能能,值得深入研究。本項目主要從大數據同時具有高維特徵和海量樣本的特點入手,研究多因變數增量式偏最小二乘算法;開展的主要研究工作包括:(1)提出了採用多因變數偏最小二乘方法和標記分布學習的人臉年齡估計算法,並對算法中的標記分布自適應問題進行了研究;(2)研究了基於偏最小二乘數據降維的人臉年齡估計算法;(3)設計了一種高效的塊增量偏最小二乘算法;(4)提出了一種基於鄰近樣本的可區分性的冗餘特徵檢測算法;(5)設計了改進的增量式主成份分析算法並將其套用於文本分類問題;(6)提出了基於漸進抽樣的機器學習模型與數據降維算法的自動優選方法。本項目提出的新算法和模型在高維特徵空間情況下的大規模數據分析中表現出了優良的學習效果。

熱門詞條

聯絡我們