機器學習中的稀疏逼近與巴拿赫空間方法

中文摘要

實際套用中處理高維巨量數據的需要迫切要求我們發展具有稀疏逼近性質的機器學習算法。統計和壓縮感知的研究表明：為了誘導解的稀疏性，正則化算法中的正則化函式在零分量應該不光滑且有越廣的次導數越好。傳統的基於可再生核希爾伯特空間的核方法不能滿足這種要求。這迫使人們考慮巴拿赫空間的範數，特別是基於係數的正則化算法。然而，內積的缺失導致不能建立起一個類似的可再生核空間理論。缺少這項數學基礎阻礙了算法發展和學習階的估計。本項目計畫利用雙線性形式和半內積代替內積的重要作用，系統建立可再生核巴拿赫空間理論，重點研究具有能夠誘導稀疏性的範數的可再生核巴拿赫空間。我們將研究這類空間的函式複雜性、逼近性質，其上的正則化學習算法的數值解法、稀疏誘導性和學習階。我們也計畫發展相應的面向多目標學習的向量值理論，並用國際機器學習基準資料庫檢驗所得的理論結果和算法。

結題摘要

本項目致力於建立並系統研究可再生核巴拿赫空間理論(包括具有L1範數的可再生核Banach空間，具有Lp(p>1)範數的可再生核Banach空間，和向量值可再生核Banach空間)，此理論框架下學習算法的誤差分析、稀疏誘導性與數值解法，及其在機器學習中的套用。項目的主要成果有：利用測度嵌套的思想建立了具有L1範數的可再生核巴拿赫空間理論，為發展機器學習中的L1稀疏逼近提供了理想的數學基礎；論證了基於此空間的L1係數正則化方法有稀疏誘導性，並能改進學習能力；建立了Lp(p>1)的可再生核空間理論；建立了向量值可再生核巴拿赫空間理論，實現了其上的各種學習算法，為多目標機器學習的巴拿赫空間方法鋪平了基礎；系統研究了機器學習中常用可再生核對應可再生核空間的包含關係，澄清了核方法中可再生核選擇的一個重要理論問題。項目發表接收論文7篇(其中SCI數學一區一篇，SCI計算機科學一區一篇)，投稿在審3篇（皆已在arXiv:1310.5543, 1412.4265, 1311.4294）。項目較好地完成了預期研究目標。

機器學習中的稀疏逼近與巴拿赫空間方法

基本介紹

中文摘要

結題摘要

熱門詞條