深度神經網路的margin理論

《深度神經網路的margin理論》是依託北京大學,由王立威擔任負責人的面上項目。

基本介紹

  • 中文名:深度神經網路的margin理論
  • 項目負責人:王立威
  • 項目類別:面上項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

隨著數據的大量積累以及計算能力的不斷提升,深度學習近年來在多項套用中取得成功。但深度學習的基礎理論,即為何深層神經網路具有優異泛化能力的研究,目前尚無突破進展。本項目研究深度學習的泛化能力,旨在建立較為完整的深層神經網路margin理論,分析網路深度與margin的聯繫,刻畫網路的margin複雜度。為透徹理解深度學習提供理論基礎。研究並設計全新深度學習算法,以最佳化margin為目標,進一步增強泛化能力。研究給定邊數條件下,泛化意義下最優網路結構。將深度學習算法、最優網路結構等成果用於解決計算機視覺、自然語言理解等領域的實際問題。

結題摘要

深度神經網路在大量任務上有著十分優異的表現,包括語音識別、計算機視覺、自然語言處理等等。儘管在深度學習在實際中的套用效果非常好,但是目前學術界對深度神經網路的理論理解仍然不足。本項目重點研究深度神經網路的泛化理論,旨在建立較為完整的深層神經網路margin理論,分析網路深度與margin的聯繫,刻畫網路的margin複雜度,為透徹理解深度學習提供理論基礎。針對深度學習為何具有優異的泛化性能,我們分析了神經網路的深度對網路泛化能力和表達能力的影響。我們從統計學習理論的角度,研究了使用Stochastic Gradient Langevin Dynamics (SGLD)算法解決非凸的風險最小化問題。針對深度神經網路具有強大表示能力的原因,我們證明了寬度受限神經網路的通用近似理論,深入研究了寬度對神經網路表達能力效率的影響。我們探索了如何定量描述深度神經網路學習的特徵,並基於神經元激活子空間匹配模型建立理論。我們證明了對於帶有殘差連線的過參數化的深度神經網路,梯度下降算法可以在多項式時間內找到全局最小值。本項目在包括JMLR, TPAMI、NeurIPS, COLT, ICML等機器學習領域權威學術刊物、會議上發表高水平論文25篇。本項目還培養了4名研究生。

相關詞條

熱門詞條

聯絡我們