統計學習理論

統計學習理論

由萬普尼克(Vapnik)建立的一套機器學習理論,使用統計的方法,因此有別于歸納學習等其它機器學習方法。

由這套理論所引出的支持向量機機器學習的理論界以及各個套用領域都有極大的貢獻。

基本介紹

  • 中文名:統計學習理論
  • 外文名:statistical learning theory
  • 提出者:萬普尼克
  • 屬性:一套機器學習理論
  • 作用:歸納學習
損失函式,VC維,理論研究,機器學習,

損失函式

期望風險, 經驗風險, 結構風險

VC維

統計學習理論是一種研究訓練樣本有限情況下的機器學習規律的學科。它可以看作是基於數據的機器學習問題的一個特例,即有限樣本情況下的特例。
統計學習理論從一些觀測(訓練)樣本出發,從而試圖得到一些目前不能通過原理進行分析得到的規律,並利用這些規律來分析客觀對象,從而可以利用規律來對未來的數據進行較為準確的預測。例如,對全國未來幾年人口數量進行預測,就需要先採集到過去幾年甚至幾十年的人口數據,並對其變化規律做出統計學方面的分析和歸納,從而得到一個總體的預測模型,這樣就可以對未來幾年的人口總體走勢作一個大概的估計和預測。
顯然,這裡採集到的過去人口的數據越準確,年份越長,分析歸納得到的統計規律就越準確,對未來人口預測就越接近真實水平。另外,如果只採集到了過去幾年的人口數據,那么,這樣得到的統計模型無論如何也是不夠完美的。

理論研究

所以,不難發現,統計學習理論主要是研究以下三個問題:
① 學習的統計性能:通過有限樣本能否學習得到其中的一些規律?
② 學習算法的收斂性:學習過程是否收斂?收斂的速度如何?
③ 學習過程的複雜性:學習器的複雜性、樣本的複雜性、計算的複雜性如何?
如今,統計學習理論在模式分類、回歸分析、機率密度估計方面發揮著越來越重要的作用。

機器學習

統計模式識別問題可以看做基於機器學習的一個特例。而基於機器學習的方法是現代智慧型技術中十分重要的一個方面,主要研究如何從一些樣本出發得出目前不能通過原理分析得到的規律,利用這些規律去分析客觀對象,對未來數據或無法觀測的數據進行預測。
統計學中關於估計的一致性、無偏性和估計方差的界等,以及分類錯誤率等漸近性特徵是實際套用中往往無法得不到滿足,而這種問題在高維空間時尤其如此。這實際上是包含模式識別和神經網路等在內的現有的機器學習理論和方法中的一個根本問題。Viadimir N.Vapnik等人在20世紀60年代就開始研究有限樣本情況下的機器學習問題,但由於當時這些研究尚不十分完善,在解決模式識別問題中往往區域保守,且數學上比較艱難,而直到90年代以前並沒有提出能夠將其理論付諸實現的較好方法。加之當時正處在其它學習方法飛速發展的時期,因此這些研究一直沒有得到充分的重視。
直到90年代中,有限樣本情況下的機器學習理論研究逐漸成熟起來,形成了一個較完善的理論體系---統計學習理論。而同時,神經網路等較新興的機器學習方法的研究則遇到了一些重要的困難,比如如何確定網路結構的問題、過學習與欠學習的難題、局部極小點的問題等。在這種情況下,試圖從更本質上研究機器學習問題的統計學習理論逐步得到重視。
統計學習理論

相關詞條

熱門詞條

聯絡我們