基本介紹
- 中文名:主元分析法
- 外文名:PCA
簡介,基本思路,定義,主元的分向量,確定方法,檢測統計量,
簡介
基本思路
主元分析法的基本思路是:尋找一組新變數來代替原變數,新變數是原變數的線性組合。從最佳化的角度看,新變數的個數要比原變數少,並且最大限度地攜帶原變數的有用信息,且新變數之間互不相關。其內容包括主元的定義和獲取,以及通過主元的數據重構。
定義
假設一個要研究的系統僅包含兩個變數 x1 , x2 。將兩個變數的樣本點表示在一個平面圖上,可以看出所有的樣本點集中在一個扁型的橢圓區域內。因為樣本點之間的差異顯然是由於 x1 , x2 的變化而引起的。我們可以看出在沿著橢圓橫軸的方向上( y1 )的變動較大,而縱軸方向上( y2 )的變動較小。這說明了樣本點的主要變動都體現在橫軸方向上,比如 85%以上,那么這時就可以將 y 2忽略而只考慮y1 。這樣兩個變數就可以簡化為一個變數了。我們稱 y1 , y 2分別為 x1 , x2 的第一主元和第二主元。一般情況下,如果樣本有 p 個變數,若樣本之間的差異能由 p 個變數的 K 個(K<p)個主元成分來概括,那么就能用 K 個主元來代替 p 個變數。
主元的分向量
主元分析中數據總體的協方差陣往往是未知的,這需要利用過程的正常運行數據進行估計。假設採集得到過程數據樣本為 X ∈ R n ×p,其中 n是樣本的數量,p 為過程變數的個數。為了避免變數的不同量綱的影響,需首先對數據進行標準化處理,即將各個變數轉化為均值為 0,方差為 1 的數據。
確定方法
檢測統計量
檢測統計