投影尋蹤定義
投影尋蹤(projection pursuit,簡稱PP)是國際統計界於70年代中期發展起來的一種新的、有價值的新技術,是
統計學、
套用數學和
計算機技術的交叉學科。它是用來分析和處理高維觀測數據,尤其是非正態非線性高維數據的一種新興統計方法。它通過把高維數據投影到低維子空間上,尋找出能反映原高維數據的結構或特徵的投影,達到研究分析高維數據的目的。它具有穩健性、抗干擾性和準確度高等優點,因而在許多領域得到廣泛套用。
投影尋蹤產生背景
隨著科技的發展,高維數據的統計分析越來越普遍,也越來越重要.多元分析方法是解決高維數據這類問題的有力工具。但傳統的多元分析方法是建立在總體服從常態分配這個假定基礎之上的。不過實際問題中有許多數據不滿足正態假定,需要用穩健的或非參數的方法來解決。但是,當數據的維數很高時,即使用後兩種方法也面臨以下困難:第一個困難是隨著維數增加,計算量迅速增大;第二個困難是對於高維數據,即使樣本量很大,仍會存在高維空間中分布稀疏的“維數禍根”。對於核估計,近鄰估計之類的非參數法很難使用;第三個困難鴉市鴉想是對低維穩健性好的統計方法,用到高維時則穩健性變差。
另一方面,傳統的數據分析方法的一個共同點甩洪組漿是採用“對數據結構或分布特徵作某種假定—按照一定準則尋找最優模擬—對阿束閥建立的模型進行證實”這樣一條證實性數據分析思維方法(簡稱CDA法)。這種方法的一個弱點是當數據的結構或特徵與假定不相符時,模型的擬合和預報的精度均差,尤其對擔朽高維非正態、非線性數據分析,很難收到好的效果。其原因是CDA法過於形式化、數學化,受束縛大。它難以適應千變萬化的客觀世界,無法真正找到數據的內在規律,遠不能滿足高維非正態數據分析的需要。針對上述困難,近20年來,國際統計界提出採用“晚頌迎直接從審視數據出發—通過計算機分析模擬數據—設計軟體程式檢驗”舉蘭悼這樣一條探索性數據分析新方法,而PP就是實現這種新思維的一種行之有效的方法。因此,高維數據尤其是非正態高維數據分析的需要,加上80年代計算機技術的高度發展是PP產生的主要背景。
投影尋蹤分類
PP包括手工PP和機械PP兩方面內容。手工PP主要是利用計算機圖像顯示系統在終端螢幕上顯示出高維數據在二維平面上的投影,並通過調節圖像輸入裝置連續地改變投影平面,使螢幕上的圖像也相應地變化,顯示出高維數據在不同平面上投影的散點圖像。使用者通過觀察圖像來判斷投影是否能反映原數據的某種結構或特徵,並通過不斷地調整投影平面來尋找這種有意義的投影平面。使用手工PP成功的例子是美國的Reaven和 Miller於1979年關於多尿病病理的研究。他們將145人的5項指標觀察值輸入PRIM-9圖像顯示系統,對5項指標中的每3項指標,觀察145個3維點構成的點雲在任何2維平面上的投影圖像,最後找到了一個在醫學上有意義的圖像。從這張圖像上可以看到隱性和顯性多尿症患者的數據是完全分開的.不經過中間正常狀態,兩者是不能相互轉換的。
機械PP是模仿手工PP,用數值計算方法在計算機上自動找出高維數據的低維投影,即讓計算機按數值法求極大解的最最佳化問題的方法,自動地找出使指標達到最大的投影。
研究的主要內容
從投影尋蹤的理論與套用研究來看,主要涉及三方面內容:
1.投影尋蹤聚類分析;
2.投影尋蹤回歸;
3.投影尋蹤學習網路。
投影尋蹤的特點
PP的最顯著特點是克服了高維點稀分布所造成的“維數禍根”困難,是對傳統CDA法的突破。其次,它使用了降維手段,當維數企精拔較高時,數據結構常表現於幾個投影方向上。PP法正好能找出反映數據結構的投影方向,而排除了那些與結構無關的投影方向上的數據的干擾作用,因此,它能有效地發現高維數值的結構和特徵。再次,由於PP採用了EDA法,與傳統的CDA法相比,它在處理數據時,無須人為假定,不會損失大量有用的偏態信息,能自動找出數據內在規律,因此穩健性較好。此外,PP雖然以數據線性投影為基礎,但它尋找的是線性投影中的非線性結構,因此,它可用來解決一定程度的非線性問題。
PP的不足之處是計算量大.此外能解決的問題有限,對於具有很凹的等高線的密度或等高線是若干個同心球面的密度,效果不太好。
機械PP是模仿手工PP,用數值計算方法在計算機上自動找出高維數據的低維投影,即讓計算機按數值法求極大解的最最佳化問題的方法,自動地找出使指標達到最大的投影。
研究的主要內容
從投影尋蹤的理論與套用研究來看,主要涉及三方面內容:
1.投影尋蹤聚類分析;
2.投影尋蹤回歸;
3.投影尋蹤學習網路。
投影尋蹤的特點
PP的最顯著特點是克服了高維點稀分布所造成的“維數禍根”困難,是對傳統CDA法的突破。其次,它使用了降維手段,當維數較高時,數據結構常表現於幾個投影方向上。PP法正好能找出反映數據結構的投影方向,而排除了那些與結構無關的投影方向上的數據的干擾作用,因此,它能有效地發現高維數值的結構和特徵。再次,由於PP採用了EDA法,與傳統的CDA法相比,它在處理數據時,無須人為假定,不會損失大量有用的偏態信息,能自動找出數據內在規律,因此穩健性較好。此外,PP雖然以數據線性投影為基礎,但它尋找的是線性投影中的非線性結構,因此,它可用來解決一定程度的非線性問題。
PP的不足之處是計算量大.此外能解決的問題有限,對於具有很凹的等高線的密度或等高線是若干個同心球面的密度,效果不太好。