探索性因子分析法

探索性因子分析法

探索性因子分析法(Exploratory Factor Analysis,EFA)是一項用來找出多元觀測變數的本質結構、並進行處理降維的技術。因而,EFA能夠將具有錯綜複雜關係的變數綜合為少數幾個核心因子。對於主因子分析法來說,不存在異常值、等距值、線形值、多變數常態分配以及正交性等情況。

基本介紹

  • 中文名:探索性因子分析法
  • 外文名:ExploratoryFactorAnalysis,EFA
  • 提出者:CharlesSpearman
  • 運用:顧客滿意度調查、服務質量調查等
起源,計算,運用,步驟,特點,差異,建議,

起源

因子分析法是兩種分析形式的統一體,即驗證性分析和純粹的探索性分析。英國的心理學家Charles Spearman在1904年的時候,提出單一化的智慧型因子(A Single Intellectual Factor)。隨著試驗的深入,大量個體樣本被分析研究,Spearman的單一智慧型因子理論被證明是不充分的。同時,人們認識到有必要考慮多元因子。20世紀30年代,瑞典心理學家Thurstone打破了流行的單因理論假設,大膽提出了多元因子分析(Multiple Factor Analysis)理論。Thurstone在他的《心智向量》(Vectors of Mind,1935)一書中,闡述了多元因子分析理論的數學和邏輯基礎。

計算

在運用EFA法的時候,可以藉助統計軟體(如SPSS統計軟體或SAS統計軟體)來進行數據分析。

運用

1、顧客滿意度調查。
2、服務質量調查。
3、個性測試。
4、形象調查。
5、市場劃分識別。
6、顧客、產品及行為分類。

步驟

一個典型的EFA流程如下:
1、辨認、收集觀測變數。
2、獲得協方差矩陣(或Bravais-Pearson的相似係數矩陣)
3、驗證將用於EFA的協方差矩陣(顯著性水平、反協方差矩陣、Bartlett球型測驗、反圖像協方差矩陣、KMO測度)。
4、選擇提取因子法(主成分分析法、主因子分析法)。
5、發現因素和因素載荷。因素載荷是相關係數在可變物(列在表里)和因素(專欄之間在表里)。
6、確定提取因子的個數(以Kaiser準則和Scree測試作為提取因子數目的準則)。
7、解釋提取的因子(例如,在上述例子中即解釋為“潛在因子”和“流程因子”)。

特點

探索性因子分析法的優點
1、EFA法便於操作。
2、當調查問卷含有很多問題時,EFA法顯得非常有用。
3、EFA法既是其他因子分析工具的基礎(如計算因子得分的回歸分析),也方便與其他工具結合使用(如驗證性因子分析法)。
探索性因子分析法的缺點
1、變數必須有區間尺度。
2、沉降數值至少要要變數總量的3倍。

差異

探索性因子分析和驗證性因子分析的差異之處
1. 基本思想不同
因子分析的基本思想是要尋找公共因子,以達到降維的目的。探索性因子分析主要是為了找出影響觀測變數的因子個數,以及各個因子和各個觀測變數之間的相關程度,以試圖揭示一套相對比較大的變數的內在結構。研究者的假定是每個指標變數都與某個因子匹配,而且只能通過因子載荷憑知覺推斷數據的因子結構。而驗證性因子分析的主要目的是決定事前定義因子的模型擬合實際數據的能力,以試圖檢驗觀測變數的因子個數和因子載荷是否與基於預先建立的理論的預期一致。指標變數是基於先驗理論選出的,而因子分析是用來看它們是否如預期的一樣。其先驗假設是每個因子都與一個具體的指示變數子集對應,並且至少要求預先假設模型中因子的數目,但有時也預期哪些變數依賴哪個因子。
2. 套用前提不同  探索性因子分析沒有先驗信息,而驗證性因子分析有先驗信息。探索性因子分析是在事先不知道影響因子的基礎上,完全依據樣本數據,利用統計軟體以一定的原則進行因子分析,最後得出因子的過程。
在進行探索性因子分析之前,不必知道要用幾個因子,以及各因子和觀測變數之間的關係。在進行探索性因子分析時,由於沒有先驗理論,只能通過因子載荷憑知覺推斷數據的因子結構。上述數學模型中的公共因子數m 在分析前並未確定,而是在分析過程中視中間結果而決定,各個公共因子ξi統一地規定為均影響每個觀測變數xi。在管理研究中,如僅僅從數據出發,很難得到科學的結果,甚至可能與已有的理論或經驗相悖。因此,探索性因子分析更適合於在沒有理論支持的情況下對數據的試探性分析。這就需要用驗證性因子分析來做進一步檢驗。而驗證性因子分析則是基於預先建立的理論,要求事先假設因子結構,其先驗假設是每個因子都與一個具體的指示變數子集對應,以檢驗這種結構是否與觀測數據一致。也就是在上述數學模型中,首先要根據先驗信息判定公共因子數m,同時還要根據實際情況將模型中某些參數設定為某一定值。這樣,驗證性因子分析也就充分利用了先驗信息,在已知因子的情況下檢驗所蒐集的數據資料是否按事先預定的結構方式產生作用。
3. 理論假設不同  探索性因子分析的假設主要包括:①所有的公共因子都相關(或都不相關);②所有的公共因子都直接影響所有的觀測變數;③特殊(唯一性)因子之間相互獨立;④所有觀測變數只受一個特殊(唯一性)因子的影響;⑤公共因子與特殊因子(唯一性)相互獨立。驗證性因子分析克服了探索性因子分析假設條件約束太強的缺陷,其假設主要包括:①公共因子之間可以相關,也可以無關;②觀測變數可以只受一個或幾個公共因子的影響,而不必受所有公共因子的影響;③特殊因子之間可以相關,還可以出現不存在誤差因素的觀測變數;④公共因子與特殊因子之間相互獨立。
4. 分析步驟不同  探索性因子分析主要有以下七個步驟:①收集觀測變數:通常採用抽樣的方法,按照實際情況收集觀測變數數據。②構造相關矩陣:根據相關矩陣可以確定是否適合進行因子分析。③確定因子個數:可根據實際情況事先假定因子個數,也可以按照特徵根大於1的準則或碎石準則來確定因子個數。④提取因子:可以根據需要選擇合適的因子提取方法,如主成分方法、加權最小平方法、極大似然法等。⑤因子旋轉:由於初始因子綜合性太強,難以找出實際意義,因此一般都需要對因子進行旋轉(常用的旋轉方法有正交旋轉、斜交旋轉等),以便於對因子結構進行合理解釋。⑥解釋因子結構:可以根據實際情況及負載大小對因子進行具體解釋。⑦計算因子得分:可以利用公共因子來做進一步的研究,如聚類分析、評價等。
而驗證性因子分析主要有以下六個步驟:①定義因子模型:包括選擇因子個數和定義因子載荷。因子載荷可以事先定為0、或者其它自由變化的常數,或者在一定的約束條件下變化的數(比如與另一載荷相等)。②收集觀測值:根據研究目的收集觀測值。③獲得相關係數矩陣:根據原始資料數據獲得變數協方差陣。④擬合模型:這裡需要選擇一種方法(如極大似然估計、漸進分布自由估計等)來估計自由變化的因子載荷。⑤評價模型:當因子模型能夠擬合數據時,因子載荷的選擇要使模型暗含的相關矩陣與實際觀測矩陣之間的差異最小。常用的統計參數有:卡方擬合指數(x)、比較擬合指數(CFI)、擬合優度指數(GFI)和估計誤差均方根(RMSEA)。根據Bentler(1990)的建議標準,x/DF≤3.0、CFI≥0.90、GFI≥0.85、RMSE≤0.05,則表明該模型的擬合程度是可接受的。⑥修正模型:如果模型擬合效果不佳,應根據理論分析修正或重新限定約束關係,對模型進行修正,以得到最優模型。
5.主要套用範圍不同  探索性因子分析主要套用於三個方面:①尋求基本結構,解決多元統計分析中的變數間強相關問題;②數據化簡;③發展測量量表。驗證性因子分析允許研究者將觀察變數依據理論或先前假設構成測量模式,然後評價此因子結構和該理論界定的樣本資料間符合的程度。因此,主要套用於以下三個方面:①驗證量表的維度或面向性(dimensionality),或者稱因子結構,決定最有效因子結構;②驗證因子的階層關係;③ 評估量表的信度效度
6.探索性因子分析和驗證性因子分析的正確用法  從上述分析可以看出,探索性因子分析和驗證性 因子分析是因子分析的兩個不可分割的重要組成部分,在管理研究的實際套用中,兩者不能截然分開,只有結合運用,才能相得益彰,使研究更有深度。Anderson. J. C,Gerbin. D. W建議,在發展理論的過程中,首先應通過探索性因子分析建立模型,再用驗證提供了發析現模型以驗證和修正的概念和計算工具,其提供的結果為驗證性因子分析建立假設提供了重要的基礎和保證。兩種因子分析缺少任何一個,因子分析都將是不完整的。一般來說,如果研究者沒有堅實的理論基礎支撐,有關觀測變數內部結構一般先用探索性因子分析,產生一個關於內部結構的理論,再在此基礎上用驗證性因子分析,這樣的做法是比較科學的,但這必須要用兩組分開的數據來做。如果研究者直接把探索性因子分析的結果放到統一數據的驗證性因子分析中,研究者就僅僅是擬合數據,而不是檢驗理論結構。如果樣本容量足夠大的話,可以將數據樣本隨機分成兩半,合理的做法就是先用一半數據做探索性因子分析,然後把分析取得的因子用在剩下的一半數據中做驗證性因子分析。如果驗證性因子分析的擬合效果非常差,那么還必須用探索性因子分析來找出數據與模型之間的不一致。

建議

EFA在教育、心理領域存在的問題及建議
1. 樣本容量、觀測變數數目不夠  很多套用探索性因子分析的研究中,普遍存在的一個問題就是樣本容量及觀測變數數目太小。探索性因子分析中,一般要求樣本容量至少為100-200,當變數的公共方差較大時,則一定數目的小樣本也能確保因子負載的穩定性。國內學者曾做過一項調查,結果表明:1991-2000年國內兩種心理學期刊發表的運用因子分析的文章中,有近10%的文章研究樣本小於100,甚至有多達50%的文章沒有提供這一信息。而對於觀測變數的數目,一般認為,觀測變數與所提取的因子數目之比至少為4。很多研究者認為觀測變數的數目並不與被提取的因子數目相關聯,因為研究者事先並不知道會有多少個因子被提取出來,因此,無法依據被提取的因子個數對觀測變數的數目進行安排,但是,實際上很多研究者在因子分析前對所探討的觀測變數的因子結構已有了一定的預期。教育、心理領域中,存在著相當數量的研究並未達到這些標準。這或許是由於研究者對因子分析的要旨理解不深,但更有可能的是研究者對這類方法的細節重視不夠。
2. 因子提取方法的誤用  探索性因子分析中最常用的提取因子的方法主要有兩種:主成分分析法和主軸因子法。決定選用何種方法時,一般有兩點值得考慮:一是因子分析的目的;二是對變數方差的了解程度。如果因子分析的目的是用最少的因子最大程度解釋原始數據的方差,則套用主成分分析法;若因子分析的主要目的是確定數據結構,則適合用主軸因子法。
實際上,雖然研究者大多認為主成分分析法和主軸因子法的結果差別不大,但是Widman提出,主軸因子法使用復相關係數的平方作為公共方差的初始估計值,通過不斷重複,最後得到確定的公共方差的值,所以,這一過程比起主成分分析法,因子負載就更準確。因此,他建議研究者最好使用主軸因子法而不是主成分分析法。但實際研究中,研究者大量使用的是主成分分析法,導致這一結果的最直接可能就是SPSS軟體的預設設定即為主成分分析法。
3.因子數目的確定標準及因子旋轉中存在的問題  心理領域中,研究者運用的確定因子數目的標準大多是Kaiser法,即特徵值≥1.0的標準。SPSS中,預設的提取因子方法就是Kaiser法,但實際這一標準僅僅適用於主成分分析法。Fabrigar等人提出,特徵值≥1.0的標準通常會導致提取過多的因子。當因子提取過多時,因子的重要性就值得懷疑了。例如,假設有這樣的案例,分別從5個變數和10個變數中提取因子,在5個變數的情況下,特徵值為1.0的因子將解釋變數總方差的20%(1/5,每個變數的方差估計為1,總方差即為5);相應地,在10個變數的情況下,同樣特徵值為1.0的因子只能解釋總體方差的10%(1/10),顯然,當從大量變數中提取因子時,使用這樣的標準將導致所提取的因子只能解釋總方差很小的一部分。而碎石檢驗準則的主觀性太強,並且,在有些情況下,因子的特徵值並沒有臨界點,因為因子特徵值是以一種線性的方式逐漸下降的,所以這種情況是可能存在的,例如雙重負荷現象,因此,這種方法並沒有太強的使用價值。一般推薦使用Reise等人的平行分析方法來確定因子的數目。這種標準比起碎石檢驗標準來說,減少了研究者主觀因素的影響,結果也更客觀、真實、有效。
雖然正交旋轉能容易地解釋和表示因子分析的結果,但由於其規定因子間不相關,因此正交旋轉的結果往往並不符合實際。建議在探索性因子分析中使用斜交旋轉法,它既能很容易地解釋因子,同時也確保了因子間的簡單結構,更重要的是,允許因子間的相關也更符合現實。例如,在探索性因子分析中提取出了家庭受教育水平和家庭經濟收入這兩個因子,如果勉強進行正交旋轉,忽視兩因子間的相關,必然會對結果造成很大的影響,實際上這兩個因子都屬於家庭社會經濟地位的範疇,具有很高的相關,因此,進行斜交旋轉,允許兩因子間的相關,這樣得到的結果才更有說服力。實際研究中,研究者更多地還是採用了正交旋轉的方法,1991-2000年國內兩種心理學期刊發表的運用因子分析的文章中,高達60%的文章使用正交旋轉,而斜交旋轉只占到了6%。
4.因子值缺乏重複驗證性  心理、教育領域中,研究者求解因子值時,絕大多數依賴的是SPSS,而該軟體所提供的求解因子值的方法最後求得的因子值是以一種加權的方式獲得的,這就使得這些因子值只適用於特定的樣本,缺乏重複驗證性。
為了克服這一缺陷,研究者建議使用一種簡單的非加權的方法,該方法首先鑑別出在某一因子上有較高負載的變數,然後將這些負載的值相加,從而得到能反映該因子的一種特定的因子值。使用這種方法研究者將失去變數在因子上的負載信息,但是,這樣得到的因子值與SPSS提供的各種權重的因子值具有較高相關,因此,使用這種簡單的策略獲得的因子值是很有意義的,它能克服缺乏重複驗證的缺陷。
當然,因子值本身實質上還是一種觀測變數,存在一定的隨機誤差,可以使用潛變數模型的方法來消除這些隨機誤差。
5. 研究結果的呈現形式不規範  因子分析結果的呈現中,哪些信息需要研究者明確提供都有一定的規定,但教育、心理領域的套用中,很少有研究者能提供完整的信息。作為因子分析的基礎,相關矩陣是最根本的,研究者必須提供,否則,研究結果就缺乏重複驗證的可能;另外,旋轉前後因子所解釋的方差、因子負載矩陣等信息也必須提供。
6. 過於依賴SPSS,缺乏主動性
近年來因子分析套用中存在的最大的問題就是研究者過於依賴SPSS軟體,往往是電腦控制人腦,研究者喪失了主動性。前面所討論的因子分析實際套用中存在的一些主要問題,很大一部分是由SPSS本身所導致的。研究者進行因子分析時,大多脫離自己的實際研究,盲目地採用SPSS的各種預設設定,最後導致獲得的研究結果缺乏可信性,不符合實際研究的需要。例如,在連續性或非連續性(如二分類)變數的因子分析中,研究者應選擇適當的分析方法,不能無視觀測變數的類型,做統一的處理。對於由連續變數和非連續變數所組成的混合變數,研究者建議使用Tobit模型;分類順序變數則應該採用最大似然法(Maximum Likelihood)或加權最小二乘法(Weighted Least Squares)。為了克服這種依賴性,有些研究者提出了採用其它的一些統計方法,逼迫研究者在進行統計分析時進行更多的思考,如CEFA軟體。
總之,實際研究中,研究者應根據各種情況,選用適合的統計策略,儘量克服各種可能存在的問題,避免人腦受電腦的控制;另外,研究者自身加強統計知識的學習對於因子分析的正確運用也顯得至關重要。

相關詞條

熱門詞條

聯絡我們