簡介
相關分析就是對總體中確實具有聯繫的標誌進行分析,其主體是對總體中具有因果關係標誌的分析。它是描述客觀事物相互間關係的密切程度並用適當的
統計指標表示出來的過程。在一段時期內出生率隨經濟水平上升而上升,這說明兩指標間是正相關關係;而在另一時期,隨著經濟水平進一步發展,出現出生率下降的現象,兩指標間就是負相關關係。
為了確定相關變數之間的關係,首先應該收集一些數據,這些數據應該是成對的。例如,每人的身高和體重。然後在直角坐標繫上描述這些點,這一組點集稱為“
散點圖”。
根據散點圖,當
自變數取某一值時,因變數對應為一
機率分布,如果對於所有的自變數取值的
機率分布都相同,則說明因變數和自變數是沒有相關關係的。反之,如果,自變數的取值不同,因變數的分布也不同,則說明兩者是存在相關關係的。
兩個變數之間的相關程度通過相關係數r來表示。相關係數r的值在-1和1之間,但可以是此範圍內的任何值。
正相關時,r值在0和1之間,散點圖是斜向上的,這時一個變數增加,另一個變數也增加;
負相關時,r值在-1和0之間,散點圖是斜向下的,此時一個變數增加,另一個變數將減少。r的絕對值越接近1,兩變數的關聯程度越強,r的絕對值越接近0,兩變數的關聯程度越弱。
分類
1、按相關的程度分為完全相關、不完全相關和不相關
1)兩種依存關係的標誌,其中一個標誌的數量變化由另一個標誌的數量變化所確定,則稱完全相關,也稱函式關係。
2)兩個標誌彼此互不影響,其數量變化各自獨立,稱為不相關。
3)兩個現象之間的關係,介乎完全相關與不相關之間稱不完全相關。
2、按相關的方向分為正相關和負相關
1)正相關指相關關係表現為因素標誌和結果標誌的數量變動方向一致。
2)負相關指相關關係表現為因素標誌和結果標誌的數量變動方向是相反的。
3、按相關的形式分為線性相關和非線性相關
一種現象的一個數值和另一現象相應的數值在指教坐標系中確定為一個點,稱為線性相關。
4、按影響因素的多少分為單相關和復相關
1)如果研究的是一個結果標誌同某一因素標誌相關,就稱單相關。
2)如果分析若干因素標誌對結果標誌的影響,稱為復相關或多元相關。
相關關係
相關分析與回歸分析在實際套用中有密切關係。然而在回歸分析中,所關心的是一個
隨機變數Y對另一個(或一組)隨機變數X的依賴關係的函式形式。而在相關分析中 ,所討論的變數的地位一樣,分析側重於隨機變數之間的種種相關特徵。例如,以X、Y分別記小學生的數學與語文成績,感興趣的是二者的關係如何,而不在於由X去預測Y。
確定相關關係的存在,相關關係呈現的形態和方向,相關關係的密切程度。其主要方法是繪製相關圖表和計算相關係數。
編制相關表前首先要通過實際調查取得一系列成對的標誌值資料作為相關分析的原始數據。
相關表的分類:簡單相關表和分組相關表。單變數分組相關表:自變數分組並計算次數,而對應的因變數不分組,只計算其平均值;該表特點:使冗長的資料簡化,能夠更清晰地反映出兩變數之間相關關係。雙變數分組相關表:自變數和因變數都進行分組而製成的相關表,這種表形似棋盤,故又稱棋盤式相關表。
利用直角坐標系第一象限,把自變數置於橫軸上,因變數置於縱軸上,而將兩變數相對應的
變數值用坐標點形式描繪出來,用以表明相關點分布狀況的圖形。相關圖被形象地稱為相關散點圖。因素標誌分了組,結果標誌表現為組平均數,所繪製的
相關圖就是一條折線,這種折線又叫相關曲線。
1、相關係數是按積差方法計算,同樣以兩變數與各自平均值的
離差為基礎,通過兩個離差相乘來反映兩變數之間相關程度;著重研究線性的單相關係數。
2、確定相關關係的數學表達式。
3、確定因變數估計值誤差的程度。
復相關
研究一個變數 x0與另一組變數 (x1,x2,…,xn)之間的相關程度。例如,職業聲望同時受到一系列因素(收入、文化、權力……)的影響,那么這一系列因素的總和與職業聲望之間的關係,就是復相關。
復相關係數R0.12…n的測定,可先求出 x0對一組變數x1,x2,…,xn的
回歸直線,再計算x0與用回歸直線估計值憫之間的簡單直線回歸。復相關係數為
R0.12…n的
取值範圍為0≤R0.12…n≤1。復相關係數值愈大,變數間的關係愈密切。
偏相關
研究在多變數的情況下,當控制其他變數影響後,兩個變數間的
直線相關程度。又稱淨相關或部分相關。例如,
偏相關係數 r13.2表示
控制變數x2的影響之後,變數
x1和變數
x3之間的直線相關。偏相關係數較簡單直線相關係數更能真實反映兩變數間的聯繫。
偏相關係數、
復相關係數、簡單直線相關係數之間存在著一定的關係。以3個變數
x1,
x2,
x3為例,它們有如下的關係:
或
定序變數
討論兩個定序變數間的相關的程度與方向。又稱等級相關。例如,研究夫婦雙方文化程度的相關等。等級相關係數有R係數和γ係數。
R係數 計算方法與簡單直線相關係數相同。 式中
X,Y分別為x,y的測量值的等級。
英國統計學家 C.E.斯皮爾曼從R係數中推導出簡捷式,稱斯皮爾曼等級相關係數:
式中
di=
xi-
yi,
i=1,2,…,
N(
N為次數)。
等級相關係數
R具有與簡單
直線相關相同的性質:
取值範圍在〔-1,+1〕之間;
R的絕對值愈大,變數間的等級相關程度愈大。
式中
Ns為同序對數目,
Nd為異序對數目。
同序對表示兩個個案(xi,yi)和(xj,yj)相比時,具有xi>xj,則yi>yj的性質;反之,若xi>xj,但yi<yj,則稱作一個異序對。
γ係數的
取值範圍在〔-1,+1〕之間。
γ的絕對值愈大,變數間的等級相關程度愈大。