典型相關分析

典型相關分析(canonical correlation analysis),是對互協方差矩陣的一種理解,是利用綜合變數對之間的相關關係來反映兩組指標之間的整體相關性的多元統計分析方法。它的基本原理是:為了從總體上把握兩組指標之間的相關關係,分別在兩組變數中提取有代表性的兩個綜合變數U1和V1(分別為兩個變數組中各變數的線性組合),利用這兩個綜合變數之間的相關關係來反映兩組指標之間的整體相關性

基本介紹

  • 中文名:典型相關分析
  • 外文名:canonical correlation analysis
  • 領域:統計學
  • 套用:整體相關性分析
簡介,定義,計算,1.求導,2.解法,相關套用,

簡介

典型相關分析最早哈羅德·霍特林首次引入。他所提出的方法於 1936 年在《生物統計》期刊上發表的一篇論文《兩組變式之間的關係》經過多年的套用及發展,逐漸達到完善,在 70 年代臻於成熟。
由於典型相關分析涉及較大量的矩陣計算, 其方法的套用在早期曾受到相當的限制。但隨著當代計算機技術及其軟體的迅速發展,彌補了套用典型相關分析中的困難,因此它的套用開始走向普及化。 典型相關分析是研究兩組變數之間相關關係的一種統計分析方法。
為了研究兩組變數量X= (X1, ...,Xn) 和Y= (Y1, ...,Ym) 之間的相關關係,採用類似於主成分分析的方法,在兩組變數中,分別選取若干有代表性的變數組成有代表性的綜合指標,通過研究這兩組綜合指標之間的相關關係,來代替這兩組變數間的相關關係,這些綜合指標稱為典型變數。

定義

給定兩個帶有限矩的隨機變數的列向量
,我們可以定義互協方差矩陣
矩陣,其中
是協方差
。實際上,我們可以基於
的採樣數據來估計協方差矩陣。(如從一對數據矩陣)。
典型相關分析求出向量
使得隨機變數
的相關性
最大。隨機變數
第一對典型變數。然後尋求一個依然最大化相關但與第一對典型變數不相關的向量;這樣就得到了第二對典型變數。 這個步驟會進行
次。

計算

1.求導

。需要最大化的參數為
第一步是定義一個基變更以及
因此有
根據柯西-施瓦茨不等式,我們有
如果向量
共線,那么上式相等。此外,如果
是矩陣
最大特徵值對應的特徵向量,那么就可以得到相關的最大值。隨後的典型變數對可以通過減少特徵值的量級來得到。正交性保證了相關矩陣的對稱性。

2.解法

因此解法是:
1)
的一個特徵向量;
2)
的比例項。
相反地,也有:
1)
的一個特徵向量;
2)
的比項。
把坐標反過來,我們有
1)
的一個特徵向量;
2)
的一個特徵向量;
3)
是的比例項;
4)
的比例項。
那么相關變數定義為:

相關套用

典型相關分析的用途很廣。在實際分析問題中,當面臨兩組多變數數據,並希望研究兩組變數之間的關係時,就要用到典型相關分析。 例如,為了研究擴張性財政政策實施以後對巨觀經濟發展的影響,就需要考察有關財政政策的一系列指標如財政支出總額的增長率、財政赤字增長率、國債發行額的增長率、稅率降低率等與經濟發展的一系列指標如國內生產總值增長率、就業增長率、物價上漲率等兩組變數之間的相關程度。
又如,為了研究巨觀經濟走勢與股票市場走勢之間的關係,就需要考察各種巨觀經濟指標如經濟成長率、失業率、物價指數、進出口增長率等與各種反映股票市場狀況的指標如股票價格指數、股票市場融資金額等兩組變數之間的相關關係。再如,工廠要考察所使用的原料的質量對所生產的產品的質量的影響,就需要對所生產產品的各種質量指標與所使用的原料的各種質量指標之間的相關關係進行測度。
又如,在分析評估某種經濟投入與產出系統時,研究投入和產出情況之間的聯繫時,投入情況面可以從人力、物力等多個方面反映,產出情況也可以從產值、利稅等方面反映。
再如在分析影響居民消費因素時,我們可以將勞動者報酬、家庭經營收入、轉移性收入等變數構成反映居民收入的變數組,而將食品支出、醫療保健支出、交通和通訊支出等變數構成反映居民支出情況的變數組,然後通過研究兩變數組之間關係來分析影響居民消費因素情況。
典型相關分析有助於綜合地描述兩組變數之間的典型的相關關係。其條件是,兩組變數都是連續變數,其資料都必須服從多元常態分配。

相關詞條

熱門詞條

聯絡我們