簡介
多元統計分析
multivariate statistical analysis
研究客觀事物中多個變數(或多個因素)之間相互依賴的
統計規律性。它的重要基礎之一是多元正態分析。又稱
多元分析 。 如果每個個體有多個觀測數據,或者從數學上說, 如果個體的觀測數據能表為 P維
歐幾里得空間的點,那么這樣的數據叫做多元數據,而分析多元數據的
統計方法就叫做多元統計分析 。 它是
數理統計學中的一個重要的分支學科。20世紀30年代,R.A.費希爾,H.霍特林,許寶碌以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到迅速發展。50年代中期,隨著電子計算機的發展和普及 ,多元統計分析在地質 、氣象、生物、醫學、
圖像處理、經濟分析等許多領域得到了廣泛的套用 ,同時也促進了理論的發展。各種統計軟體包如SAS,SPSS等,使實際工作者利用
多元統計分析方法解決實際問題更簡單方便。重要的多元統計分析方法有:多重
回歸分析(簡稱回歸分析)、判別分析、聚類分析、
主成分分析、對應分析、
因子分析、典型相關分析、多元
方差分析等。
早在19世紀就出現了處理二維正態總體(見
常態分配)的一些方法,但系統地處理多維
機率分布總體的統計分析問題,則開始於20世紀。人們常把1928年維
夏特分布的導出作為多元分析成為一個獨立學科的標誌。20世紀30年代,R.A.費希爾、H.霍特林、許寶祿以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到了迅速的進展。40年代,多元分析在心理、教育、生物等方面獲得了一些套用。由於套用時常需要大量的計算,加上第二次世界大戰的影響,使其發展停滯了相當長的時間。50年代中期,隨著電子計算機的發展和普及,它在地質、氣象、標準化、生物、圖像處理、經濟分析等許多領域得到了廣泛的套用,也促進了理論的發展。
多元分析發展的初期,主要討論如何把一元正態總體的統計理論和方法推廣到多元正態總體。多元正態總體的分布由兩組參數,即均值向量
μ(見
數學期望)和協方差矩陣(簡稱協差陣)
∑ (見
矩)所決定,記為
Np(
μ,
∑)(p為分布的維數,故又稱p維常態分配或p 維正態總體)。設
X1,
X2,…,
Xn為來自正態總體
Np(
μ,
∑)的
樣本,則
μ和
∑的無偏估計(見
點估計)分別是
和
分別稱之為樣本均值向量和樣本協差陣,它們是在各種多元分析問題中常用的統計量。樣本相關陣
R 也是一個重要的統計量,它的元素為
其中υij為樣本協差陣
S的元素。
S的分布是維夏特分布,它是一元統計中的Ⅹ2分布的推廣。
另一典型問題是:假定兩個多維
常態分配協差陣相同,檢驗其均值向量是否相同。設樣本
X1,
X2,…,
Xn抽自正態總體
Np(
μ1,
∑),而
Y1,
Y2,…,
Ym抽自
Np(
μ2,
∑),要檢驗假設
H 0:
μ1=
μ2(見
假設檢驗)。在一元統計中使用
t統計量(見
統計量)作檢驗;在多元分析中則用
T2統計量,
,其中,
·
,T2的分布稱為T2分布。這是H.霍特林在1936年提出來的。
在上述問題中的多元與一元相應的統計量是類似的,但並非都是如此。例如,要檢驗k個正態總體的均值是否相等,在一元統計中是導致
F統計量,但在多元分析中可導出許多統計量,最著名的有
威爾克斯Λ統計量和最大相對特徵根統計量。研究這些統計量的精確分布和優良性是近幾十年來多元統計分析的重要理論課題。
多元統計分析有狹義與廣義之分,當假定總體分布是多元常態分配時,稱為狹義的,否則稱為廣義的。近年來,狹義多元分析的許多內容已被推廣到更廣的分布之中,特別是推廣到一種稱為橢球等高分布族之中。
按多元分析所處理的實際問題的性質分類,重要的有如下幾種。
多重回歸分析
簡稱回歸分析。其特點是同時處理多個因變數。回歸係數和常數的計算公式與通常的情況相仿,只是由於因變數不止一個,原來的每個回歸係數在此都成為一個向量。因此,關於回歸係數的檢驗要用T2統計量;對回歸方程的顯著性檢驗要用Λ統計量。
回歸分析在地質勘探的套用中發展了一種特殊的形式,稱為
趨勢面分析,它以各種元素的含量作為因變數,把它們對地理坐標進行回歸(選用一次、二次或高次的多項式),回歸方程稱為趨勢面,反映了含量的趨勢。殘差分析是趨勢面分析的重點,找出正的殘差異常大的點,在這些點附近,元素的含量特別高,這就有可能形成可采的礦位。這一方法在其他領域也有套用。
判別分析
由 k個不同總體的樣本來構造判別函式,利用它來決定新的未知類別的樣品屬於哪一類,這是判別分析所處理的問題。它在醫療診斷、
天氣預報、圖像識別等方面有廣泛的套用。例如,為了判斷某人是否有心臟病,從健康的人和有心臟病的人這兩個總體中分別抽取樣本,對每人各測兩個指標X1和X2,點繪如圖 。可用直線A將平面分成g1和g2兩部分,落在g1的絕大部分為健康者,落在g2的絕大部分為心臟病人,利用A的垂線方向
l=(l1,l2)來建立判別函式
y=l1X1+l2X2,可以求得一常數с,使 y<с 等價於(X1,X2)落在g1,y>с等價於(X1,X2)落在g2。由此得判別規則:若,l1X1+l2X2<c
判,即此人為健康者;若,l1X1+l2X2>C
判,
即此人為心臟病人;若,l1X1+l2X2=c則為待判。此例的
判別函式是線性函式,它簡單方便,在實際問題中經常使用。但有時也用非線性判別函式,特別是二次判別函式。建立判別函式和判別規則有不少準則和方法,常用的有貝葉斯準則、費希爾準則、距離判別、回歸方法和非參數方法等。
無論用哪一種準則或方法所建立的判別函式和判別規則,都可能產生錯判,錯判所占的比率用錯判機率來
度量。當總體間區別明顯時,錯判機率較小;否則錯判機率較大。判別函式的選擇直接影響到錯判機率,故錯判機率可用來比較不同方法的優劣。
變數(如上例中的X1和X2)選擇的好壞是使用判別分析的最重要的問題,常用逐步判別的方法來篩選出一些確有判別作用的變數。利用
序貫分析的思想又產生了序貫判別分析。例如醫生在診斷時,先確定是否有病,然後確定是哪個系統有病,再確定是什麼性質的病等等。
聚類分析
又稱
數值分類。聚類分析和判別分析的區別在於,判別分析是已知有多少類和樣本來自哪一類,需要判別新抽取的樣本是來自哪一類;而聚類分析則既不知有幾類,也不知樣本中每一個來自哪一類。例如,為了制定服裝標準,對 N個成年人,測量每人的身高(x1)、胸圍(x2)、肩寬(x3)、上體長(x4)、手臂長(x5)、前胸(x6)、後背(x7)、腰圍(x8)、臀圍(x9)、下體長(x10)等部位,要將這N個人進行分類,每一類代表一個號型;為了使用和裁剪的方便,還要對這些變數(x1,x2,…,x10)進行分類。聚類分析就是解決上述兩種分類問題。
設已知N個觀測值X1,X2,…,Xn,每個觀測值是一個p維向量(如上例中人的身高、胸圍等)。聚類分析的思想是將每個觀測值Xi看成p維空間的一個點,在p維空間中引入“距離”的概念,則可按各點間距離的遠近將各點(觀測值)歸類。若要對 p個變數(即指標)進行分類,常定義一種“相似係數”來衡量變數之間的親密程度,按各變數之間相似係數的大小可將變數進行分類。根據實際問題的需要和變數的類型,對距離和相似係數有不同的定義方法。
按距離或相似係數分類,有下列方法。①凝聚法:它是先將每個觀察值{Xi}看成一類,逐步歸併,直至全部觀測值並成一類為止,然後將上述並類過程畫成一聚類圖(或稱譜系圖),利用這個圖可方便地得到分類。②分解法:它是先將全部觀測值看成一類,然後逐步將它們分解為2類、3類、…、N類,它是凝聚法的逆過程。③動態聚類法:它是將觀測值先粗糙地分類,然後按適當的目標函式和規定的程式逐步調整,直至不能再調為止。
若觀察值X1,X2,…,Xn之間的次序在分類時不允許打亂,則稱為有序分類。例如在地質學中將地層進行分類,只能將互相鄰接的地層分成一類,不能打亂上下的次序。用於這一類問題中的重要方法是費希爾於1958年提出的最優分割法。
聚類分析也能用於預報洪水、暴雨、地震等災害性問題,其效果比其他統計方法好。但它在理論上還很薄弱,因為它不象其他方法那樣有確切的數學模型。
主成分分析
又稱
主分量分析,是將多個變數通過線性變換以選出較少個數重要變數的一種方法。設原來有p個變數x1,x2,…,xp,為了簡化問題,選一個新變數z,
,
要求z儘可能多地反映p個變數的信息,以此來選擇l1,l2,…,lp,當l1,l2,…,lp選定後,稱z為x1,x2,…,xp的主成分(或主分量)。有時僅一個主成分不足以代表原來的p個變數,可用q(<p)個互不相關的呈上述形式的主成分來儘可能多地反映原p個變數的信息。用來決定諸係數的原則是,在
的約束下,選擇l1,l2,…,lp使z的
方差達到最大。
在根據樣本進行主成分分析時又可分為R型分析與Q型分析。前者是用樣本協差陣(或相關陣)的特徵向量作為線性函式的係數來求主成分;後者是由樣品之間的內積組成的內積陣來進行類似的處理,其目的是尋找出有代表性的“典型”樣品,這種方法在地質結構的分析中常使用。
對應分析
這是70年代地質學家提出的方法。對非
負值指標的樣本
資料矩陣作適當的處理後,同時進行R型與Q型的主成分分析,將結果綜合在圖上進行解釋,可以得到指標隨時間、
空間位置變化的規律。它的理論正在引起多方面的重視。
因子分析
它是由樣本的資料將一組變數
y2,……yp)
分解為一些公共因子f與特殊因子s的線性組合,即有常數
矩陣A使у=Af+s。公共因子f 的客觀內容有時是明確的,如在心理研究中,根據學生的測驗成績(指標)來分析他的反應快慢、理解深淺(公共因子);有時則是不明確的。為了尋求易於解釋的公共因子,往往對因子軸進行旋轉,旋轉的方法有正交旋轉,斜旋轉,極大變差旋轉等。
從樣本協差陣或相關陣求公共因子的方法有廣義
最小二乘法、最大似然法與不加權的最小二乘法等。通常在套用中,最方便的是直接利用主成分分析所得的頭幾個主成分,它們往往是對各個指標影響都比較大的公共因子。
典型相關分析
它是尋求兩組變數各自的線性函式中
相關係數達到最大值的一對,這稱為第一對典型變數,還可以求第二對,第三對,等等,這些成對的變數,彼此是不相關的。各對的相關係數稱為典型相關係數。通過這些典型變數所代表的實際含意,可以找到這兩組變數間的一些內在聯繫。典型相關分析雖然30年代已經出現,但至今未能廣泛套用。
上述的各種方法可以看成廣義多元分析的內容,在有些方法中,如加上正態性的假定,就可以討論一些更深入的問題,例如
線性模型中有關線性假設檢驗的問題,在正態的假定下,就有比較系統的結果。 多元分析也可按指標是離散的還是連續的來區分,離散值的多元分析實質上與列聯表分析有很大部分是類似的,甚至是一樣的。
非數量指標數量化的理論和方法也是廣義多元分析的一個重要的研究課題。
圖書信息
書 名: 多元統計分析:模型、案例及SPSS套用
出版時間: 2010年03月
開本: 16開
定價: 35.00 元
內容簡介
《多元統計分析:模型、案例及SPSS套用》在編寫上的基本特點是,儘可能敘述各種方法的
統計思想及方法的本身操作,儘量避開
數學證明或公式推導等內容;通過案例講述各種方法在
SPSS軟體中的實現過程,以達到深入淺出、通俗易懂的目標;每章後都配有一定量的習題,以方便自學之用;最後給出兩份綜合模擬試題,用於檢驗讀者的學習效果。
本教材的適用對象主要是財經類院校的統計專業本科生和經濟與管理類學科的碩士研究生,也適用於社會上各個領域中需要數據分析處理的廣大統計工作者。
作者簡介
王力賓,漢族,教授。先後於1985年和1988年畢業於
雲南大學經濟系企業管理專業和統計學專業,獲經濟學學士和碩士學位。1988年8月到
雲南財貿學院任教,2001年破格晉升為教授。1992年8,q至1993年10月赴英國
格拉斯哥大學進修統計學,1998年1月至7月以教育部公派訪問學者身份赴荷蘭提爾堡大學進修
西方經濟學。2002年7月考入
天津財經大學統計系攻讀博士,2006年12月獲經濟學博士學位。歷任雲南財貿學院計畫統計系副主任、成教院常務副院長和教務處處長等職。現任
雲南財經大學副校長、統計學學科帶頭人、碩士生導師、
雲南省統計學會副會長、
中國統計教育學會常務理事等職。
先後在《數量經濟技術經濟研究》、《數理統計與管理》、《
預測》、《雲南財經大學學報》等學術刊物上發表論文30餘篇,其中《中國大城市土地增值問題研究——對昆明市城區土地增值的實證分析》獲雲南省第五次社會科學優秀成果一等獎;《特徵價格理論與住房價格指數編制方法》、《住房特徵價格指數編制方法與實證分析》是我國經濟學界較早介紹和研究特徵價格指數編制方法的論文。主持、參與完成國家和省部級科研課題10餘項,其中“基於特徵價格理論的價格指數與商品質量變動研究”(09BTJ014)、“技術創新和產品質量變化對雲南省經濟成長的影響-基於特徵價格理論的研究”、“雲南縣城經濟發展研究”、“多層次
多主題抽樣調查研究”、“雲南省城鎮土地市場現狀、問題與對策研究”等課題獲得政府部門獎勵,並產生一定的社會影響。
圖書目錄
第1章 統計軟體概述
1.2 SPSS的主要視窗及其功能
1.2.1 數據編輯視窗(SPSS Data Editor)
1.2.2 結果輸出視窗(SPSS Viewer)
1.2.3 程式語句視窗(SPSSS yntax Editor)
1.3 SPSS的幫助視窗(SPSS help)
1.3.1 Help選單中的Topics命令
1.3.2 Help選單中的Tutorial命令
1.3.3 Help選單中的Statistics Coach命令
1.3.4 Help選單中的Syntax Guide命令
1.4 定義變數及建立數據檔案
1.4.1 常量與變數
1.4.2 建立數據檔案
1.5 基於Compute功能建立新變數
1.5.1 生成新的變數
1.5.2 Functions框中分布函式的功能
習題一
第2章 數據描述性分析
2.1 集中趨勢(Central Tendency)分析
2.1.1 集中趨勢
2.1.2 SPSS中集中趨勢分析實現過程
2.2 離散趨勢(Dispersion Tendency)分析
2.2.1 離散趨勢
2.2.2 SPSS中離散趨勢分析實現過程
2.3 分布特徵(Distribution Tendency)分析
2.3.1 分布特徵
2.3.2 SPSS中分布特徵分析的實現過程
2.4 頻數(Frequency)分析及數據標準化
2.4.1 頻數(Frequency)
2.4.2 數據標準化
2.4.3 SPSS中頻數分析的實現過程
2.4.4 SPSS中Z分數的實現過程
2.5 相關關係
2.5.1 相關係數概述
2.5.2 二元變數的相關分析
2.5.3 SPSS中相關分析的實現過程
習題二
第3章 假設檢驗與方差分析
3.1 統計假設檢驗的基本問題
3.1.1 統計假設檢驗的基本思想
3.1.2 統計假設檢驗的基本步驟
3.2 Mean過程
3.2.1 基本思想和數學模型
3.2.2 SPSS中Mean的實現過程
3.3 T檢驗
3.3.1 基本思想和數學模型
3.3.2 SPSS中T檢驗的實現過程
3.4 方差分析
3.4.1 基本思想和數學模型
3.4.2 SPSS中方差分析的實現過程
習題三
4.1.1 多元線性回歸模型的一般形式
4.1.2 多元線性回歸模型的基本假定
4.1.3 多元線性回歸方程
4.1.4 多元線性回歸方程的解釋
4.2 多元線性回歸方程的估計
4.2.1 回歸參數的最小二乘估計
4.2.2 誤差項方差的估計
4.3 多元線性回歸模型的檢驗
4.3.2 回歸方程的整體顯著性檢驗
4.3.3 回歸係數的顯著性檢驗
4.4 殘差分析
4.4.1 殘差圖
4.4.2 異常值的識別
4.4.3 自相關與DW檢驗
4.4.4 異方差檢驗
4.4.5 多重共線性檢驗
4.5 多元線性回歸分析在SPSS軟體中的實現
習題四
第5章 逐步回歸分析
5.1 逐步回歸分析概述
5.1.1 逐步回歸分析的基本思想和步驟
5.1.2 引入和剔除變數的標準
5.2 計算方法和步驟
5.3 逐步回歸分析在SPSS軟體中的實現
習題五
6.1 曲線估計
6.1.2 曲線回歸的數據要求與假設
6.1.3 曲線回歸的基本類型及線性化方法
6.2 曲線回歸在SPSS軟體中的實現
6.3 非線性回歸
6.3.2 非線性模型的擬合原則、參數約束及確定初始值的原則
6.3.3 例題分析
6.4 非線性疊代回歸在SPSS軟體中的實現
6.5 Box-Cox變換
6.5.1 Box-Cox變換的提出
6.5.2 Box-Cox變換的基本思想
6.5.4 Box-Cox變換在Matlab軟體中的實現
習題六
第7章 聚類分析
7.矍聚類分析的概述
7.1.1 聚類分析的概念和基本思想
7.1.2 聚類分析的種類
7.1.3 聚類方式
7.1.4 聚類分析的基本步驟
開本: 16開
定價: 46.00元
內容簡介
本書講述多元統計的基礎理論和多元數據的分析方法。
作者簡介
張潤楚,南開大學數學科學學院教授,博士生導師,1966年畢業於南開大學數學系並留校任教至今,長期擔任機率信息統計教研室副任、統計學系主任、學校數學學科語言組委員等職。現兼任教育部數學與統計學教學指導委員會委員、天津市統計學副會長、中國現場統計研究會常務理事、中國統計學會理事等職。多元統計,數據分析,統計理論推斷以及
機率統計在保險精算中的套用等。先後主持承擔
國家自然科學基金項目5項,教育部博士點學科基金項目1項,天津市科學基金項目1項,現正在主持承擔國家自然科學基金項目“試驗設計若干最新問題研究”。先後在“
套用數學學報”和“
科學通報”等國內外學術刊物發表論文50多篇。
圖書目錄
《大學數學科學叢書》序
前言
符號表
第一章 隨機向量和多元常態分配
§1.1 隨機向量及有關概念
§1.2 多元常態分配
§1.3 正態向量的條件分布和相關性
§1.4 正態隨機陣的若干性質
§1.5 橢球等高分布族
§1.6 指數型分布族
§1.7 其他一些多元分布
習題一
第二章 Wishart分布, T2分布, 多元Beta和Λ分布
§2.1 正態向量的二次型
§2.2 Wishart分布及其性質
§2.3 Hotelling T2分布
§2.4 多元Beta分布及有關統計量
§2.5 附註
習題二
§3.1 常態分配均值向量和協差陣的估計
§3.2 常態分配廣義方差和相關係數的極大似然估計
§3.3 多元分布參數估計的某些一般理論
§3.4 附註
習題三
第四章 統計假設檢驗
§4.2 協方差陣已知時正態總體均值向量的檢驗
§4.3 協方差陣Σ未知時正態總體均值向量的檢驗
§4.4 正態總體均值向量受約束情形的檢驗
§4.5 一般總體均值的大樣本推斷
§4.6 正態總體協方差陣的檢驗
§4.8 其他基本檢驗策略原則
習題四
第五章 多元線性統計模型
§5.1 引言和基本模型
§5.3 線性回歸模型參數的最小二乘估計及其性質
§5.4 廣義線性回歸模型的參數估計及其性質
§5.5 正態回歸模型參數的假設檢驗
§5.6 設計陣X降秩情形的回歸
§5.7 多元方差分析
§5.8 回歸變數的選擇
習題五
第六章 判別分析
§6.1 距離判別
§6.2 Bayes判別
§6.3 Fisher判別法
習題六
第七章 主成分分析
§7.1 引言
§7.2 數據擬合思想
§7.3 主成分分析的套用
§7.4 對多元總體的主成分分析及其估計與檢驗
習題七
第八章 因子分析
§8.1 引言
§8.2 基本因子分析模型
§8.3 因子模型的基本性質
§8.4 因子模型的求解
§8.5 因子得分
§8.6 方差最大正交旋轉
§8.7 總體因子分析模型及其參數估計和假設檢驗
習題八
第九章 相應分析
§9.1 引言
§9.2 相應分析的一般提法
§9.3 相應分析的求解
§9.4 相應分析的適用性檢驗
習題九
第十章 聚類分析
§10.1 相似和距離
§10.2 系統聚類法
§10.3 一次形成聚類法
§10.4 K水準逐步形成聚類法
§10.5 有序樣品的聚類方法
§10.6 移動中心聚類法
習題十
第十一章 典型相關分析
§11.1 問題的闡述和記號
§11.2 求解方法和典型變數的性質
§11.3 典型分析的幾何解釋
§11.4 典型得分和預測
§11.5 定性數據的典型分析
習題十一
第十二章 多維標度法
§12.1 引言
§12.2 距離陣和經典解
§12.3 經典解的優良性質
§12.4 非度量方法
習題十二
參考文獻
§A.1 矩陣運算
§A.2 分塊求逆和廣義逆
習題A
附錄B 幾種常用分布表
表B.1 常態分配上尾機率
表B.2 t分布上側分位點tα(n)
表B.3 χ2分布上側分位點χ2α(ν)
表B.4 F分布上側分位點Fα(ν1, ν2)
表B.5 WilksΛ分布上側分位點Λα(p, n, m)
名詞索引
* * *
《大學數學科學叢書》已出版書目
多元統計分析
作 者:符想先,靳劉蕊,王兢 著
出 版 社:鄭州大學出版社
出版時間:2009-12-1
版 次:1
頁 數:316
字 數:365000
印刷時間:2009-12-1
開 本:16開
紙 張:膠版紙