《現代分層分位回歸:理論、方法與套用》是2015年清華大學出版社出版的圖書,作者是田茂再。
基本介紹
- 中文名:現代分層分位回歸:理論、方法與套用
- 作者:田茂再
- 出版社:清華大學出版社
- 出版時間:2015年4月10日
- 定價:59 元
- ISBN:9787302394747
內容簡介,作品前言,作品目錄,
內容簡介
數據存在於特定的時間和空間中,其複雜的分層結構是一種普遍現象.充分藉助於數據的這一特點,可以大大提高統計分析的有效性.本書致力於介紹複雜分層數據分析前沿知識,側重於算法、仿真與實證研究.內容主要包括:分層線性模型、分層廣義線性模型、分層非線性模型、分層半參數模型和分層分位回歸模擬等.本書可作為統計學及其相關領域的本科生、研究生的教材,亦可供教師和科技人員參考.
作品前言
數據存在於特定的時間和空間中,離開數據的這一“時空性”,常常會造成傳統的統計分析方法效果不佳,甚至失效 .數據客觀存在的時空性結構很普遍,其中常見的就是分層結構 (hierarchical structure),它具有下述意義:我們用變數來描述個體,而個體嵌套在更大單元里,形成金字塔形狀 .
1.分層分位回歸 (hierarchical quantile regreesion)
自 20世紀末葉以來,針對數據分層結構的分層模型 (hierarchical models)不論是在理論研究方面還是在套用方面都獲得了長足的發展 .該模型實質上就是條件獨立分層模型 .Hobert (2000)給出了有關分層模型目前計算方面的問題及前景展望 .該類模型的最大優點就在於它能藉助於組間與組內擾動的力量 .不過,現有的分層模型的理論本質上說就是給定預測變數 X的值 x後,回響變數 Y的條件均值 m(x)的理論 .這些理論沒有也不可能給出回響變數的條件分位函式的全面刻畫 .所以,考慮給定協變數的條件下回響變數的全面刻畫問題、估計子空間的穩健問題等,就顯得非常必要了 .
另一方面, Koenker和 Bassett (1978)首先提出了分位回歸模型的概念 .分位回歸是一種統計方法,它旨在對條件分位函式進行統計推斷 .正如基於殘差平方和最小化的經典線性回歸方法能估計條件均值函式一樣,分位回歸方法也為我們提供了一種估計條件分位函式的機制 .有關分位回歸的優點可以粗略地概括如下: (1)給定一組預測變數之後,它能全面刻畫回響變數的整個條件分布;
(2)分位回歸模型有線性規劃代理 (LP),這使得估計簡便; (3)就像 LAD這一特例一樣,分位回歸的目標函式是加權的絕對偏差和,所以它能給出一個穩健的位置測度,因此被估計的係數向量對回響變數的離群點 (outliers)不敏感; (4)當誤差項服從非正態的時候,分位回歸估計量要比最小二乘估計量更為有效,等等.
最近分位回歸取得了長足發展 .下面是幾個典型的例子: (1)在參數分位回歸模型方面, Portnoy和 Koenker (1997)討論了線性規劃中內點問題的最新進展; (2)在非參數分位回歸模型方面, Yu和 Jone(1998)提出了“雙核” (double-kernel)法; (3)在半非參數分位回歸模型方面, Koenker等 (1992)給出了一種解決基於罰似然估計 (the penalized likelihood estimation)的算法; (4)目前,分位回歸有幾個熱門話題:時間序列中的分位回歸、分位回歸的擬合優度以及貝葉斯分位回歸,等等; (5)隨著實際生活的需要,文獻中出現了一些結合分層模型與分位回歸方法優點的文章 . Tian和 Chen (2006)提出了分層線性分位回歸模型 .在那篇文章中,他們提出了一個基於高斯疊代並利用了分位回歸和分層模型的
優點的新方法 .在理論方面,考慮了漸近性質 .對於 n收斂和漸近正態性,我們有一些簡單的條件 . Tian,Tang和 Chan (2010)拓展了已經存在的分層線性模型和局部線性分位回歸模型,並提出了分層半參數分位回歸模型 .該模型第一層為非參數 .在非參數的假設下,非參數函式的偏導向量,通常在經濟學中叫做邊際效應,它將作為第二層的回響變數 .為了研究協方差效應對回響變數完整條件分布的影響,該文章考慮分位回歸係數 .不像普通的分層均值,固定效應假定是常數,而是允許固定效應的分位數是協變數的函式,所以該方法對於很多統計套用者是很有吸引力的 .
2.複合分位回歸 (composite quantile regression)
在最近幾年裡,為了在多元線性回歸中同時選擇變數和估計係數,大家提出了很多方法 .著名的方法有 Nonnegative Garrote (Breiman, 1995), Lasso (Tib-shirani, 1996)和 SCAD (Fan和 Li, 2001).Fan和 Li (2006)綜合性地描述了變數選擇方面最新的優秀方法 .以上這些方法都是在方差有限的假設下進行的 .如果知道了誤差項的分布,那么最好的估計是已知真實的基本稀疏模型下的極大似然估計 .線上性回歸問題中,當我們遇到誤差項分布 (似然函式 )未知的情形,就得考慮實際最優過程 .我們注意到 LS-ORACLE模型選擇理論不需要誤差項正態以及誤差項分布具有有限方差的假設 .無論如何,有限方差的假設對於基於最小二乘的最優模型選擇的理論是很重要的 .另一方面,模型的選擇在於發現回響和預測之間關係的稀疏結構,因此,即便誤差項方差無限,模型選擇也仍然是一個合法而又有趣的問題 .
LS-ORACLE中的局限性可見一斑 .人們希望找到一個可以克服 LS-ORACLE問題的可選擇最優 ORACLE. Zou和 Yuan (2008)介紹了一個新的回歸模型,叫做複合分位回歸 (CQR),從這種分位回歸方法中可以找到滿足前面所述性質的最優估計量 .他們定義了 CQR,得到了 CQR-ORACLE和 LS-ORACLE相比的漸近最優性質和一個廣泛使用的下界,該下界說明相關效率大於 70%. Kai,Li和 Zou (2009)在複合分位回歸的基礎之上考慮了“複合分位回歸平滑”方法 .該方法進一步改進了局部多項式回歸 .在估計非參數回歸函式和其導函式時局部的 CQR估計具有很多優點,例如:對於非參數回歸函式的局部線性 CQR估計,其漸近理論性質表明,與傳統的局部最小二乘估計相比,這種新的估計在各種常見的非正態誤差假設下其估計效率有顯著的提高;對於回歸函式的導函式,局部二次 CQR估計的漸近理論結果顯示該估計在誤差非正態時能極大地提高與局部最小二乘估計相對應的各種估計效率,同時,在一些尤為不利的場合其損失的效率也最多只有 8.01%;另外,局部 p次多項式 CQR估計的一般漸近理論結果不需要假設誤差具有有限方差,因此,局部 CQR估計能在噪聲方差為無窮大
時比局部多項式估計表現得更好 .局部線性(多項式)回歸函式被證明是效率最優的線性光滑器 (Fan和 Gijbels, 1996),局部 CQR估計的漸近理論結果與該結論並不矛盾,因為它實際上是一種非線性光滑器 .
3. 局部加權適應性分位回歸 (locally weighted adaptive quantile Regres-sion)
文獻中一種非常流行的估計方法是基於局部常數擬合的思想 .局部平滑步驟在許多文章中已經研究過,例如,文獻 (Tsybakov, 1986),(Troung, 1989),(Hall和 Jones, 1990),(Chaudhuri, 1991),(Fan,等, 1994),(Yu和 Jones, 1998),(Tian和 Chen, 2006)以及 (Tian, 2009).與常數窗寬相比,變化的核估計量可以進行局部不同水平的平滑 .但是,現有文章中的方法在計算均方誤差 (MSE)中的偏差部分時經常需要用到待估函式的高階導數,而這顯然是比原估計更為困難的問題,所以更加複雜 .再則,現有的條件分位回歸建模方法都是基於待估函式的平滑假設條件下的,而這些假設在不連續點的鄰域和陡峭的邊界都是不能滿足的,所以經常會導致過度平滑問題和邊界擬合失真問題,這可參考文獻 (M¨uller, 1992),(Wu和 Chu, 1993),(Banerjee和 Rosenfeld, 1993)以及 (Speckman, 1994)等.對於均值回歸 (與分位回歸相比 ),文獻中已經提出了很多方法解決不連續性和陡峭邊界問題 .例如, Polzehl和 Spokoiny (2000, 2003)針對附加偏誤的局部多項式模型提出了一種自適應加權平滑過程 .局部加權適應性平滑方法是一種數據的適應性平滑的疊代技術,它適合非連續的回歸方程 .所用到的基本假設是這個回歸函式可以由簡單函式逼近,如局部常數函式或局部線性函式 .另一方面,局部邊際問題在不同的均值回歸方面已經有人研究過,參見文獻 (Korostelev和 Tsybakov, 1993), (Scott, 1992), (Donoho, 1999), (Polzehl和 Spokoiny, 2000)及那裡面相關的文獻 .然而據我們了解,類似的條件分位回歸問題至今還沒有人探討過 .
本書致力於介紹複雜分層數據分析前沿的知識,側重於算法、仿真與實證研究,直接目的是給讀者一些複雜分層數據的分位回歸建模知識 .
自 2004年中國人民大學統計學院在全國首開“分層模型”課程以來,本書作者一直擔任本課程的主講老師 .本書的大部分材料在課堂上討論過 .本書在寫作過程中,自始至終有下面的碩士生、博士生參加過校正等工作:李遠、周朋朋、范潔瑜、張寧、戴成、錢政超、石恆澤、周健、安姝靜、陳博鈺、范博文、范燕、姜春波、馬維華、蘇宇楠、張圓圓、陳彥靚、郭潔、康雁飛、榮耀華、王偉、羅幼喜、儲昭霽、封達道、李兆媛、司世景、夏文濤、熊巍、何靜、胡亞南、黃雅麗、李茜、劉甦倩、呂爽、朱倩倩、田玉柱、梁曉琳、馬春桃、馬綽欣、孟令賓、王榛、楊亞琦、張亞麗、李二倩、羅靜、史普欣、王曉荷、袁夢、吳延科、晏振等 .在此,
我對他們表示衷心的感謝!
由於本人水平有限,錯誤在所難免,甚望讀者批評指正!
作者田茂再中國人民大學統計學院
2014年 10月
作品目錄
第一篇分層模擬
第 1章分層線性模型 ................................................................................ 3
1.1概述 .............................................................................................. 3
1.1.1背景介紹 ............................................................................ 3
1.1.2複雜數據界定 ..................................................................... 4
1.1.3經典模型 ............................................................................ 5
1.1.4主要參考文獻 ..................................................................... 7
1.2貝葉斯估計法 ................................................................................ 7
1.2.1引言 ................................................................................... 7
1.2.2例子 ..................................................................................12
1.2.3協方差結構未知時的估計 ...................................................16
1.2.4協方差結構未知的例子 ......................................................17
1.2.5多元回歸方程間的可交換性 ...............................................18
1.2.6多元回歸方程中的可交換性 ...............................................21
1.2.7主要參考文獻 ....................................................................22
1.3不完整數據的極大似然法 ..............................................................22
1.3.1引言 ..................................................................................22
1.3.2 EM算法的定義 .................................................................25
1.3.3一般性質 ...........................................................................29
1.3.4例子 ..................................................................................31
1.3.5主要參考文獻 ....................................................................44
1.4 EM算法 .......................................................................................45
1.4.1介紹 ..................................................................................45
1.4.2協方差成分模型:已知協方差情況下的理論 .......................46
1.4.3方差和協方差估計 .............................................................49
1.4.4例子 ..................................................................................51
1.4.5主要參考文獻 ....................................................................62
1.5疊代廣義最小二乘法 .....................................................................62
1.5.1引言 ..................................................................................62
1.5.2基本模型與符號 .................................................................62
1.5.3估計 ..................................................................................65
1.5.4隨機系統 ...........................................................................66
1.5.5參數間的限制 ....................................................................67
1.5.6未來的套用 ........................................................................68
1.5.7縱向數據 ...........................................................................68
1.5.8測量誤差 ...........................................................................69
1.5.9實例分析 ...........................................................................70
1.5.10主要參考文獻 ..................................................................72
1.6得分算法 ......................................................................................72
1.6.1引言 ..................................................................................72
1.6.2模型 ..................................................................................73
1.6.3對數似然函式 ....................................................................75
1.6.4二水平嵌套 ........................................................................77
1.6.5 EM算法 ............................................................................79
1.6.6多於兩水平嵌套 .................................................................80
1.6.7主要參考文獻 ....................................................................83
1.7 Newton-Raphson算法 ...................................................................83
1.7.1引言 ..................................................................................83
1.7.2計算方法 ...........................................................................84
1.7.3 Newton-Raphson算法中對數似然的導數 ............................85
1.7.4用於 Newton-Raphson算法的矩陣分解 ..............................89
1.7.5通過 EM算法估計 σ與 D..................................................92
1.7.6例子 ..................................................................................94
1.7.7主要參考文獻 ....................................................................96
第 2章分層廣義線性模型 ........................................................................97
2.1模型 .............................................................................................97
2.1.1介紹 ..................................................................................97
2.1.2分層廣義線性模型 .............................................................97
2.1.3極大 h似然估計的性質 ................................................... 105
2.1.4估計過程 ......................................................................... 109
2.1.5推廣 ................................................................................ 113
2.1.6分層廣義線性模型分析舉例 ............................................. 116
2.1.7討論 ................................................................................ 128
2.1.8軟體 ................................................................................ 129
2.1.9主要參考文獻 .................................................................. 129
2.2 Gibbs抽樣方法 .......................................................................... 129
2.2.1引言 ................................................................................ 129
2.2.2隨機效應廣義線性模型 .................................................... 131
2.2.3貝葉斯公式 ...................................................................... 132
2.2.4 Gibbs抽樣 ...................................................................... 132
2.2.5條件分布 ......................................................................... 133
2.2.6模擬與實例 ...................................................................... 136
2.2.7主要參考文獻 .................................................................. 140
第 3章分層非線性模型 .......................................................................... 142
3.1條件二階廣義估計方程 ............................................................... 142
3.1.1引言 ................................................................................ 142
3.1.2模型 ................................................................................ 143
3.1.3估計 ................................................................................ 144
3.1.4條件方差 -協方差的結構 ................................................. 146
3.1.5懲罰尾似然和懲罰擴展最小二乘的關係 ............................ 148
3.1.6模擬 ................................................................................ 149
3.1.7例子 ................................................................................ 155
3.1.8主要參考文獻 .................................................................. 156
3.2混合估計 .................................................................................... 157
3.2.1引言 ................................................................................ 157
3.2.2 Lindstrom-Bates,Breslow-Clayton和 Lee-Nelder估計量 ... 158
3.2.3混合估計 ......................................................................... 161
3.2.4推廣到分層廣義線性模型 ................................................. 167
3.2.5主要參考文獻 .................................................................. 170
第 4章分層半參數模型 .......................................................................... 171
4.1分層半參數非線性模型 ............................................................... 171
4.1.1引言 ................................................................................ 171
4.1.2半參數非線性混合效應模型 ............................................. 173
4.1.3估計 ................................................................................ 176
4.1.4計算 ................................................................................ 179
4.1.5加拿大溫度數據 ............................................................... 182
4.1.6模擬 ................................................................................ 184
4.1.7主要參考文獻 .................................................................. 185
4.2均值 -協方差同時建模 ............................................................... 186
4.2.1背景 ................................................................................ 186
4.2.2模型與估計方法 ............................................................... 188
4.2.3數值研究 ......................................................................... 191
4.2.4主要參考文獻 .................................................................. 199
第二篇分層分位回歸模擬
第 5章分位回歸引論 ............................................................................. 203
5.1引言 ........................................................................................... 203
5.1.1分位數 ............................................................................. 203
5.1.2分位回歸 ......................................................................... 204
5.1.3分位回歸方法的演變 ........................................................ 207
5.2估計方法和算法 .......................................................................... 212
5.2.1參數分位回歸模型 ........................................................... 212
5.2.2 Box-Cox變換分位數模型 ................................................. 212
5.2.3非參數分位回歸模型 ........................................................ 213
5.2.4窗寬選擇 ......................................................................... 216
5.2.5半參數分位回歸模型 ........................................................ 217
5.2.6兩步法 ............................................................................. 217
5.3分位回歸套用領域 ...................................................................... 217
5.3.1執行總裁 (CEO)年報酬與公司股本的市場價值關係 ........ 218
5.3.2分位數 Engel (恩格爾 )曲線 ............................................. 219
5.3.3分位回歸和嬰兒體重的決定因素 ...................................... 220
5.3.4醫學中參考圖表的套用 .................................................... 223
5.3.5在生存分析方面的套用 .................................................... 223
5.3.6風險值、分布尾部及分位數 .............................................. 224
5.3.7經濟 ................................................................................ 225
5.3.8環境模型的套用 ............................................................... 225
5.3.9在檢測異方差性上的套用 ................................................. 225
5.4其他方面的進展 .......................................................................... 226
5.4.1時間序列的分位回歸 ........................................................ 226
5.4.2擬合優度 ......................................................................... 226
5.4.3貝葉斯分位回歸 ............................................................... 228
5.5軟體和標準誤差 .......................................................................... 228
5.6主要參考文獻 ............................................................................. 229
第 6章分層樣條分位回歸模擬 ............................................................... 230
6.1引言 ........................................................................................... 230
6.2條件分位函式的非參數估計 ........................................................ 231
6.3回歸分位數模型的 Wald檢驗 ..................................................... 233
6.4條件分位分層模型及其在家庭用電量需求上的套用 ..................... 235
6.4.1第一步:家庭需求周期的時間序列模型 ............................ 235
6.4.2第二階段:需求周期的橫截面模型 ................................... 236
6.4.3條件分位數分層模型 ........................................................ 237
6.5數據的描述 ................................................................................. 238
6.5.1第一階段結果 .................................................................. 239
6.5.2第二階段結果 .................................................................. 240
6.6主要參考文獻 ............................................................................. 245
第 7章分層線性分位回歸模擬 ............................................................... 247
7.1引言 ........................................................................................... 247
7.2分層分位回歸模型 ...................................................................... 248
7.3 EQ算法 ..................................................................................... 249
7.3.1 Q步 ................................................................................ 249
7.3.2 E步 ................................................................................ 249
7.3.3疊代 ................................................................................ 250
7.3.4初始值選取的基本方法 .................................................... 250
7.4漸近性質 .................................................................................... 251
7.5真實數據分析舉例 ...................................................................... 252
7.5.1數據描述 ......................................................................... 252
7.5.2分位回歸 ......................................................................... 253
7.5.3兩水平分層分位回歸模型 ................................................. 254
7.5.4部分結果 ......................................................................... 256
7.6主要參考文獻 ............................................................................. 258
第 8章分層半參數分位回歸模擬 ............................................................ 259
8.1介紹 ........................................................................................... 259
8.2模型和估計 ................................................................................. 260
8.3漸近結果 .................................................................................... 266
8.4模擬分析 .................................................................................... 267
8.4.1誤差為多元柯西分布的層次線性模型 ............................... 267
8.4.2具有異方差的層次非參數分位回歸模型 ............................ 268
8.5實際數據例子 ............................................................................. 269
8.6主要參考文獻 ............................................................................. 273
第 9章複合分層線性分位回歸模擬 ........................................................ 274
9.1介紹 ........................................................................................... 274
9.2模型 ........................................................................................... 275
9.3估計 ........................................................................................... 276
9.4漸近性質 .................................................................................... 278
9.4.1誤差項為常態分配 ........................................................... 278
9.4.2誤差項分布非正態 ........................................................... 279
9.5模擬 ........................................................................................... 280
9.5.1誤差項正態 ...................................................................... 280
9.5.2誤差項為柯西分布 ........................................................... 281
9.5.3離群點 ............................................................................. 281
9.5.4選擇最優 K ...................................................................... 283
9.6實證部分 .................................................................................... 283
9.6.1多水平模型中的數據分析 ................................................. 283
9.6.2結果 ................................................................................ 285
9.7主要參考文獻 ............................................................................. 286
第 10章複合分層半參數分位回歸模擬 ................................................... 287
10.1介紹 ......................................................................................... 287
10.2模型 ......................................................................................... 288
10.3估計與算法 ............................................................................... 289
10.4漸近性質 .................................................................................. 290
10.5模擬研究 .................................................................................. 292
10.5.1對於不同的誤差項分布 ................................................. 292
10.5.2對於 Y存在異常值的情況 ............................................. 294
10.5.3函式及其導數估計 ........................................................ 294
10.6實際數據分析 ........................................................................... 296
10.7主要參考文獻 ........................................................................... 299
參考文獻 .................................................................................................... 301
索引 ........................................................................................................... 347