《IBM SPSS數據分析實戰案例精粹(第2版)》是清華大學出版社2020年出版的圖書,作者是張文彤、鐘雲飛、王清華。
基本介紹
- 書名:IBM SPSS數據分析實戰案例精粹(第2版)
- 作者:張文彤、鐘雲飛、王清華
- 出版社:清華大學出版社
- 出版時間:2020年
內容簡介,作品目錄,
內容簡介
《IBM SPSS數據分析實戰案例精粹(第2版)》以IBM SPSS Statistics 24為工具,提供了醫療、金融、保險、汽車、快速消費品、市場研究、網際網路等多個行業的數據分析/挖掘案例,基於實戰需求,詳細講解了整個案例的完整分析過程,並將模型和軟體的介紹融於案例講解之中,使讀者在閱讀時能突破方法和工具的限制,真正聚集於對數據分析精髓的領悟。本書還一併提供案例數據的下載,讀者可完整重現全部的分析內容。 《IBM SPSS數據分析實戰案例精粹(第2版)》適合從初學者到專家各個級別的數據分析人士閱讀,包括需要提升實戰能力的數據分析專業人士,在市場行銷、金融、財務、人力資源管理中需要套用數據分析的人士,從事諮詢、科研等工作的專業人士,同時也可以作為各專業的本科和研究生學習數據分析套用的參考書。
作品目錄
第1部分SPSS數據分析基礎
第1章數據分析方法體系簡介 3
1.1數據分析方法論概述 3
1.1.1嚴格設計支持下的統計方法論 3
1.1.2半試驗研究支持下的統計方法論 4
1.1.3偏智慧型化、自動化分析的數據挖掘套用方法論 5
1.2統計軟體中的數據存儲格式 6
1.2.1二維數據表 7
1.2.2變數的存儲類型 7
1.2.3變數的測量尺度 8
1.3數據的統計描述與參數估計 9
1.3.1連續變數的統計描述 9
1.3.2連續變數的參數估計 12
1.3.3分類變數的統計描述和參數估計 14
1.3.4統計圖形體系 17
1.4常用假設檢驗方法 20
1.4.1假設檢驗的基本原理 21
1.4.2單變數假設檢驗方法 22
1.4.3雙變數假設檢驗方法 24
1.5多變數模型 28
1.5.1方差分析模型/一般線性模型 28
1.5.2廣義線性模型和混合線性模型 29
1.5.3回歸模型 30
1.5.4其他常見模型 33
1.6多元統計分析模型 35
1.6.1信息濃縮 35
1.6.2變數組之間內在關聯結構的探討 35
1.6.3對數據分類 36
1.6.4分析各元素間的關聯 38
1.7智慧型統計分析方法/數據挖掘方法 39
1.7.1樹模型 39
1.7.2神經網路 40
1.7.3支持向量機 41
1.7.4最近鄰元素分析 41
1.7.5關聯規則與序列分析 41
第2章顧客售後滿意度監測項目 43
2.1案例背景 43
2.2數據檔案的讀入與變數整理 44
2.2.1了解SPSS的基本操作界面 44
2.2.2進行數據準備 46
2.3問卷數據分析 50
2.3.1生成頻數表 50
2.3.2計算均值 51
2.3.3對復選題進行描述 52
2.4項目總結和討論 53
第3章會員購買習慣調查 54
3.1案例背景 54
3.1.1項目背景 54
3.1.2分析思路 56
3.2問卷錄入 56
3.2.1開放題的定義 56
3.2.2單選題的定義 57
3.2.3復選題的定義 57
3.3問卷質量校驗 59
3.3.1去除重複記錄 59
3.3.2發現異常值 61
3.3.3邏輯校驗 62
3.4問卷數據分析 64
3.4.1問卷加權 64
3.4.2業務分析 68
3.5項目總結和討論 69
第4章基於背景資料的病例對照匹配 71
4.1案例背景 71
4.2數據清理 72
4.2.1數據錯誤的發現 72
4.2.2數據錯誤的更正 76
4.3數據理解 77
4.4利用檔案合併功能進行案例匹配 80
4.5利用Python外掛程式直接進行匹配 81
4.5.1傾向得分匹配 82
4.5.2個案控制匹配 84
4.6項目總結和討論 86
第5章北京地區霧霾變化趨勢分析 87
5.1案例背景 87
5.1.1項目背景 87
5.1.2分析思路 88
5.2數據準備 89
5.2.1讀入csv格式的數據檔案 89
5.2.2合併數據檔案 91
5.2.3篩選所需數據 93
5.3數據理解 94
5.3.1數據分布狀況 94
5.3.2缺失值分布狀況 95
5.3.3考察逐月數據趨勢 96
5.4霧霾變化基本趨勢的分析 97
5.4.1整體平均水平的比較 97
5.4.2重點考察秋冬季的數據 99
5.4.3進一步分析爆表天數變化趨勢 100
5.5進一步展現歷史波動趨勢 101
5.5.1逐月平均數據的提取 101
5.5.2建模前的數據準備 102
5.5.3用季節分解提取長期趨勢 104
5.6項目總結和討論 107
第2部分影響因素髮現與數值預測
第6章優酪乳飲料新產品口味測試研究 111
6.1案例背景 111
6.1.1研究項目概況 111
6.1.2分析思路/商業理解 112
6.2數據理解 113
6.2.1研究設計框架複查 113
6.2.2均值的列表描述 114
6.2.3均值的圖形描述 115
6.3用方差分析模型考察同一城市內不同品牌的評分差異 116
6.3.1單因素方差分析模型簡介 117
6.3.2對品牌的作用進行總體檢驗 118
6.3.3組間兩兩比較 120
6.3.4對模型適用條件的考察:方差齊性檢驗 122
6.4用兩因素方差分析模型進行分析 123
6.4.1兩因素方差分析模型簡介 123
6.4.2擬合包括互動項的飽和模型 125
6.4.3擬合只包含主效應的模型 125
6.4.4組間兩兩比較 127
6.4.5嘗試將城市指定為隨機因素進行分析 128
6.5分析結論與討論 130
6.5.1分析結論 130
6.5.2Benchmark:用還是不用 131
第7章偏態分布的激素水平影響因素分析 132
7.1案例背景 132
7.1.1研究項目概況 132
7.1.2分析思路/商業理解 133
7.2數據理解 133
7.2.1單變數描述 133
7.2.2變數關聯探索 136
7.3對因變數變數變換後建模分析 141
7.3.1常見的變數變換方法 141
7.3.2本案例的具體操作 142
7.4秩變換分析 145
7.5利用Cox模型進行分析 146
7.5.1Cox回歸模型的基本原理 147
7.5.2本案例的具體操作 148
7.6項目總結與討論 150
7.6.1分析結論 150
7.6.2八仙過海,誰為獨尊 150
第8章某車企汽車年銷量預測 152
8.1案例背景 152
8.1.1研究項目概況 152
8.1.2分析思路/商業理解 153
8.2數據理解 154
8.3變數變換後的線性回歸 156
8.3.1線性回歸模型簡介 156
8.3.2變數變換後擬合線性回歸模型 158
8.3.3模型擬合效果的判斷 160
8.3.4存儲預測值和區間估計值 162
8.4曲線擬合 163
8.4.1用曲線估計過程同時擬合多個曲線模型 163
8.4.2模型擬合效果的判斷 166
8.4.3模型的預測 167
8.5利用非線性回歸進行擬合 168
8.5.1模型簡介 168
8.5.2構建分段回歸模型 169
8.5.3不同模型效果的比較 171
8.6項目總結與討論 172
8.6.1分析結論 172
8.6.2行走在理想與現實之間 173
第9章腦外傷急救後遲發性顱腦損傷影響因素分析 174
9.1案例背景 174
9.1.1研究項目概況 174
9.1.2分析思路/商業理解 175
9.2數據理解 176
9.2.1變數關聯的圖表描述 176
9.2.2變數關聯的單變數檢驗 178
9.3構建二分類Logistic回歸模型 181
9.3.1模型簡介 181
9.3.2初步嘗試建模 183
9.3.3構建最終模型 188
9.4利用樹模型發現互動項 189
9.4.1模型簡介 190
9.4.2進行樹模型分析 192
9.5使用廣義線性過程進行分析 195
9.5.1模型簡介 195
9.5.2構建僅包括主效應的模型 196
9.5.3在模型中加入互動項 199
9.6項目總結與討論 200
9.6.1分析結論 200
9.6.2尺有所短,寸有所長 201
第10章中國消費者信心指數影響因素分析 202
10.1案例背景 202
10.1.1項目背景 202
10.1.2項目問卷 203
10.1.3分析思路/商業理解 206
10.2數據理解 207
10.2.1圖形考察時間、地域對信心指數的影響 207
10.2.2圖形考察性別、職業、婚姻狀況等對信心指數的影響 209
10.2.3圖形考察年齡對信心指數的影響 210
10.3標準GLM框架下的建模分析 211
10.3.1建立總模型 211
10.3.2兩兩比較的結果 214
10.4多元方差分析模型的結果 215
10.4.1模型簡介 216
10.4.2擬合多元方差分析模型 217
10.5最優尺度回歸 223
10.5.1方法簡介 224
10.5.2利用最優尺度回歸進行分析 225
10.6多水平模型框架下的建模分析 228
10.6.1模型簡介 229
10.6.2針對時間擬合多水平模型 230
10.7項目總結與討論 235
10.7.1分析結論 235
10.7.2什麼時候應當運用複雜模型來建模 236
第3部分信息濃縮、分類與感知圖呈現
第11章探討消費者購買保健品的動機 239
11.1案例背景 239
11.1.1研究項目概況 239
11.1.2分析思路/商業理解 241
11.2數據理解 241
11.2.1單變數描述 241
11.2.2變數關聯探索 242
11.3利用因子分析進行信息濃縮 243
11.3.1模型簡介 243
11.3.2因子分析的具體操作 245
11.4基於因子分析結果進行市場區隔 251
11.4.1不同婚姻狀況受訪者的差異 251
11.4.2不同品牌保健品使用者的因子偏好差異 253
11.5項目總結與討論 255
11.5.1研究結論 255
11.5.2因子分析的結果就是一切嗎 255
第12章全國房地產價格指數的估算 257
12.1案例背景 257
12.1.1研究項目概況 257
12.1.2分析思路 258
12.2計算平均值進行回歸預測 259
12.2.1計算平均值 259
12.2.2進行回歸估計 259
12.2.3導出模型代碼用於預測 260
12.3提取主成分進行回歸預測 261
12.3.1提取主成分 261
12.3.2進行主成分回歸預測 263
12.4利用自動線性建模過程預測 265
12.5項目總結與討論 266
第13章1988年漢城奧運會男子十項全能成績分析 267
13.1案例背景 267
13.1.1項目概況 267
13.1.2分析思路/商業理解 268
13.2數據理解 269
13.2.1單變數描述 269
13.2.2變數關聯探索 269
13.2.3嘗試初步建模 270
13.3利用因子分析進行信息濃縮 272
13.3.1初步分析 272
13.3.2因子旋轉 274
13.3.3繼續尋找更好的分析結果 276
13.3.4結果存儲/發布 277
13.4主成分回歸 278
13.5將主成分回歸方程還原回原始變數的形式 280
13.6項目總結與討論 280
13.6.1研究結論 280
13.6.2因子的方差解釋比例有實際意義嗎 281
第14章生活形態問卷的信效度分析及改進 282
14.1案例背景 282
14.1.1項目概況 282
14.1.2分析思路/商業理解 284
14.2問卷的效度分析 285
14.2.1信效度理論簡介 285
14.2.2用因子分析考察問卷效度 286
14.3問卷的信度分析與最佳化 291
14.3.1用極端組比較方式發現弱關聯題項 291
14.3.2信度分析 293
14.4項目總結與討論 295
第15章打敗SARS 296
15.1案例背景 296
15.1.1研究項目概況 296
15.1.2分析思路/商業理解 299
15.2數據理解與數據準備 300
15.2.1消費者關注的信息 300
15.2.2突發事件保險產品購買傾向 302
15.2.3未來消費者生活方式的變化 304
15.3“非典”信息關注傾向的多維偏好分析 306
15.3.1模型簡介 306
15.3.2多維偏好分析的SPSS操作界面介紹 307
15.3.3嘗試初步建模 309
15.3.4引入更多的背景變數 312
15.4突發事件險種購買傾向的多重對應分析 315
15.4.1模型簡介 315
15.4.2簡單對應分析 317
15.4.3多重對應分析 321
15.5“非典”對未來生活方式的影響 326
15.5.1採用多維偏好分析進行初步探索 326
15.5.2換用因子分析進行信息匯總 328
15.6項目總結與討論 332
15.6.1研究結論 332
15.6.2對多維偏好分析等信息濃縮方法本質的討論 333
第16章住院費用影響因素挖掘 336
16.1案例背景 336
16.1.1項目概況 336
16.1.2分析思路/商業理解 339
16.2數據理解與數據準備 340
16.2.1費用數據分布 341
16.2.2變數合併 342
16.2.3極端值清理 343
16.2.4病種分布考察 343
16.2.5變數變換 344
16.3採用聚類分析尋找費用類型 345
16.3.1考慮用因子分析匯總信息 345
16.3.2聚類分析方法簡介 347
16.3.3對費用數據進行聚類分析 349
16.4住院費用影響因素的神經網路分析 352
16.4.1模型簡介 353
16.4.2初步嘗試用神經網路建模 355
16.4.3對年齡離散化後重新建模 360
16.4.4構建雙因變數神經網路 362
16.4.5進一步尋找更清晰的結果解釋 364
16.5不同療法療效與費用比較的神經網路分析 365
16.5.1生成工作用數據集 365
16.5.2進行神經網路的建模預測 367
16.5.3模型預測值的比較 369
16.6項目總結與討論 370
16.6.1研究結論 370
16.6.2如何在數據挖掘方法體系和經典方法體系之間進行取捨 372
附錄Python外掛程式和R外掛程式的安裝方法 374
參考文獻 377