《SAS統計分析與數據挖掘》是2012年電子工業出版社出版的圖書,作者是謝龍漢。本書基於SAS 9.2版本編寫,從SAS編程出發,用案例形式介紹SAS數據挖掘在各領域的廣泛套用。
基本介紹
- 書名:SAS統計分析與數據挖掘
- 作者:謝龍漢
- ISBN:9787121148880
- 頁數:468頁
- 出版社:電子工業出版社
- 出版時間:2012年1月1日
內容簡介,圖書特色,目 錄,
內容簡介
全書分為SAS基礎篇、提高篇及套用篇,每章均給出大量分析案例。具體內容為SAS軟體與數據挖掘簡介,SAS編程基礎,圖形與報表製作,描述性分析,假設檢驗,回歸分析,方差分析與因子分析,相關分析與對應分析,判別分析,聚類分析,生存分析,時間序列分析,以及SAS在具體數據挖掘項目中的套用等。
本書最大特點是拋棄了其他同類書籍中只說理論、缺少案例分析的弊病,全書給出大量數據挖掘分析案例,為讀者展示SAS在數據整合、數據挖掘、商業智慧型、金融數據分析、金融風險管理等項目中的強大套用技術。
配套光碟中有實例的操作視頻以及相關源程式檔案。
圖書特色
(1)實例豐富,經典實用。本書作者為某跨國金融分析公司分析員,具有豐富的統計分析、數據挖掘方面研究經驗。
(2)本書實例全部配有操作視頻,詳細的講解,此乃比同類SAS圖書一大優點,幫助讀者提高學習效率和工作效率。
目 錄
第1章 數據挖掘概述 1
1.1 數據挖掘簡介 1
1.1.1 數據挖掘的含義 1
1.1.2 數據挖掘的起源 2
1.1.3 統計學與數據挖掘 2
1.1.4 數據挖掘相關的一些問題 5
1.2 數據挖掘用途 10
1.3 數據挖掘過程 11
1.3.1 數據挖掘用戶 11
1.3.2 數據挖掘工具 14
1.3.3 數據挖掘步驟 14
1.4 SAS——數據挖掘領域的領導者 15
1.5 SAS在各種商業解決方案中的套用 16
1.5.1 SAS數據挖掘技術的實現 17
1.5.2 SAS在商業領域中的套用 18
第2章 SAS模組概述 20
2.1 SAS簡介 20
2.1.1 SAS的設計思想 21
2.1.2 SAS的功能 21
2.1.3 SAS的特點 22
2.2 SAS軟體安裝、啟動與退出 22
2.2.1 SAS軟體的安裝 22
2.2.2 SAS軟體的啟動 22
2.2.3 SAS軟體的退出 23
2.3 SAS界面 24
2.3.1 Explorer視窗 25
2.3.2 Editor視窗 25
2.3.3 Results視窗 26
2.3.4 Log視窗 27
2.3.5 Output視窗 27
2.4 SAS模組介紹 28
2.4.1 SAS/BASE模組 30
2.4.2 SAS/ANALYSIS模組 31
2.4.3 SAS/ASSIST模組 32
2.4.4 SAS/INSIGHT模組 34
2.4.5 SAS/EM模組 36
第3章 SAS程式設計基礎 38
3.1 SAS編程基礎 38
3.1.1 SAS語言基礎 39
3.1.2 SAS語言構成 43
3.1.3 SAS結構化編程語句 46
3.1.4 SAS程式編寫規則 48
3.2 SAS程式的數據步 49
3.2.1 DATA語句 49
3.2.2 INPUT語句 50
3.2.3 CARDS與CARDS4語句 50
3.2.4 INFILE語句 51
3.2.5 SET語句 52
3.2.6 MERGE語句 53
3.3 SAS數據步循環與轉移控制 54
3.3.1 IF語句 54
3.3.2 SELECT語句 55
3.3.3 DO語句 56
3.3.4 GO TO語句 58
3.3.5 RETURN語句 59
3.3.6 CONTINUE語句與LEAVE
語句 59
3.3.7 如何跳出選擇結構和循環體 59
3.4 SAS程式的過程步 60
3.4.1 SAS過程步用法 60
3.4.2 VAR與MODLE語句 60
3.4.3 ID與WHERE語句 61
3.4.4 BY與CLASS語句 61
3.4.5 OUTPUT語句 62
3.4.6 FERQ與WEIGHT語句 62
3.4.7 LABEL與FORMAT語句 62
3.5 SAS函式 63
3.5.1 數學函式 63
3.5.2 數組函式 64
3.5.3 日期時間函式 64
3.5.4 機率分布函式 65
3.5.5 分位數函式 66
3.5.6 樣本統計函式 66
3.5.7 隨機函式 67
第4章 數據預處理 69
4.1 數據輸入 69
4.1.1 原始數據的讀取 70
4.1.2 數據導入 71
4.2 數據整理 73
4.2.1 數據集選項 73
4.2.2 整理數據集 74
4.2.3 缺失值處理 84
4.2.4 UPDATE語句更新數據集 86
4.2.5 數據清洗 87
4.3 數據步變數控制 92
4.3.1 ARRAY語句 92
4.3.2 INFORMAT語句與FORMAT
語句 93
4.3.3 LABEL語句 94
4.3.4 ATTRIB語句 96
4.3.5 DROP語句與KEEP語句 97
4.3.6 RENAME語句與RETAIN
語句 97
4.4 數據修改與選擇 98
4.4.1 賦值語句 98
4.4.2 累加語句 98
4.4.3 DELETE語句與LOSTCARD
語句 99
4.4.4 STOP語句與ABORT語句 100
4.4.5 WHERE語句 101
4.4.6 REMOVE語句與REPLACE
語句 101
4.4.7 MISSING語句 102
第5章 數據匯總與報表製作 103
5.1 使用過程PRINT製作報表 103
5.1.1 基本用法 104
實例5-1 PROC PRINT操作
實例 104
5.1.2 使用中文列標題 106
實例5-2 修改標題實例 107
5.1.3 標題和腳註 107
實例5-3 修改標題實例 107
5.1.4 用BY語句分組處理 108
5.2 使用過程TABULATE製作匯
總報表 109
實例5-4 匯總報表實例 110
實例5-5 繪製統計量表格 112
第6章 SAS繪圖 114
6.1 GPLOT過程 114
實例6-1 GPLOT過程繪製圖形
編程操作 115
6.2 GCHART過程 115
實例6-2 GCHART過程繪製
條形圖 116
實例6-3 GCHART過程繪製GDP
數據的BLOCK圖形 117
6.3 G3D過程 118
實例6-4 繪製二維常態分配曲面
圖形 118
實例6-5 繪製
函式的三維圖形 120
第7章 數據描述 123
7.1 統計圖 124
7.1.1 直方圖 124
實例7-1 GCHART過程繪製
直方圖 124
7.1.2 條形圖 126
實例7-2 GCHART過程繪製
條形圖 126
7.1.3 散點圖 127
實例7-3 GPLOT過程繪製散點圖 128
7.1.4 餅圖 129
實例7-4 GCHART過程繪製餅圖 129
7.1.5 盒形圖 130
實例7-5 BOXPLOT過程繪製
盒形圖 131
7.1.6 莖葉圖 132
實例7-6 UNIVARIATE過程繪製
莖葉圖 132
7.1.7 時間序列圖 133
實例7-7 TIMEPLOT過程繪製
時間序列圖 133
7.2 統計量 135
7.2.1 集中趨勢 135
實例7-8 利用MEAN函式求
平均數 136
7.2.2 離散程度 137
實例7-9 利用函式VAR和STD
求方差和標準差 139
7.2.3 分布狀態 141
實例7-10 利用SKEWNESS 和
KURTOSIS函式求偏度
和峰度 142
7.3 數據分布 143
實例7-11 SAS中的部分機率分布
函式的套用 144
第8章 描述性統計分析 146
8.1 SAS編程進行統計分析 146
8.1.1 基本概念 147
8.1.2 FREQ過程 149
實例8-1 頻數表的生成實例 151
實例8-2 繪製實驗數據表格 153
8.1.3 MEANS過程 154
實例8-3 求平均增長率 156
實例8-4 利用MEANS過程求各種
統計量 156
8.1.4 UNIVARIATE過程 159
實例8-5 利用UNIVARIATE過程
求各種統計量 160
實例8-6 求樣本的極差、上四分位
數和下四分位數 161
8.1.5 TABULATE過程 162
實例8-7 製作數據表格 162
8.2 其他描述性統計過程 165
8.2.1 產生描述性統計值的輸出
檔案:PROC SUMMARY 165
實例8-8 SUMMARY語句實例 165
8.2.2 統計值的圖形表示:PROC
CHART 166
實例8-9 繪製數據分布圖形 168
實例8-10 利用CHART過程的
VBAR及HBAR命令
繪製條形圖 169
8.2.3 一般製圖:PROC PLOT 171
實例8-11 PLOT過程繪製圖形 172
第9章 ANALYST模組 173
9.1 ANALYST模組概述 173
9.1.1 ANALYST模組簡介 173
9.1.2 ANALYST選單介紹 177
9.2 數據集的視窗操作 177
9.2.1 數據集輸入 177
9.2.2 數據表修改 178
9.2.3 數據保存 180
9.3 繪製統計圖 180
9.3.1 條形圖 180
9.3.2 餅圖 181
9.3.3 散點圖 183
9.4 統計分析 184
第10章 參數估計與假設檢驗 187
10.1 參數估計和假設檢驗概述 187
10.1.1 參數估計 187
10.1.2 假設檢驗 189
10.2 假設檢驗的SAS過程 190
10.2.1 UNIVARIATE過程 190
10.2.2 MEANS過程 191
10.2.3 TTEST過程 192
10.3 不同類型的均值和方差的檢驗 192
10.3.1 單變數均值t檢驗 192
實例10-1 TTEST過程的實例數據
分析 193
實例10-2 總體均值檢驗 194
10.3.2 樣本均數與總體均數差異的
t檢驗 194
實例10-3 均值的顯著性差別
檢驗 195
10.3.3 配對資料的t檢驗 195
實例10-4 乳酸飲料實驗數據的
配對t檢驗 195
實例10-5 均值有無差異的檢驗 197
10.3.4 兩樣本均數比較的t檢驗 198
實例10-6 均數差別的顯著性
檢驗 198
實例10-7 數據比例的顯著性
檢驗 198
10.4 正態性檢驗 200
實例10-8 樣本數據的正態性檢驗
實例1 200
實例10-9 樣本數據的正態性檢驗
實例2 201
第11章 方差分析與協方差分析 204
11.1 方差分析的基本原理 204
11.1.1 自由度與平方和分解 206
11.1.2 F檢驗 207
11.2 單因素方差分析 208
11.2.1 單因素方差分析步驟 208
11.2.2 判斷與結論 210
11.2.3 ANOVA過程 210
實例11-1 分析飼料營養效果是否
有明顯差異 211
實例11-2 分析不同實驗室試製的
紙張光滑度有無差異 212
實例11-3 研究6種棉花種子包衣劑
對棉花生長的影響 214
11.3 雙因素方差分析 216
11.3.1 只考慮主效應的多因素
方差分析 217
11.3.2 存在互動效應的多因素
方差分析 219
實例11-4 某藥物對某癌細胞株增殖
影響的研究 221
11.4 協方差分析 222
實例11-5 分析三種飼料的營養價值
之間有無顯著性差別 225
第12章 回歸分析 230
12.1 線性回歸 230
12.1.1 線性回歸模型 231
12.1.2 回歸方程的顯著性檢驗 231
12.1.3 預測問題 233
12.2 REG過程 234
實例12-1 分析我國內地可支配
收入和消費性支出之間
的關係 237
實例12-2 利用多元線性回歸分析
學生肺活量及有關變數
的關係 240
12.3 多項式回歸 243
12.3.1 曲線回歸的基本原理 243
12.3.2 RSREG過程 243
實例12-3 確定最佳經濟用肥量的
多項式回歸模型 244
12.4 逐步回歸 246
實例12-4 人體血糖、胰島素及生
長素的多元線性回歸
關係 246
12.5 LOGISTIC回歸 248
12.5.1 邏輯回歸模型概述 249
12.5.2 LOGISTIC過程 250
實例12-5 對照研究單因素兩暴露
水平及多暴露水平資料
的統計分析 251
12.6 非線性回歸 255
12.6.1 非線性回歸分析的基本
原理 255
12.6.2 NLIN過程 256
實例12-6 酵母種群增長的擬合
生長模型 257
實例12-7 最佳生長模型的LOGISTIC
擬合 259
第13章 主成分分析與因子分析 262
13.1 主成分分析 262
13.1.1 主成分分析的數學原理 263
13.1.2 用PRINCOMP過程進行
主成分分析 264
實例13-1 我國2006年經濟發展
情況的主成分分析 265
13.2 因子分析 270
13.2.1 因子分析的基本原理 271
13.2.2 因子分析的基本步驟和
過程 273
13.2.3 利用FACTOR過程進行
因子分析 274
實例13-2 中國房地產經濟區的
研究分析 276
13.3 主成分分析和因子分析的區別 282
第14章 相關分析和對應分析 284
14.1 相關分析 284
14.1.1 相關關係 285
14.1.2 相關圖形和相關係數 286
14.1.3 簡單相關分析的CORR
過程 287
實例14-1 簡單相關係數的計算 288
14.2 典型相關分析 290
14.2.1 典型相關分析的基本原理 290
14.2.2 典型相關分析的CANCORR
過程 291
實例14-2 城市競爭力與基礎設施的
典型相關分析 292
實例14-3 城鎮居民收入和支出的
典型相關分析 298
14.3 對應分析 305
14.3.1 對應分析的基本原理 306
14.3.2 對應分析的CORRESP
過程 307
實例14-4 對應分析在市場區隔中
的套用 308
第15章 判別分析 313
15.1 判別分析的基本原理 313
15.1.1 判別分析的含義 314
15.1.2 判別分析的數學模型與判別
方法 315
15.2 判別分析的SAS過程 317
15.2.1 DISCRIM過程 317
15.2.2 CANDISC過程 319
15.2.3 STEPDISC過程 319
15.3 綜合實例 321
實例15-1 國內各省市農民家庭
收支情況的研究 321
實例15-2 基於判別分析法的上市
公司財務分析研究 328
第16章 聚類分析 337
16.1 聚類分析的基本原理 337
16.1.1 聚類的數學原理 338
16.1.2 SAS中的聚類過程 344
16.2 聚類分析的步驟和過程 345
16.2.1 CLUSTER過程(系統聚類
過程) 345
實例16-1 中國城鎮居民消費結構的
聚類分析 346
16.2.2 FASTCLUS過程(快速聚類
過程) 351
實例16-2 聚類分析在客戶定位中
的套用研究 352
16.2.3 VARCLUS過程(變數聚類
過程) 355
實例16-3 變數聚類在多指標系統
評價中的套用 357
16.2.4 TREE過程(畫樹狀圖
過程) 360
實例16-4 對全球各國信息設施的
發展情況進行聚類分析
研究 362
第17章 生存分析 365
17.1 生存分析基本概述 365
17.1.1 生存分析的基本概念 365
17.1.2 生存資料的特點 367
17.1.3 生存分析方法 368
17.2 生存分析的LIFETEST過程 369
實例17-1 生存分析在醫學課題研
究中的套用 370
17.3 COX模型回歸分析 373
17.3.1 COX回歸模型 373
17.3.2 PHREG過程 375
實例17-2 COX模型的分析套用 376
第18章 時間序列分析 380
18.1 時間序列概述 380
18.1.1 時間序列的組成部分 381
18.1.2 時間序列的數學模型 381
18.1.3 時間序列的因素分析 382
18.1.4 隨機時間序列分析 386
18.1.5 時間序列的分析步驟 388
18.2 SAS的ARIMA過程 388
18.3 綜合實例 389
實例18-1 化工生產數據的時間
序列分析 389
實例18-2 國內金融及保險業每人
每月平均薪資趨勢
分析 394
實例18-3 運用ARIMA過程對上證
指數日線數據進行擬合
分析 406
第19章 SAS數據挖掘套用 410
19.1 SAS數據挖掘 410
19.2 SAS數據挖掘方法論——
SEMMA 414
19.2.1 數據取樣 414
19.2.2 數據探索 414
19.2.3 問題明確化、數據調整和
技術選擇 415
19.2.4 模型研發 416
19.2.5 模型評估 416
19.3 數據挖掘套件SAS/EM 417
實例19-1 SAS/EM聚類分析 418
實例19-2 購物籃問題分析 423
第20章 SAS在數據預測中的套用 427
20.1 數據預測簡介 427
20.1.1 數據預測 427
20.1.2 SAS中的預測分析模組 430
20.2 數據預測案例分析 430
實例20-1 國民生產總值的預測 430
實例20-2 SAS/Time Series
Forecasting System
模組套用 435
第21章 SAS在金融數據分析中的
套用 439
21.1 現金流貼現分析 439
實例21-1 現金流貼現的計算 440
實例21-2 企業現金流的貼現
計算 441
實例21-3 利用金融函式compound
計算複利率 442
21.2 股票分類 442
實例21-4 利用CLUSTER過程對
股票進行聚類分析 443
21.3 資本資產定價模型(CAPM
模型) 448
實例21-5 CAPM模型實例研究 449
21.4 B-S模型期權定價 454
實例21-6 B-S期權定價的SAS
程式實現 457