《如虎添翼!數據處理的SPSS和SAS EG實現(第2版)》是2016年5月電子工業出版社出版的圖書,作者是經管之家。
基本介紹
- 書名:如虎添翼!數據處理的SPSS和SAS EG實現(第2版)
- 作者:經管之家主編,徐筱剛常國珍丁亞軍編著
- ISBN:978-7-121-28532-5
- 頁數:280
- 定價:59.00元
- 出版社:電子工業出版社
- 出版時間:2016年5月
- 開本:16
內容簡介,編輯推薦,目錄,精彩節摘,作者簡介,前言,讀者對象,閱讀指南,目錄概述,本書特點,學習方法,致謝,
內容簡介
《如虎添翼!數據處理的SPSS和SAS EG實現(第2版)》作為SAS EG 和SPSS 數據處理比較的首本實戰中文教材,本書並非單純地逐個講解選單的操作,而是將數據分析的基本思路、流程融入到軟體的操作之中。每章通過設定商業背景,配以SAS EG 和SPSS 的實戰演練,講解形式更貼近讀者的實際工作,使讀者真正理解數據分析、數據處理的精髓。本書除講解軟體操作,還同時介紹了對應選單操作的SAS 程式語言實現過程,讀者可以根據自己的需要逐步學習,進而走進用SAS 程式處理數據的大門。
《如虎添翼!數據處理的SPSS和SAS EG實現(第2版)》適合那些想了解數據預處理,或者被數據的預處理占去大部分時間而想提高效率,或者囿於選單操作的局限性而希望通過程式實現的數據分析人員。
編輯推薦
“CDA數據分析師系列叢書”依照數據分析師規範化學習體系而定。滿足了CDA數據分析師等級認證學習的需要,也兼顧了大數據的熱點動態。
從策劃之初一直堅持以“讀者需求”為主線,結合企業實際案例和業務場景來談大數據思維和小數據分析。實現技術紮實,業務精通,策略接地氣!
目錄
第1 章軟體入門介紹.. 1
1.1 SAS EG 介紹.. 2
1.1.1 SAS EG 簡介. 2
1.1.2 SAS EG 的視窗及選單. 3
1.2 SPSS 介紹. 4
1.2.1 SPSS 簡介.. 4
1.2.2 SPSS 視窗及選單 5
1.3 數據挖掘的流程介紹. 9
1.3.1 KDD 介紹 9
1.3.2 CRISP-DM .. 10
1.3.3 SEMMA . 11
1.3.4 三種數據挖掘流程的比較.. 11
1.4 課後練習. 11
第2 章使用數據.. 12
2.1 通過SAS 邏輯庫訪問數據.. 13
2.1.1 商業背景.. 13
2.1.2 SAS 相關功能介紹.. 13
2.1.3 EG 選單解決方案. 14
2.1.4 SAS 程式實現. 15
2.1.5 SPSS 選單解決方案.. 16
2.2 理解SAS 與SPSS 數據集的定義 19
2.2.1 理解數據集的含義.. 19
2.2.2 商業背景.. 19
2.2.3 SAS 與SPSS 相關概念介紹.. 19
2.2.4 EG 選單解決方案. 25
2.2.4 SAS 程式實現. 26
2.2.5 SPSS 選單解決方案 28
2.3 導入其他格式的數據檔案 30
2.3.1 商業背景.. 30
2.3.2 SAS 相關功能介紹.. 30
2.3.3 EG 選單解決方案. 31
2.3.4 SAS 程式實現. 33
2.3.5 SPSS 選單解決方案 35
2.4 數據來源. 36
2.4.1 直接來源.. 36
2.4.2 間接來源.. 37
2.5 擴展閱讀. 37
2.6 課後練習. 38
第3 章探索性數據分析及數據的清理 39
3.1 探索性數據分析. 40
3.1.1 基本理論講解. 40
3.1.2 EG 選單解決方案. 40
3.1.3 SPSS 選單解決方案 44
3.2 數據清理介紹.. 54
3.2.1 商業背景.. 54
3.2.2 需要清理的數據類型. 55
3.3 類別變數的清理. 57
3.3.1 EG 選單解決方案. 57
3.3.2 SAS 程式實現. 61
3.3.3 SPSS 選單解決方案 62
3.4 數值型變數的清理 66
3.4.1 EG 選單解決方案. 66
3.4.2 SAS 程式實現. 70
3.4.3 SPSS 選單解決方案 71
3.5 常態分配的驗證. 75
3.5.1 商業背景.. 75
3.5.2 相關理論介紹. 75
3.5.3 EG 選單解決方案. 75
3.5.4 SAS 程式實現. 78
3.5.5 SPSS 選單解決方案 80
3.6 擴展閱讀. 83
3.7 課後練習. 84
第4 章數據的行處理. 85
4.1 數據篩選. 86
4.1.1 商業背景.. 86
4.1.2 相關理論介紹. 86
4.1.3 EG 選單解決方案. 86
4.1.4 SAS 程式實現. 88
4.1.5 SPSS 選單解決方案 93
4.2 排序與求秩 94
4.2.1 商業背景.. 94
4.2.2 理論介紹.. 95
4.2.3 EG 選單解決方案. 95
4.2.4 SAS 程式實現.. 101
4.2.5 SPSS 選單解決方案. 103
4.3 抽樣 105
4.3.1 商業背景 105
4.3.2 抽樣理論介紹.. 105
4.3.3 EG 選單解決方案.. 108
4.3.4 SAS 程式實現.. 110
4.3.5 SPSS 選單解決方案. 111
4.4 數據分組和匯總.. 111
4.4.1 商業背景 111
4.4.2 EG 選單解決方案.. 111
4.4.3 SAS 程式實現.. 113
4.4.4 SPSS 選單解決方案. 113
4.5 擴展閱讀.. 115
4.6 課後練習.. 115
第5 章數據的列處理.. 116
5.1 計算新變數. 117
5.1.1 商業背景 117
5.1.2 EG 選單解決方案.. 117
5.1.3 SPSS 選單解決方案. 120
5.2 拆分列.. 123
5.2.1 商業背景 123
5.2.2 EG 選單解決方案.. 123
5.2.3 SPSS 選單解決方案. 125
5.3 堆疊列.. 128
5.3.1 商業背景 128
5.3.2 EG 選單解決方案.. 129
5.3.3 SPSS 選單解決方案. 131
5.4 轉置列.. 136
5.4.1 商業背景 136
5.4.2 EG 選單解決方案.. 136
5.4.3 SAS 程式實現.. 138
5.4.4 SPSS 選單解決方案. 139
5.5 函式及運算符的使用 140
5.5.1 運算符. 140
5.5.2 SAS 函式 142
5.5.3 常用SPSS 函式與SAS 函式的對應關係 150
5.6 對列重編碼. 151
5.6.1 商業背景介紹.. 151
5.6.2 EG 選單解決方案.. 151
5.6.3 SAS 程式實現.. 155
5.6.4 SPSS 選單解決方案. 157
5.7 標準化.. 158
5.7.1 商業背景 158
5.7.2 相關理論介紹.. 159
5.7.3 EG 選單實現. 159
5.7.4 SAS 實現程式.. 161
5.7.5 SPSS 選單解決方案. 162
5.8 擴展閱讀.. 163
5.9 課後練習.. 163
第6 章數據集的操作.. 164
6.1 縱向連線.. 165
6.1.1 商業背景 165
6.1.2 相關的理論 165
6.1.3 EG 選單解決方案.. 165
6.1.4 SAS 程式實現.. 168
6.1.5 SPSS 選單解決方案. 172
6.2 橫向連線.. 174
6.2.1 商業背景 174
6.2.2 相關理論介紹.. 174
6.2.3 EG 選單解決方案.. 174
6.2.4 SAS 程式實現.. 178
6.2.5 SPSS 選單解決方案. 182
6.3 數據集的比較 183
6.3.1 商業背景介紹.. 183
6.3.2 相關理論介紹.. 183
6.3.3 EG 選單解決方案.. 183
6.3.4 SAS 程式實現.. 186
6.3.5 SPSS 選單解決方案. 187
6.4 創建格式.. 191
6.4.1 商業背景 191
6.4.2 相關理論介紹.. 191
6.4.3 EG 選單解決方案.. 193
6.4.4 SAS 程式實現.. 196
6.5 刪除數據集和格式. 197
6.5.1 EG 選單解決方案.. 197
6.5.2 SAS 程式實現.. 198
6.6 擴展閱讀.. 198
6.7 課後練習.. 199
第7 章數據的展示:圖形及報告的編制 200
7.1 數據可視化與圖表. 201
7.1.1 商業背景 201
7.1.2 相關理論介紹.. 201
7.1.3 EG 選單解決方案.. 204
7.1.4 SPSS 選單解決方案. 207
7.2 創建Listing 報表. 208
7.2.1 商業背景 208
7.2.2 相關理論介紹.. 208
7.2.3 EG 選單解決方案.. 209
7.2.4 SAS 程式實現.. 212
7.2.5 SPSS 選單解決方案. 213
7.3 擴展閱讀.. 216
7.4 課後練習.. 216
第8 章在SAS EG 中使用提示和條件處理.. 217
8.1 提示與宏變數 218
8.1.1 商業背景 218
8.1.2 相關的理論介紹. 218
8.1.3 EG 選單解決方案.. 219
8.2 條件處理.. 223
8.2.1 商業背景 223
8.2.2 EG 選單解決方案.. 223
8.3 擴展閱讀.. 227
第9 章在SAS EG 中使用程式.. 228
9.1 如何在SAS EG 中使用程式 229
9.2 SAS 程式 231
9.2.1 SAS 語言元素.. 231
9.2.2 DATA 步. 232
9.2.3 PROC 步. 233
9.2.4 SAS 的模組介紹(圖9-9). 234
9.3 擴展閱讀.. 234
第10 章SQL 語言基礎與MySQL 入門. 235
10.1 SQL 語言概況與MySQL 的安裝 236
10.1.1 SQL 語言概況 236
10.1.2 MySQL 安裝.. 237
10.1.3 MySQL 內創建資料庫. 238
10.2 查詢語句 238
10.2.1 簡單查詢並對數據過濾與排序.. 240
10.2.2 用表達式創建新列. 241
10.2.3 對列重編碼. 242
10.2.4 在查詢中對數據分組和匯總 243
10.2.5 表的橫向連線和子查詢.. 244
10.2.6 子查詢.. 250
10.2.7 集合操作語句 251
10.3 創建表或視圖. 252
10.3.1 創建表.. 252
10.3.2 創建視圖. 252
附錄A SAS EG 選單對應關係 254
附錄B SPSS 選單對應關係表 256
附錄C SAS 和SPSS 關鍵術語、命令對應關係 258
附錄D CDA 數據分析師致力於最好的數據分析人才建設. 261
參考文獻 265
精彩節摘
需要清理的數據類型
缺失值(Missing)
〈1〉缺失值的來源
在數據收集階段,沒有收集到相關的信息,原因可能是問卷收集者忘記詢問,或者礙於隱私原因,應答者沒有回答。也有可能不同資料庫之間對接時產生缺失。
〈2〉缺失值的處理方式
忽略觀測值,當數據量較大,而缺失值較少,忽略觀測值對分析結果影響不大時,可以採用這種方式;
人工填寫,找到缺失值的關係,通過人工調查得到並填寫缺失值,當缺失值量比較大時不適用;
使用一個全局常量來填寫缺失值;使用屬性的中心度量(如均值和中位數)來填充缺失值;
單獨作為一類。
〈3〉缺失值在SAS 中的表現方式
數值型的為“.”;
字元型的缺失值為空。
異常值
〈1〉異常值(Outlier)
異常值也稱為離群值、極端值(Extreme)。
明顯偏大或偏小的值,異常值不一定為錯誤值。
〈2〉識別異常值的常用方法有三種:
第一種方法是為每個變數設定一個正常的取值範圍,然後可以用簡單的探索性統計分析進行識別。例如,連續變數,藉助經驗法則2可以設定為±3 個標準差,對於類別變數或者順序變數,如果某一列別的頻數超過1%或者更多被認為是正常。本方法的優點是簡單快捷,缺點是只考慮了單個變數,沒有考慮變數之間的相互影響。
第二種方法建立在生成數據的過程中是否具有特定函式形式的模型,如假定服從線性模型,則利用線性模型擬合後,嚴重偏離模型的即為異常值。本方法的優點是考慮了變數之間的相互作用,缺點是需要有一個事先的假設,若假設錯誤,則有可能誤判正常的點為異常值。
第三種方法是用聚類算法將數據分為較小的子集,即簇或者群,只包含較小數量的觀測值的群,被認定為極端值。聚類算法根據統計距離指標將相似的觀測值分布在同一個簇。這個方法結合了以上兩個方法的優點,但是在數據量較大的情況下,聚類對系統的資源要求比較大。
〈3〉箱線圖(Box Plot)
箱線圖是對數據分布的一種常用表示方法。在一張圖上可以表示多種類型的統計量,通過圖形的形狀,可以了解數據的分布,異常值、極端值的情況等.
〈4〉異常值的處理方法
大多數情況下,被認定為極端值的觀測值或者被刪除,或者將其替換為某個更符合的值。但當被認定的異常值超過 10%以上時,異常值可能暗示其數據產生模式與其他數據不同,通過分析異常數據可以得到有用的信息,在對數據集進行建模或者分析時,應當分開分析
無效值(Invalid)
在錄入時導致的錯誤,比如性別在錄入時F 代表女,M 代表男,但是在錄入時出現了“F,M”的情況,這種情況就是無效值。
數據存在有效期,隨著周圍情況的變化,數據也會發生變化。例如,通過辦理會員卡方式得到的客戶住址、電話、信箱等,在數據使用前,一定要知道數據是否還有效。
無效值的處理方式可以通過查詢數據來源、重複收集等修改為有效值,也可以作為單獨的一類。
數據的重複值(Duplicate)
對於有些值,比如ID,根據數據表示的含義,一條記錄代表一個唯一的ID,但是在數據整合過程中出現了多個ID,對於重複觀測,一般的方式是確定好原因之後刪除。
作者簡介
經管之家:原人大經濟論壇,於2003年成立,致力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內最大的經濟、管理、金融、統計類的線上教育和諮詢網站,也是國內最活躍和最具影響力的經管類網路社區。
經管之家從2006年起在國內最早開展數據分析培訓,累計培訓學員數萬人。在大數據的趨勢背景下,創新“CDA數據分析師”品牌,致力於為社會各界數據分析愛好者提供最優質、最科學、最系統的數據分析教育。截至2016年3月已成功舉辦40多期系統培訓,培訓學員達3千餘名;CDA認證考試已成功舉辦三屆,報考人數上千人;中國數據分析師俱樂部(CDA CLUB),每周線下免費沙龍活動,已舉力40多期,累積會員2千餘名;中國數據分析師行業峰會(CDA Summit),一年兩屆,參會人數皆達2千餘名,在大數據領域影響力超前。“CDA數據分析師”隊伍在業界不斷壯大,對數據分析人才產業起到了巨大的推動作用。
徐筱剛,統計學碩士。擁有近十年的豐富的數據分析、數據挖掘實戰經驗,曾就職於諮詢公司、金融機構等多家著名企業,目前在一家金融機構擔任資深數據分析顧問,具有零售、電信、金融等多個數據挖掘的項目經驗和行業背景。
常國珍,北京大學商學博士,法學碩士。曾就職於亞信科技BOC部門、方正國際金融事業部、德勤管理諮詢信息技術系統諮詢部。SAS公司資深講師,Oracle大數據講師,多家金融信息部門和金融高科技公司數據挖掘技術顧問。從事徵信數據集市與信用風險建模、客戶價值提升等數據挖掘項目。擅長基於個體行為分析的價值發現和信用建模。研究方向為宏微觀接合研究,興趣點在於巨觀環境變化對微觀主體行為的經濟後果分析及價值投資。
丁亞軍,曲阜師範大學心理學碩士。現任職於南京上度市場諮詢數據分析總監,經管之家數據分析研究院數據分析師。主要從事市場調查,數據挖掘諮詢等市場客戶行為方面的數據分析工作,比較熟悉SAS、SPSS兩款軟體。
前言
感謝您選擇“CDA 數據分析師”Level I 學習系列叢書之《如虎添翼!數據處理的SPSS 和SASEG 實現(第2 版)》。
該叢書按照數據分析師規範化學習體系而定,對於一名初學者,應該先掌握必要的機率、統計理論基礎,包括描述性分析、推斷性分析、參數估計、假設檢驗、方差分析、回歸分析等內容,這在第一本書《從零進階!數據分析的統計基礎(第2 版)》中進行了專業詳細的講解。其次,數據分析需要按照標準流程進行,即數據的獲取、儲存、整理、清洗、歸約等系列數據處理技術,這在《如虎添翼!數據處理的SPSS 和SAS EG 實現(第2 版)》中利用SAS EG、SPSS 和編程技術進行了操作過程的詳解。最後,經過處理的數據需要根據業務問題,利用相關方法進行建模分析,得出結果,結果檢驗,繪製圖表並解讀數據,這在《胸有成竹!數據分析的SPSS 和SAS EG 進階(第2 版)》中進行了詳細的講解和操作分析。
CDA 數據分析師叢書整體風格是“理論>技術>套用”的一個學習過程,最終目的在於商業業務套用、職場數據分析,為欲從事於數據分析領域的各界人士提供了一個規範化數據分析師的學習體系。
讀者對象
作為叢書中的一本,本書上承基礎理論部分,下啟最終建模及案例分析。本書將關注點集中到數據的探索及預處理上,通過本書的學習將會加深對基礎理論部分的理解,為後續的建模分析做好數據上的準備。本書適合那些想了解數據預處理,或者被數據的預處理占去大部分時間而想提高效率,或者囿於選單操作的局限性而希望通過程式實現的數據分析人員。
閱讀指南
對數據分析師而言,合適的數據就像好的食材,對最終分析結果的影響不言而喻,但是在日常的工作中我們會經常遇到兩個問題,一是數據的質量不高,數據在收集、存儲等過程中不可避免地出現了髒數據、不一致數據、噪聲數據、重複數據等,如果我們不做任何預處理而直接輸入模型,就會出現“garbage in, garbage out”,即垃圾進垃圾出的情況。二是數據的形式不符,因為不同的模型,建模技術都有一定的前提假設,對數據的展現形式、分布狀態等都有較為嚴格的要求,如果不做預處理,模型出來的結果很可能與數據底層真正蘊含的規律背道而馳,對這種形式的數據盲目地進行建模分析,極容易誤人誤己。
數據預處理占到整個數據挖掘的60%~80%的時間,要想高效正確地完成數據的預處理工作其實不是一件容易的事情,本書作者根據在諮詢公司、電信及金融行業的多年經驗,將常用的數據預處理思路融入到SAS EG、SPSS 的選單操作中,並配以SAS 程式的講解,使得讀者在熟悉選單的同時,能用簡單的SAS 語言完成相對複雜的數據處理要求。
目錄概述
第1 章介紹了SAS EG、SPSS 軟體,並介紹了三種常見的數據分析流程;
第2 章介紹了如何通過多種方式使SAS EG、SPSS 可以輕鬆地訪問多種形式的外部數據;
第3 章介紹了探索性數據分析的基本思路,以及數據清理的相關理論,並分別演示了如何對類別數據、數值數據進行清理;
第4 章、第5 章介紹了如何對數據觀測進行篩選和排序、抽樣,以及數據的分組和匯總,如何對數據進行轉置,使用函式等;
第6 章介紹了如何在整體上對數據集進行操作,包括如何對數據集進行橫向連線和縱向連線,數據集之間的比較創建格式等;
第7 章講解了數據的可視化及圖表、報告的編制方法;
第8 章、第9 章介紹了如何在SAS EG 中運用提示、程式等來提高數據處理效率;
第10 章介紹了SQL 語言基礎和MySQL 入門。各部分相互獨立,讀者可以根據自己的需要選擇性閱讀。本書在第1 版的基礎上,新增了第10章,其他各章分別對應加入了SPSS 的操作。
本書特點
1.關於SAS EG 模組和SPSS 實現功能比較的首本實戰中文教材,通過比較,讀者能更快掌握這兩個套用最廣、功能最強大的統計軟體;
2.非單純的逐個講解選單,而是將數據分析的基本思路、流程融入到軟體的操作之中;
3.每一章節通過設定商業背景,基本理論講解的形式更貼近讀者的實際工作;
4.本書除講解軟體操作,還同時介紹了各種操作的SAS 語言的實現過程,讀者可以根據自己的基礎逐步學習,進而走進SAS 處理數據的大門。
學習方法
本書在編寫上力求從讀者的實戰角度出發,每章基本上分為五部分:
1.商業背景的介紹;
2.相關的理論介紹;
3.EG 軟體的解決方案;
4.程式實現,包含實現選單的程式的簡單必要功能,讀者可以輕鬆過渡到編程;
5.SPSS 選單解決方案;
6.擴展閱讀,對於想深入學習SAS 編程、數據準備的讀者,進一步介紹了相關的學習內容及方向。
讀者可以根據自己的需要來閱讀,本書的選單操作部分以SAS Eenterprise guide 5.1,SPSS22 為例進行示範,代碼部分以SAS 9.3 為基礎進行編寫,讀者在理解基本思路之後可以方便將其套用到其它版本之上。
致謝
本書由經管之家主編,徐筱剛、常國珍、丁亞軍負責編寫和完成統稿。
叢書從策劃到出版,傾注了電子工業出版社計算機圖書分社張慧敏、石倩、張童、王靜等多位編輯的心血,特在此表示衷心地感謝!
為保證叢書的質量,使其更貼近讀者,我們組織了經管之家的多位版主和高級會員參與了本書第1版和第2版的預讀工作,第1版是楊同梅、田佳、孫華楓、原瑜芬、葉陣雨、鄭贇、李劍宇、江翊雪、陳鵬、劉莎莎、丁亞軍;第2 版是關繼傑、殷子涵、種法輝。感謝各位預讀員的辛勤、耐心與細緻,使得本叢書能以更加完善的面目與各位讀者見面,特別感謝覃智勇圓滿地組織了第1 版的預讀工作和審校工作。
儘管作者們對書中的案例精益求精,但疏漏仍然在所難免,如果您發現書中的錯誤或某個案例有更好的解決方案,敬請登錄社區網站向作者反饋,我們將儘快在社區中給出回復,且在本書再次印刷時修正。
再次感謝您的支持!