內容簡介
《如虎添翼!數據處理的SAS EG實現》作為SAS EG模組的首本中文教材,並非單純的逐個講解選單的操作,而是將數據分析的基本思路、流程融入到軟體的操作之中。每章通過設定商業背景,配以SAS理論的講解形式更貼近讀者的實際工作,使讀者真正理解數據分析、數據處理的精髓。本書除講解軟體操作,還同時介紹了對應選單操作的SAS程式語言實現過程,讀者可以根據自己的需要逐步學習,進而走進用SAS程式處理數據的大門。
《如虎添翼!數據處理的SAS EG實現》適合那些想了解數據預處理,或者被數據的預處理占去大部分時間而想提高效率,或者囿於選單操作的局限性而希望通過程式實現的數據分析人員。
CDA數據分析師系列叢書
如虎添翼!數據處理的SAS EG實現(CDA數據分析師系列叢書,首套寫給專業數據分析師的叢書)
編輯推薦
CDA數據分析師系列叢書按照數據分析師規範化學習體系而定,對於一名初學者,應該先掌握必要的機率、統計理論基礎,包括描述性分析,推斷性分析,參數估計,假設檢驗,方差分析,回歸分析等內容,這在第一本書《從零進階!數據分析的統計基礎》中進行了專業詳細的講解。其次,數據分析需要按照標準流程進行,即數據的獲取、儲存、整理、清洗、歸約等系列數據處理技術,這在《如虎添翼!數據處理的SAS EG實現》中利用SAS EG和編程技術進行了操作過程的詳解。最後,經過處理的數據需要根據業務問題,利用相關方法進行建模分析,得出結果,結果檢驗,繪製圖表並解讀數據,這在《胸有成竹!數據分析的SAS EG進階》中進行了詳細的講解和操作分析。
CDA數據分析師叢書整體風格是“理論>技術>套用”的一個學習過程,最終目的在於商業業務套用、職場數據分析,為欲從事於數據分析領域的各界人士提供了一個規範化數據分析師的學習體系。
圖書目錄
第1章 軟體入門介紹 1
1.1 SAS EG介紹 2
1.1.1 SAS EG簡介 2
1.1.2 SAS EG的視窗及選單 3
1.2 數據挖掘的流程介紹 4
1.2.1 KDD介紹 4
1.2.2 CRISP-DM 5
1.2.3 SEMMA 5
1.2.4 三種數據挖掘流程的比較 6
第2章 使用數據 7
2.1 通過SAS邏輯庫訪問數據 8
2.1.1 商業背景 8
2.1.2 SAS相關功能介紹 8
2.1.3 EG選單解決方案 9
2.1.4 程式實現 10
2.2 理解SAS數據集的定義 11
2.2.1 理解SAS數據集的含義 11
2.2.2 商業背景 11
2.2.3 SAS相關功能介紹 11
2.2.3 EG選單解決方案 15
2.2.4 程式實現 17
2.3 導入其他格式的數據檔案 18
2.3.1 商業背景 18
2.3.2 SAS相關功能介紹 18
2.3.3 EG選單解決方案 18
2.3.4 程式實現 21
2.4 擴展閱讀 22
第3章 探索性數據分析及數據的清理 23
3.1 探索性數據分析 24
3.1.1 基本理論講解 24
3.1.2 EG選單解決方案 24
3.2 數據清理介紹 28
3.2.1 商業背景 28
3.2.2 需要清理的數據類型 28
3.3 類別變數的清理 30
3.3.1 EG選單解決方案 30
3.3.2 類別變數的清理 34
3.4.1 EG選單解決方案 35
3.4.2 程式實現 38
3.5 常態分配的驗證 40
3.5.1 商業背景 40
3.5.2 相關理論介紹 40
3.5.3 EG選單解決方案 40
3.5.4 程式實現 43
3.6 擴展閱讀 45
第4章 數據的行處理 46
4.1 數據篩選 47
4.1.1 商業背景 47
4.1.2 相關理論介紹 47
4.1.3 EG選單解決方案 47
4.1.4 程式實現 49
4.2 排序與求秩 54
4.2.1 商業背景 54
4.2.2 理論介紹 54
4.2.3 選單解決方案 55
4.2.4 EG選單解決方案-求秩 57
4.2.5 程式實現 61
4.3 抽樣 62
4.3.1 商業背景 62
4.3.2 抽樣理論介紹 62
4.3.3 EG 選單解決方案 64
4.3.4 程式實現 66
4.4 數據分組和匯總 67
4.4.1 商業背景 67
4.4.2 EG選單解決方案 67
4.4.3 程式實現 69
4.5 擴展閱讀 69
第5章 數據的列處理 70
5.1 計算新變數 71
5.1.1 商業背景 71
5.1.2 EG選單解決方案 71
5.2 拆分列 74
5.2.1 商業背景 74
5.2.2 EG選單解決方案 74
5.3 堆疊列 76
5.3.1 商業背景 76
5.3.2 EG選單解決方案 76
5.4 轉置列 79
5.4.1 商業背景 79
5.4.2 EG選單解決方案 79
5.4.3 程式實現 81
5.5 函式及運算符的使用 82
5.5.1 運算符 82
5.5.2 函式 84
5.6 對列重編碼 91
5.6.1 商業背景介紹 91
5.6.2 EG選單解決方案 91
5.6.3 程式實現 95
5.7 標準化 97
5.7.1 商業背景 97
5.7.2 相關理論介紹 97
5.7.3 EG選單實現 97
5.7.4 實現程式 99
5.8 擴展閱讀 100
第6章 數據集的操作 101
6.1 縱向連線 102
6.1.1 商業背景 102
6.1.2 相關的理論 102
6.1.3 EG選單解決方案 102
6.1.4 程式實現 105
6.2 橫向連線 109
6.2.1 商業背景 109
6.2.2 相關理論介紹 109
6.2.3 EG選單解決方案 109
6.2.4 程式實現 113
6.3 數據集的比較 117
6.3.1 商業背景介紹 117
6.3.2 相關理論介紹 117
6.3.3 EG選單解決方案 117
6.3.4 程式實現 120
6.4 創建格式 121
6.4.1 商業背景 121
6.4.2 相關理論介紹 121
6.4.3 EG選單解決方案 123
6.4.4 程式實現 126
6.5 刪除數據集和格式 127
6.5.1 EG選單解決方案 127
6.5.2 程式實現 128
6.6 擴展閱讀 128
第7章 數據的展示:圖形及報告的編制 129
7.1 數據可視化與圖表 130
7.1.1 商業背景 130
7.1.2 相關理論介紹 130
7.1.3 EG選單解決方案 133
7.2 創建Listing報表 136
7.2.1 商業背景 136
7.2.2 相關理論介紹 136
7.2.3 EG選單解決方案 138
7.2.4 程式實現 140
7.3 擴展閱讀 141
第8章 在SAS EG中使用提示和條件處理 142
8.1 提示與宏變數 143
8.1.1 商業背景 143
8.1.2 相關的理論介紹 143
8.1.3 EG選單解決方案 144
8.2 條件處理 148
8.2.1 商業背景 148
8.2.2 EG選單解決方案 148
8.3 擴展閱讀 152
第9章 在SAS EG中使用程式 153
9.1 如何在SAS EG中使用程式 154
9.2 SAS程式 156
9.2.1 SAS語言元素 156
9.2.2 DATA步 157
9.2.3 PROC步 158
9.2.4 SAS的模組介紹 159
9.3 擴展閱讀 160
附錄A 選單對應關係 161
附錄B CDA(註冊數據分析師)致力於最好的數據分析人才建設 163
參考文獻 167
作者簡介
人大經濟論壇(bbs.pinggu.org):於2003年成立,致力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內最大的經濟、管理、金融、統計類的線上教育和諮詢網站,也是國內最活躍和最具影響力的經管類網路社區。
人大經濟論壇從2006年起在國內最早開展數據分析培訓,累計培訓學員數萬人,在大數據的趨勢背景下,作為Certified Data Analyst Institute(註冊數據分析師協會,簡稱CDA協會)的中國唯一授權中心,根據CDA協會的數據分析師LevelⅠ(業務分析師)、Level Ⅱ(建模分析師)、Level Ⅲ(數據專家)的等級標準,致力於培養正規化、科學化、專業化的數據分析師隊伍,為企事業單位輸送更多優秀數據分析人才。(Certified Data Analyst Institute,亦稱“註冊數據分析師協會”,成立於美國德拉瓦州,主要宗旨為匯聚國際先進的數據分析技術,建設國際性規範化數據分析師職業標準,推進數據分析師的行業發展及認證工作,目前標準行業認證為CDA數據分析師)
徐筱剛,統計學碩士。擁有近十年的豐富的數據分析、數據挖掘實戰經驗,曾就職於諮詢公司、金融機構等多家著名企業,目前在一家金融機構擔任資深數據分析顧問,具有零售、電信、金融等多個數據挖掘的項目經驗和行業背景。
前言
感謝您選擇“CDA數據分析師”Level I學習系列叢書之《如虎添翼!數據處理的SAS EG實現》。
該叢書按照數據分析師規範化學習體系而定,對於一名初學者,應該先掌握必要的機率、統計理論基礎,包括描述性分析、推斷性分析、參數估計、假設檢驗、方差分析、回歸分析等內容,這在第一本書《從零進階!數據分析的統計基礎》中進行了專業詳細的講解。其次,數據分析需要按照標準流程進行,即數據的獲取、儲存、整理、清洗、歸約等系列數據處理技術,這在《如虎添翼!數據處理的SAS EG實現》中利用SAS EG和編程技術進行了操作過程的詳解。最後,經過處理的數據需要根據業務問題,利用相關方法進行建模分析,得出結果,結果檢驗,繪製圖表並解讀數據,這在《胸有成竹!數據分析的SAS EG進階》中進行了詳細的講解和操作分析。
CDA數據分析師叢書整體風格是“理論>技術>套用”的一個學習過程,最終目的在於商業業務套用、職場數據分析,為欲從事於數據分析領域的各界人士提供了一個規範化數據分析師的學習體系。
讀者對象
作為叢書中的一本,本書上承基礎理論部分,下啟最終建模及案例分析。本書將關注點集中到數據的探索及預處理上,通過本書的學習將會加深對基礎理論部分的理解,為後續的建模分析做好數據上的準備。本書適合那些想了解數據預處理,或者被數據的預處理占去大部分時間而想提高效率,或者囿於選單操作的局限性而希望通過程式實現的數據分析人員。
閱讀指南
對數據分析師而言,合適的數據就像好的食材,對最終分析結果的影響不言而喻,但是在日常的工作中我們會經常遇到兩個問題,一是數據的質量不高,數據在收集、存儲等過程中不可避免地出現了髒數據、不一致數據、噪聲數據、重複數據等,如果我們不做任何預處理而直接輸入模型,就會出現“garbage in, garbage out”,即垃圾進垃圾出的情況。二是數據的形式不符,因為不同的模型,建模技術都有一定的前提假設,對數據的展現形式、分布狀態等都有較為嚴格的要求,如果不做預處理,模型出來的結果很可能與數據底層真正蘊含的規律背道而馳,對這種形式的數據盲目地進行建模分析,極容易誤人誤己。
數據預處理占到整個數據挖掘的60%~80%的時間,要想高效正確地完成數據的預處理工作其實不是一件容易的事情,本書作者根據在諮詢公司、電信及金融行業的多年經驗,將常用的數據預處理思路融入到SAS EG的選單操作中,並配以SAS程式的講解,使得讀者在熟悉選單的同時,能用簡單的SAS語言完成相對複雜的數據處理要求。
全書共分為九章:
第1章介紹了SAS EG軟體,並介紹了三種常見的數據分析流程;
第2章介紹了如何通過多種方式使SAS EG可以輕鬆地訪問多種形式的外部數據;、
第3章介紹了探索性數據分析的基本思路,以及數據清理的相關理論,並分別演示了如何對類別數據、數據數據進行清理;
第4章、第5章介紹了如何對數據觀測進行篩選和排序、抽樣,以及數據的分組和匯總,如何對數據進行轉置,使用函式等,
第6章介紹了如何在整體上對數據集進行操作,包括如何對數據集進行橫向連線和縱向連線,數據集之間的比較創建格式等。
第7章講解了數據的可視化及圖表、報告的編制方法。
第8章、第9章介紹了如何在SAS EG中運用提示、程式等來提高數據處理效率。
各部分相互獨立,讀者可以根據自己的需要選擇性閱讀。
本書特點
1.關於SAS EG模組的首本中文教材;
2.非單純的逐個講解選單,而是將數據分析的基本思路、流程融入到軟體的操作之中;
3.每一章節通過設定商業背景,基本理論講解的形式更貼近讀者的實際工作;
4.本書除講解軟體操作,還同時介紹了各種操作的SAS語言的實現過程,讀者可以根據自己的基礎逐步學習,進而走進SAS處理數據的大門。
學習方法
本書在編寫上力求從讀者的實戰角度出發,每章基本上分為五部分:
1.商業背景的介紹;
2.相關的理論介紹;
3.EG軟體的解決方案;
4.程式實現,包含實現選單的程式的簡單必要功能,讀者可以輕鬆過渡到編程;
5.擴展閱讀,對於想深入學習SAS編程、數據準備的讀者,進一步介紹了相關的學習內容及方向。
讀者可以根據自己的需要來閱讀,本書的選單操作部分以SAS Eenterprise guide 5.1為例進行示範,代碼部分以SAS 9.3為基礎進行編寫,讀者在理解基本思路之後可以方便將其套用到其它版本之上。
致謝
本書由人大經濟論壇策劃,徐筱剛負責編寫和完成統稿。
叢書從策劃到出版,傾注了電子工業出版社計算機圖書分社張慧敏、石倩、官楊、張童等多位編輯的心血,特在此表示衷心地感謝!
為保證叢書的質量,使其更貼近讀者,我們組織了人大經濟論壇的多位版主和高級會員參與了本書的預讀工作,他們是楊同梅、田佳、孫華楓、原瑜芬、葉陣雨、鄭贇、李劍宇、江翊雪、陳鵬、劉莎莎、丁亞軍。感謝各位預讀員的辛勤、耐心與細緻,使得本叢書能以更加完善的面目與各位讀者見面,特別感謝覃智勇圓滿地組織了本次預讀工作和審校工作。
儘管作者們對書中的案例精益求精,但疏漏仍然在所難免,如果您發現書中的錯誤或某個案例有更好的解決方案,敬請登錄社區網站向作者反饋,我們將儘快在社區中給出回復,且在本書再次印刷時修正。
再次感謝您的支持!