《發現數據之美:數據分析原理與實踐》是2014年8月電子工業出版社出版的圖書,作者是彭鴻濤、聶磊。
基本介紹
- 書名:發現數據之美:數據分析原理與實踐
- 作者:彭鴻濤、聶磊
- ISBN:9787121235580
- 頁數:332頁
- 定價:75.00元
- 出版社:?>電子工業出版社
- 出版時間:2014年8月
- 開本:16開
出版信息,內容簡介,編輯推薦,內容提要,目錄,
出版信息
大數據叢書
(全面梳理數據分析思路、方法、技巧,挖出大數據價值,精準定位業務方向,讓數據成為真正的資產。基於SPSS的大數據分析與套用實踐的指南!資深數據分析師帶你發現數據之美!)
彭鴻濤 聶磊 著
ISBN 978-7-121-23558-0
2014年8月出版
定價:75.00元
內容簡介
大數據時代已經來臨,這將引起深刻的行業變革。但是,大數據的真意在於數據分析,即從繁多的數據中找出洞見,並將其套用於實際決策中,以產生更明智的決策。這是一個看起來簡單、做起來較難的事情。
本書從一個自底向上的角度,全面地闡述了數據分析所涉及的知識和技術,對於經典算法和工具的介紹也不止於泛泛而談,而是加入了作者的經驗和理解。所謂自底向上的角度,即從數據分析實踐開始時所需要的數據準備、數據探查、數據再處理等,到經典的統計分析和數據挖掘算法及套用,還講述了模型的部署,最佳化技術的引入,最終到決策自動化。
本書對企業管理者、數據分析從業者及高校的學生都有參考意義。管理者能看到一個較全面的數據分析的闡述,明確自身的需求;從業者能看到經驗的總結及經典工具的使用;高校學生能看到數據分析所涉及的知識,對數據分析有一個全面的認識。
編輯推薦
空談無益,實幹興邦!
只有從紛繁的數據中找到線索,發現價值,大數據才能真正為我所用,成為真正意義上的數據資產!
《發現數據之美》提供了全面的數據分析思路、方法和技巧,一步一步地教會您如何尋找數據、鑑別數據、分析數據,並從數據分析中看到未來,做出富於遠見的決策與管理。
作者是資深數據分析師,在該領域有近十年的豐富實踐,對數據分析及數據價值有著紮實、透徹的理解,認為只有做好最基本的數據分析,才能真正把數據變成資產,產生價值——這在“大數據神話”甚囂塵上的今日,無疑是一劑清涼貼,讓我們冷靜下來,重新審視自己的基本功。
不必猶豫,無須等待,數據分析之旅,始於《發現數據之美》。
內容提要
大數據時代已經來臨,這將引起深刻的行業變革。但是,大數據的真意在於數據分析,即從繁多的數據中找出洞見,並將其套用於實際決策中,以產生更明智的決策。這是一個看起來簡單、做起來較難的事情。
本書從一個自底向上的角度,全面地闡述了數據分析所涉及的知識和技術,對於經典算法和工具的介紹也不止於泛泛而談,而是加入了作者的經驗和理解。所謂自底向上的角度,即從數據分析實踐開始時所需要的數據準備、數據探查、數據再處理等,到經典的統計分析和數據挖掘算法及套用,還講述了模型的部署,最佳化技術的引入,最終到決策自動化。
本書對企業管理者、數據分析從業者及高校的學生都有參考意義。管理者能看到一個較全面的數據分析的闡述,明確自身的需求;從業者能看到經驗的總結及經典工具的使用;高校學生能看到數據分析所涉及的知識,對數據分析有一個全面的認識。
目錄
第1 章 業務分析是一個蓬勃發展的方向 ................................. 1
1.1 業務分析是什麼 .............................................. 2
1.2 業務分析的套用現狀 ..................................... 3
1.3 如何套用業務分析 .......................................... 5
1.4 大數據與業務分析 .................................. 8
1.5 我們還在等什麼 .............................. 9
第2 章 開始我們的旅程——從數據談起 .................................... 10
2.1 我們討論的數據結構 ..................................... 11
2.1.1 行(Row)是什麼 .................................................................................................. 12
2.1.2 列(Column)是什麼 ............................................................................................. 13
2.1.3 多少行數據才合適 ................................................................................................. 15
2.1.4 我們需要什麼樣的列 ............................................................................................. 16
2.2 Statistics 和Modeler 的基本知識 ................................................ 18
2.3 數據導入(Loading Data) ....................................................... 24
2.4 數據探查(Data Exploring) ............................. 27
2.4.1 常態分配(Normal Distribution) ......................................................................... 28
2.4.2 數據探查的常見統計量 ......................................................................................... 30
2.4.3 數據可視化 ............................................................................................................. 35
2.5 本章小結 ............................................................... 47
第3 章 在分析之前,還需要數據預處理 ............................................ 48
3.1 數據的問題 ............................................. 49
3.2 數據校驗 .......................................................... 50
3.2.1 驗證規則 ................................................................................................................. 50
3.2.2 驗證數據 ................................................................................................................. 53
3.2.3 數據審計(Data Audit) ........................................................................................ 57
3.2.4 識別異常數據 ......................................................................................................... 60
3.3 數據集成(Data Integration) ............................................ 65
3.3.1 在Statistics 中進行數據集成 ................................................................................. 66
3.3.2 在Modeler 中進行數據集成 .................................................................................. 68
3.4 數據轉換(Data Transformation) ..................................................... 73
3.4.1 分箱(Binning) ..................................................................................................... 73
3.4.2 數據調整(Data Rescale) .................................................................................... 78
3.4.3 數據重新編碼(Recode) ..................................................................................... 79
3.5 自動數據準備 ................................................................ 83
3.5.1 Statistics 中的自動數據準備 .................................................................................. 83
3.5.2 Modeler 中的自動數據準備 ................................................................................... 88
3.6 本章小結 ............................................... 89
第4 章 經典分析——統計學的魅力 .................................. 91
4.1 隨機變數及分布 ..................................................... 92
4.2 數理統計導引 .............................................. 94
4.3 參數估計 ................................................ 96
4.3.1 點估計...................................................................................................................... 96
4.3.2 區間估計 ................................................................................................................. 97
4.4 假設檢驗 .............................................................. 98
4.4.1 常態分配檢驗和t 檢驗 ........................................................................................ 101
4.4.2 非參數檢驗 ........................................................................................................... 108
4.5 相關分析 ............................................................ 111
4.6 方差分析 ............................................................... 113
4.7 回歸分析 ............................................. 114
4.7.1 線性回歸分析 ....................................................................................................... 114
4.7.2 自動化線性回歸分析 ........................................................................................... 120
4.7.3 廣義線性模型 ....................................................................................................... 122
4.7.4 廣義線性混合模型(Generalized Linear Mixed Mode,GLMM) .................. 128
4.8 本章小結 ........................................................... 135
第5 章 我想預測未來 ................................................................ 136
5.1 數據挖掘的技術分類 ............................................................... 136
5.1.1 有監督的建模技術 ............................................................................................... 137
5.1.2 無監督的建模技術 ............................................................................................... 138
5.1.3 Feature Selection 對於分類的意義 ...................................................................... 139
5.1.4 查看建模的結果 ................................................................................................... 139
5.2 決策樹 ................................................................................................ 140
5.2.1 C5.0 算法 ............................................................................................................... 141
5.2.2 分類和回歸樹 ....................................................................................................... 145
5.2.3 卡方自動互動檢測法(CHAID) ....................................................................... 147
5.2.4 快速、無偏、高效的統計樹(QUEST) .......................................................... 148
5.2.5 互動式的決策樹構建方式 ................................................................................... 149
5.3 決策表 .............................................................................................. 150
5.3.1 決策表算法的設定 ............................................................................................... 151
5.3.2 互動式決策表的生成方式 ................................................................................... 153
5.4 貝葉斯網路 ........................................................................ 154
5.4.1 一些基本概念 ....................................................................................................... 154
5.4.2 IBM SPSS 的做法 ................................................................................................. 156
5.5 神經網路(Neural Networks) ...................................................... 158
5.5.1 神經網路是什麼 ................................................................................................... 158
5.5.2 SPSS 神經網路算法 .............................................................................................. 160
5.6 支持向量機(Support Vector Machine) ................................... 162
5.6.1 什麼是線性分類器 ............................................................................................... 162
5.6.2 Modeler 中的支持向量機 ..................................................................................... 163
5.7 最近相鄰(Nearest Neighbor) .................................... 165
5.8 我該選用哪種算法 ......................................................... 167
5.9 如何評價預測結果 .............................................. 170
5.9.1 基本指標 ............................................................................................................... 170
5.9.2 Gains ...................................................................................................................... 171
5.9.3 Lift .......................................................................................................................... 173
5.9.4 Response ................................................................................................................ 175
5.9.5 Profit ...................................................................................................................... 175
5.9.6 ROI ......................................................................................................................... 177
5.10 本章小結 .............................................................. 177
第6 章 我想發現聚類(Cluster) ............................................... 179
6.1 聚類技術 ......................................................................... 180
6.2 分層聚類 ......................................................................... 181
6.3 K-means ....................................................................................... 184
6.4 TwoStep ...................................................................... 188
6.4.1 預聚類.................................................................................................................... 189
6.4.2 離群值處理 ........................................................................................................... 189
6.4.3 聚類 ........................................................................................................................ 189
6.4.4 TwoStep 的使用 .................................................................................................... 190
6.5 Kohonen network .................................................. 192
6.6 我怎么知道聚類結果是好的 ............................................................. 194
6.6.1 考察聚類的數量和每個聚類中的記錄數 ........................................................... 194
6.6.2 考察聚類內的特徵 ............................................................................................... 195
6.6.3 考察聚類間的特徵 ............................................................................................... 195
6.6.4 一個綜合的考察指標Silhouette .......................................................................... 196
6.7 自動聚類 ......................................................... 197
6.8 理解聚類的結果 ........................................................................... 198
6.9 一個聚類分析套用的例子 ............................................. 201
6.10 本章小結 ............................................................... 202
第7 章 周而復始的規律——時間序列分析 .......................................... 203
7.1 時間序列 ................................................................................ 204
7.1.1 時間序列的類型 ................................................................................................... 204
7.1.2 時間序列的特徵 ................................................................................................... 205
7.2 指數平滑模型 ............................................................................. 206
7.2.1 簡單指數平滑法 ................................................................................................... 206
7.2.2 帶有趨勢調整的指數平滑法(霍爾特指數平滑法) ....................................... 208
7.2.3 帶有阻尼趨勢的指數平滑法 ............................................................................... 208
7.2.4 簡單季節指數平滑法 ........................................................................................... 209
7.2.5 帶有趨勢和季節調整的指數平滑法(溫特斯指數平滑法) ........................... 209
7.2.6 指數平滑法的初始化 ........................................................................................... 210
7.2.7 去除時間序列的趨勢和季節性因素 ................................................................... 211
7.3 自回歸模型 ................................................ 212
7.3.1 自回歸模型 ........................................................................................................... 212
7.3.2 移動平均模型 ....................................................................................................... 213
7.3.3 自回歸移動平均模型(ARMA) ....................................................................... 213
7.3.4 差分自回歸移動平均模型 ................................................................................... 214
7.4 SPSS 產品中的時間序列模型 ............................................... 214
7.4.1 Statistics 中的時間序列模型 ................................................................................ 214
7.4.2 Modeler 中的時間序列模型 ................................................................................. 235
7.5 時間序列分析的評價 ...................................................... 238
7.6 本章小結 ......................................................... 239
第8 章 你的行為完全可能被猜中——關聯規則分析 ................................. 240
8.1 基本概念 ............................................................. 241
8.2 Apriori 算法 ....................................................................... 245
8.2.1 Apriori 算法工作步驟 ........................................................................................... 245
8.2.2 Apriori 算法的評估方法 ....................................................................................... 246
8.2.3 Apriori 節點 ........................................................................................................... 247
8.3 CARMA 算法 ................................................................................ 249
8.3.1 CARMA 算法的工作步驟 .................................................................................... 249
8.3.2 CARMA 節點 ........................................................................................................ 251
8.4 序列算法 ................................................................... 252
8.5 關聯規則的評價 .......................................................................... 255
8.6 典型套用案例 .................................................................. 256
第9 章 我們還需要最佳化技術的幫忙 ......................................... 257
9.1 什麼是最佳化技術 ....................................................................... 258
9.2 最佳化問題的分類 ....................................................................... 259
9.2.1 線性規劃 ............................................................................................................... 260
9.2.2 整數規劃 ............................................................................................................... 261
9.2.3 多目標規劃 ........................................................................................................... 262
9.2.4 動態規劃 ............................................................................................................... 262
9.3 IBM ILOG Optimization 介紹 ................................................. 263
9.4 本章小結 ...................................................................... 265
第10 章 有關方法論的問題 ..................................... 266
10.1 為什麼我們要討論方法論 .................................................. 267
10.2 CRISP-DM .............................................................................. 267
10.2.1 CRISP-DM 方法學 .............................................................................................. 268
10.2.2 CRISP-DM 參考模型.......................................................................................... 270
10.3 IBM SPSS CaDS ...................................................................... 273
10.3.1 Repository ............................................................................................................ 273
10.3.2 Job ........................................................................................................................ 274
10.3.3 Model Refresh and Champion Challenger .......................................................... 274
10.3.4 Scoring ................................................................................................................. 274
10.4 模型的部署不是終點............................................................... 275
第11 章 一個時髦的領域——決策管理 .................................................. 276
11.1 決策管理系統 ..................................................................... 276
11.1.1 什麼是決策 .......................................................................................................... 277
11.1.2 什麼是決策管理系統 .......................................................................................... 279
11.1.3 決策支持與決策管理的比較.............................................................................. 281
11.2 構建決策管理系統 ......................................................................... 282
11.2.1 構建決策支持系統的原則 .................................................................................. 282
11.2.2 合適的決策 .......................................................................................................... 283
11.2.3 如何找到合適的決策 .......................................................................................... 285
11.2.4 怎樣在決策管理系統中定義決策 ..................................................................... 287
11.2.5 決策管理系統中的最佳化技術.............................................................................. 292
11.2.6 決策影響的評估 .................................................................................................. 294
11.2.7 監控決策 .............................................................................................................. 297
11.2.8 決策的持續改進 .................................................................................................. 298
11.2.9 構建和部署決策服務 .......................................................................................... 299
11.2.10 實施決策管理的一些要求................................................................................ 300
11.3 IBM ADM ....................................................................... 301
11.3.1 ADM 是SPSS 數據分析能力的視窗 ................................................................ 301
11.3.2 ADM 的著眼點是將數據分析結果轉化為決策 ............................................... 302
11.3.3 ADM 是一個可以配置的決策服務平台 ........................................................... 303
11.3.4 ADM 的工作步驟 ............................................................................................... 306
11.4 本章小結 ................................................................................ 308
後記 為未來做好準備 ......................................................... 309
前言
這個世界每天都在發生各種奇妙的事情,特別是當很多人每天坐在螢幕前,不斷敲擊鍵盤的時候,各種新奇的事物以前所未有的速度不斷湧現。
多年以前人們可能不會想到,手機會以非常智慧型的方式出現,但當賈伯斯說“Today,we are-invent the phone”時,手機智慧型化便成為現實。人與計算機之間的語言交流,在無數科幻電影中被反覆演繹,當IBM 的Watson 再次戰勝人類的時候,這似乎就在眼前。
仔細想想,這真是一件有意思的事情。人們將各種電子元器件集成起來,並將各種計算包含其中,然後定義出各種用於人類與計算機進行交流的計算機程式語言,這便成了一個放大、成就人們各種奇思妙想的利器。
計算機的廣泛套用自不必細說,人們已經得到了其諸多的便利。在商業套用領域,計算機能幫人們做很多事情,比如將各種數據存放起來,自動化地處理各種業務,生成各種報表以供人們參考,等等。可以說,人們已經離不開計算機技術的幫助。然而,這一切的重要基礎是數據。
我們已經進入了大數據時代
早在二十年前,尼葛洛龐蒂就在《數位化生存》中描述和預言了當今的生活——人們已經離不開數字,人們的生活已經與數字息息相關。數字代表了一定的數據信息,是各種定性指標的表達,人們與數字已經緊密地捆綁在了一起。
數位化是計算機用來表述事物的方式,或至微至細,或巨觀概括。就像人類的語言,可以表達很多複雜事物。如今,數位化已經不是一個技術問題,而是一個意願問題。大量的事物本來就存在,且都能用數字的方式來表達,問題是人們是否願意來數位化它們。如今一個顯而易見的趨勢是人們對數據的渴望似乎是無止境的,即使數據是巨量的,人們似乎也願意存儲和處理。
海量數據的產生一方面是積累而來,另一方面是人們開始願意並且能夠收集、存儲和處理它們。在過去的幾十年間,不論是企業、機構還是國家,都在努力地收集和存儲數據。從企業層面來講,數據的收集和積累大多來自於信息化系統的套用,如各種業務系統等。維克托·邁爾·舍恩伯格和肯尼思·庫克耶合著的《大數據時代》中宣稱:世界的本質就是數據;並且基於了解世界的渴望,人們不斷地擴大數據的收集規模。數據已經成為了一種商業資本,一項重要的經濟投入,可以創造新的經濟利益。事實上,一旦思維轉變過來,數據就能被巧妙地用來激發新產品和新型服務。數據的奧妙只為謙遜、願意聆聽且掌握了聆聽手段的人所知。
很多看起來很酷的套用都必須有一定數量的數據基礎。這也非常暗合於計算機世界的形態:計算機的絕大多數組件都在處理各種數據而不是在產生各種數據,位元組進入計算單元,然後流出另外一組經過計算的位元組。計算單元就是消費數據的組件,而數據則是需要收集和積累的。如果沒有足夠的數據,有再多的計算單元也只是個擺設。
很久以前就有這樣的觀點:數據將成為比自然資源更重要的資源。這個觀點強調了數據中包含著具有巨大價值的信息、知識,這些信息和知識的套用會帶來非常可觀的價值。
一個非常簡單的例子就能說明數據的重要性。例如,有兩家不同的公司,一家從一開始就不斷收集和積累各種數據,並且願意不斷擴大數據收集的規模,那么它就有可能從數據中找到一些知識:什麼樣的用戶會喜歡什麼樣的產品,他們可能對哪些行銷活動感興趣,等等;另外一家公司則不注重數據的積累和收集,顯然它不大可能從殘缺的、低質量的數據中找到有用的洞見。這洞見具有巨大的使用價值,比其擁有的其他資源更重要。
數據分析的意義所在
數據分析是擁有數據之後要做的最有意義的事情。數據分析是個比較廣泛的概念,數據挖掘、統計分析、商業智慧型(Business Intelligence)、業務分析等都屬於數據分析的範疇。
數據分析的最終目的是從數據中找出有用的信息和知識,以支持、幫助決策。其基本的步驟有數據探查、數據清洗、數據轉化和建模等。
數據挖掘是個使用頻度非常高的名字,並且經常和很多名詞混用,如人工智慧、機器學習和商業智慧型等。其實數據挖掘最為顯著的特徵是發現,即從冗繁的數據中找到有用的模式(pattern)。這個尋找的過程可能是人工智慧和機器學習的實踐過程。
統計分析是關於數據收集、組織、分析、解釋和描述的科學。統計分析的方法可以分為三個:描述性的統計分析、探查性的數據分析和證實性的數據分析。描述性的統計分析用來給出給定數據集合的主要特徵,如樣本大小等;探查性的數據分析主要用來發現數據的一些特徵,如數據的分布等;證實性的數據分析用來驗證一些假設是否成立,如假設檢驗等。
相對來說,商業智慧型是比數據挖掘和統計分析大很多的概念。商業智慧型包含了一系列的理論、方法論、過程、架構和技術,將數據轉化為有實際意義的信息,這些信息能夠幫助決策者確定和開發各種市場機會,企業能夠利用這些機會鞏固和發展市場地位。商業智慧型在具體實施過程中也需要引入一些統計分析和數據挖掘的套用。
業務分析這個名字在最近的使用頻度很高,其含義在利用數據的層次上較商業智慧型更進一步。業務分析代表了從數據中持續探查、挖掘,從而得到洞察以幫助人們進行決策的一系列技巧、技術、套用和實施,其著重強調了利用數據和數據分析去發現新的洞察,以提升人們的決策質量。
通常,商業智慧型利用的工具是查詢、報告、OLAP(On-Line Analytical Processing,在線上分析處理)和預警,回答一些諸如“過去發生了什麼”、“發生了多少”、“發生的頻率”、“問題出在哪裡”、“下一步應採取哪些措施”的問題。業務分析則著重利用數據分析工具來回答“為什麼會發生這樣的問題”、“接下來還可能發生什麼”、“能夠採取的最優措施是什麼”等問題。如之前提到的,從利用數據的難度這個層次來說,業務分析較商業智慧型高。
從傳統意義上講,預測分析是利用統計分析、數據挖掘等技術的一個子方法,其對歷史數據進行分析,從而對未來可能發生的事情進行預測。然而,近年來人們對其含義進行了大量擴充,其包含了分析很多相關內容,如描述性的建模、預測建模、決策建模、最佳化,等等。這種擴大對於偏信傳統概念的人來說,有點困難。我也曾對預測分析含義的擴充感到不適應,但事實確實發生了。這可能也是為了強調業務分析中最重要的特色,與商業智慧型有所區別吧。
近幾年,還有一個比較新的概念——決策管理,它是業務分析這個大的範疇下的一個分支。如果說商業智慧型主要完成決策支持的話,屬於業務分析的決策管理則強調了決策自動化,即根據數據所代表的情況自動做出決策,而不是人為的。決策自動化是一個很複雜的過程,涉及分析、建模等技術,還有一個很重要的就是最佳化技術的引入。最佳化技術能夠回答類似“什麼樣的決策才是最優的決策”這樣的問題。讓機器做決策,聽起來是個很神奇的事情,但仔細想想,像蘋果的Siri、IBM 的Waston 等能夠和人進行交流的套用出現後,看起來很神奇的事情如今也可成為現實。雖然決策管理和Siri、Waston 沒有可比性,但是通過一系列的數據分析,讓機器在特定的領域自動做出決策,已經有很多實現案例了。
以上這些分類,只是非常粗略地概述了一些數據分析的分類,從這些分類中我們能看
到數據分析的益處。
這是一本關於SPSS 的書籍
SPSS 在計算機世界是一個有很長歷史的公司,早在1968 年,幾個創始人發布了Statistical Package for the Social Sciences(簡稱SPSS)的第一個版本。這個產品就是後來大家耳熟能詳的統計分析的SPSS 軟體。在1975 年,以SPSS 這個名稱註冊了公司。
在2000 年前後,SPSS 軟體有了新的含義——Statistical Product and Service Solutions。
在2008 年,SPSS 公司對已有產品進行重新命名,將原來的SPSS 軟體命名為SPSS Statistics,這樣一來,意思更明確,不至於讓粗心的用戶分不清SPSS 公司和SPSS 軟體。2009 年IBM收購了SPSS,此時SPSS Statistics 的名字又變成了IBM SPSS Statistics。
除了著名的IBM SPSS Statistics,SPSS 公司還有一些其他知名軟體,如IBM SPSS Modeler、IBM SPSS Data Collection、IBM Analytical Decision Management,等等。每一個產品都有其特長及專註解決的方面,特別是最近幾年,SPSS 在企業級業務分析的套用上,投入了很多。除此之外,對於大數據的分析,SPSS 的動作也非常之大(為便於讀者閱讀,我們在後續描述中,會用Statistics 指代IBM SPSS Statistics,用Modeler 指代IBM SPSS Modeler,用ADM 指代IBM Analytical Decision Management)。
目前國內大多數讀者對SPSS 的概念還停留在SPSS 的經典工具上,對SPSS 的其他能力並不了解,特別是SPSS 針對決策管理、最佳化技術的引入等方面的能力。就目前來說,市面上還沒有一本全面介紹SPSS 的書(從數據分析到決策管理),而這個過程涉及數個軟體。
我試圖從“數據分析”到“決策管理”給出一個概要描述,並且突出SPSS 工具的特點。讓國內的用戶能夠較為全面地了解這個過程所涉及的要點,對設計、實施業務分析相關的套用有所幫助。
你將從這本書中得到什麼
市面上已經有很多與統計分析、數據挖掘等相關的書籍,那么本書的特色是什麼呢?
人們對於數據分析的印象大多是“從數據中找到真知灼見並將其套用於實際的問題解決中”。“從數據中找到真知灼見”其實包含了很多內容,比如針對問題的不同而採用統計分析的相關技術(如假設檢驗),或者採用數據挖掘中的典型相關技術(如聚類)。除了技術的不同,我們還需要考慮方法論的問題,例如,如何挑選數據、如何探查數據的質量、該選擇哪種模型哪種算法、模型的部署和更新,等等。研究這些問題需要知識的準備和時間的積累。本書就試圖給出一個全景式的描述,按照我的經驗和理解對典型問題逐一探討。
“將真知灼見套用於實際的問題解決中”也是一個值得深入探討的問題。最為淺顯的想法就是將模型部署,讓模型返回一些預測值等類似的值,作為進一步決策的新依據。模型的部署也需要考慮一個方法論的問題,如本書中討論的CRISP-DM 參考模型。
但是,如果模型僅能返回一些預測值,只能說我們達到了決策支持的階段,能不能讓模型直接返回決策建議呢?或者直接實現決策自動化呢?這就屬於決策管理的範疇。決策管理絕不僅僅是一個模型複雜化的問題,也有方法論的因素,這是本書討論的重點之一。
總之,我試圖給出一個全景式的描述,對上述方面做一些介紹。數據分析的套用級別是分層次的,最簡單的是數據探查,只看看數據的分布、特徵等;其次是統計分析和數據挖掘,這些都屬於決策支持的範疇。除此之外,要採用最佳化技術做出最優決策,實現決策自動化的決策管理,又是比較高的套用層次了。本書以自底向上的敘述方式,對上述方面都進行了描述。初學者、管理者,或者數據分析從業人員,都可以通過本書對數據分析的重要方面和階段有一個清晰的了解。初學者可以了解數據分析有哪些主要的技術需要學習,管理者可以根據企業自身的情況了解其真實的需求是什麼——簡單的統計分析還是決策自動化,數據分析從業人員可以將本書作為一本參考書,了解相關的產品。
歡迎指正
我在IBM ADM 項目組成立之初就加入了這個團隊,至今已有6 年。由於項目的需要,我對統計分析和數據挖掘都有所了解,也經歷了數個企業級決策管理套用的開發和部署。
但是,幾年來,我發現人們對數據分析、特別是決策管理的理解和重視遠遠不足,所以萌生了寫書來介紹的想法。
在寫書的過程中,我查閱了很多相關材料,由於我在SPSS 的產品線上工作,可以查閱到各種SPSS 的文檔,所以作者試圖結合自己工作的便利,全面地介紹數據分析的相關方面,並且深入淺出地介紹這些晦澀的內容。
即便如此,我深信一些描述錯誤是不可避免的,讀者若發現任何值得商榷的地方,真心期望讀者能夠指出,我將在今後的寫作中改進。
感謝
在吃晚飯時,我說我要寫書。父母和妻子先是驚喜,然後是鼓勵。在接下來的一年多里,每逢周末,他們都幫我騰出大量時間,我深信他們付出了很多,非常感謝他們。
還要感謝我的合作寫書人,聶磊,他是一個非常聰明的帥小伙,當我邀請他一起寫作時,他欣然同意,並積極完成了本書第3 章、第7 章和第8 章的寫作。在本書的寫作過程中,我倆經常積極討論、相互學習,我們非常享受這樣的過程!
感謝IBM 全球副總裁兼中國開發中心總經理王陽博士,能在百忙之中為本書作序。感謝SPSS 的首席統計師、IBM DE、SPSS 西安公司的創始人石靜雲女士,當我告訴她我要寫一本關於SPSS 的書時,她非常高興並答應給本書寫序,這大大增加了我寫作的信心。
感謝IBM CDL BA 主管、資深經理吉燕勇的鼓勵和肯定。當我告訴他寫書這件事情的時候,他非常肯定這件事情,並積極幫忙安排各項事宜。他的幫助和鼓勵,至關重要。還要感謝IBM CDL 的資深經理王俊波、蔣儉,他們的幫助也很大。另外,非常感謝我的經理李慨的支持。
感謝來自IBM 大學合作部,美麗、聰慧的楊敏同事關於如何出書給予的幫助,以及IBM Academic Initiative 社團的同事史俊輝的給力支持,他在不斷地幫助和協調關於出書的各項事宜。IBM Academic Initiative 社團的其他同事也給予了很大幫助,沒有他們的幫助,本書可能不會這么快與讀者見面。
非常感謝電子工業出版社的編輯劉皎,她提出了非常有用的意見,在她的幫助下,本書得以進入“十二五國家重點圖書出版規劃項目”。這對沒有出書經驗的作者來說,是莫大的鼓舞和支持!
彭鴻濤
2014 年5 月於西安