內容簡介
本書是為廣大數據分析師量身定製的入門讀物,它旨在幫助讀者站在大數據時代的制高點。數據分析處於統計學、計算機信息科學、運籌學、資料庫等多個領域的交叉地帶,大數據時代的到來大大豐富了數據分析的內涵,數據分析師的職責與以往相比發生了巨大的改變。 本書全面介紹了經典數據分析、模式識別、機器學習、深度學習、數據挖掘、商務智慧型等多個領域的數據分析算法,將大數據時代的數據分析熱點技術一網打盡。本書為每個數據分析算法都搭配了一個經典案例,並按照由易到難的原則構建知識框架,充分照顧了不同水平讀者的閱讀習慣。 通過閱讀本書,讀者將對大數據時代下的數據分析有一個全面的認識。無論是入門級的數據分析員還是有一定基礎的數據分析師,都能通過本書完善、加深對數據分析的認識。
圖書目錄
第1章 經典的探索性數據分析案例 1
1.1 探索性數據分析綜述 2
1.2 數據巧收集——紅牛的大數據行銷案例 4
1.2.1 狀況百出的紅牛企業 4
1.2.2 紅牛企業巧妙收集消費者數據 6
1.2.3 數據收集小結 8
1.3 數據可視化——數據新聞促使英軍撤軍 9
1.3.1 維基解密帶來的數據 9
1.3.2 百花齊放的數據新聞 11
1.3.3 數據可視化小結 15
1.4 異常值分析——Facebook消滅釣魚連結 16
1.4.1 Facebook和廣告商之間的拉鋸戰 17
1.4.2 異常值分析指導排名算法工作 18
1.4.3 異常值分析小結 22
1.5 對比分析——TrueCar指導購物者尋找最合算的車價 24
1.5.1 火中取栗的TrueCar網站 24
1.5.2 數據對比贏得消費者信賴 26
1.5.3 對比分析小結 29
第2章 經典的相關分析與回歸分析案例 31
2.1 相關回歸綜述 32
2.2 皮爾遜相關值——紐約市政府利用相關分析監控違法建築 34
2.2.1 簡約而不簡單的消防檢測系統 34
2.2.2 使用相關分析洞察60個變數的關係 36
2.2.3 相關分析小結 39
2.3 時間序列分析——人壽保險的可提費用預測 41
2.3.1 人壽保險公司和可提費用 41
2.3.2 使用四種時間序列回歸預測模型解決問題 43
2.3.3 時間序列分析小結 46
2.4 線性回歸分析——梅西百貨公司的十二項大數據策略 48
2.4.1 從“一億豪賭”說起的零售商困境 48
2.4.2 SAS公司幫助梅西百貨構建模型 50
2.4.3 線性回歸分析小結 53
2.5 Logistic回歸分析——大面積流感爆發的預測分析 56
2.5.1 究竟誰才是流感預測算法之王 56
2.5.2 向Logistic算法中引入更多變數 58
2.5.3 Logistic回歸分析小結 61
第3章 經典的降維數據分析案例 63
3.1 降維分析算法綜述 64
3.2 粗糙集算法——協助希臘工業發展銀行制定信貸政策 66
3.2.1 銀行信貸政策的制定原則 66
3.2.2 粗糙集算法原理和套用 67
3.2.3 粗糙集算法小結 71
3.3 因子分析——基於李克特量表的應聘評價法 73
3.3.1 源於智力測試的因子分析 73
3.3.2 使用因子分析解構問卷 75
3.3.3 因子分析小結 78
3.4 最優尺度分析——直觀評估消費者傾向的分析方法 80
3.4.1 市場調查問題催生的最優尺度分析 80
3.4.2 六種經典的最優尺度分析解讀方法 82
3.4.3 最優尺度分析小結 86
3.5 PCA降維算法——智慧型人臉識別的套用與拓展 88
3.5.1 刷臉的時代來了 88
3.5.2 使用PCA算法完成降維工作 90
3.5.3 PCA算法小結 93
第4章 經典的模式識別案例 95
4.1 模式識別綜述 96
4.2 圖像分析——谷歌的超前自動駕駛技術 98
4.2.1 以安全的名義呼籲自動駕駛技術 98
4.2.2 快速成熟的無人駕駛技術 100
4.2.3 圖像分析小結 103
4.3 遺傳算法——經典的人力資源最佳化問題 105
4.3.1 使用有限資源實現利益最大化 105
4.3.2 遺傳算法的計算過程 107
4.3.3 遺傳算法小結 110
4.4 決策樹分析——“沸騰時刻”準確判斷用戶健康水平 111
4.4.1 打造我國最大健身平台 111
4.4.2 信息增益和決策樹 113
4.4.3 決策樹小結 116
4.5 K均值聚類分析——HSE24通過為客戶分類降低退貨率 118
4.5.1 在電子商務市場快速擴張的HSE24 119
4.5.2 使用K均值聚類為客戶分類 120
4.5.3 K均值聚類小結 123
第5章 經典的機器學習案例 127
5.1 機器學習綜述 128
5.2 語義搜尋——沃爾瑪搜尋引擎提升15%銷售額 130
5.2.1 注重用戶體驗的沃爾瑪公司 130
5.2.2 語義搜尋引擎的底層技術和原理 132
5.2.3 語義搜尋技術小結 135
5.3 順序分析——搜狗輸入法的智慧型糾錯系統 137
5.3.1 搜狗輸入法的王牌詞庫和智慧型算法 137
5.3.2 頻繁樹模式和順序分析算法 140
5.3.3 順序分析小結 143
5.4 文本分析——經典的垃圾郵件過濾系統 144
5.4.1 大數據時代需要文本分析工作 145
5.4.2 垃圾郵件過濾中的分詞技術和詞集模型 146
5.4.3 文本分析小結 149
5.5 協同過濾——構建個性化推薦系統的經典算法 151
5.5.1 協同過濾算法為什麼這么流行 151
5.5.2 基於用戶和基於產品的協同過濾 153
5.5.3 協同過濾算法小結 155
第6章 經典的深度學習案例 159
6.1 深度學習綜述 160
6.2 支持向量機——賈伯斯利用大數據對抗癌症 162
6.2.1 賈伯斯和胰腺癌的八年抗戰 162
6.2.2 醫學統計學和支持向量機 164
6.2.3 支持向量機小結 168
6.3 感知器神經網路——最佳的房產價格預測算法 169
6.3.1 如何在我國預測房價 170
6.3.2 多層感知器和誤差曲面 171
6.3.3 感知器神經網路小結 175
6.4 自組織神經網路——如何又快又好地解決旅行商問題 177
6.4.1 最優路徑問題的典型模式和解決方法 177
6.4.2 自組織神經網路的拓撲結構和權值調整 178
6.4.3 自組織神經網路小結 182
6.5 RBM算法——為新聞報導智慧型分類 183
6.5.1 新聞報導智慧型分類的難與易 183
6.5.2 RBM算法的學習目標和學習方法 185
6.5.3 RBM算法小結 188
第7章 經典的數據挖掘案例 191
7.1 數據挖掘綜述 192
7.2 判別分析——美國運通構建客戶流失預測模型 194
7.2.1 美國運通公司的舊日輝煌 194
7.2.2 判別分析的假設條件和判別函式 196
7.2.3 判別分析小結 200
7.3 購物籃分析——找出零售業的最佳商品組合 201
7.3.1 名動天下的“啤酒和尿布”案例 202
7.3.2 購物籃分析的頻繁模式 203
7.3.3 購物籃分析小結 207
7.4 馬爾可夫鏈——準確預測客運市場占有率 208
7.4.1 複雜的客運市場系統 209
7.4.2 機率轉移矩陣的求解方法 210
7.4.3 馬爾可夫鏈小結 213
7.5 AdaBoost元算法——有效偵測欺詐交易的複合算法 215
7.5.1 弱分類器和強分類器之爭 215
7.5.2 AdaBoost元算法的分類器構建方法 217
7.5.3 AdaBoost元算法小結 220
第8章 經典的商業智慧型分析案例 223
8.1 商業智慧型分析綜述 224
8.2 KXEN分析軟體——構建歐洲博彩業下注預測平台 226
8.2.1 現代博彩業背後的黑手 226
8.2.2 集體智慧和莊家賠率的聯繫 228
8.2.3 KXEN軟體小結 231
8.3 數據廢氣再利用——物流公司數據成功用於評估客戶信用 233
8.3.1 數據廢氣和黑暗數據的異同 234
8.3.2 論如何充分利用物流公司數據 235
8.3.3 數據廢氣再利用小結 239
8.4 必應預測——使用往期信息預測自然災害 240
8.4.1 預測自然災害的必要性 241
8.4.2 微軟大數據預測的優與劣 242
8.4.3 必應預測小結 245
8.5 點球成金——助力NBA大數據分析的多種神秘軟體 246
8.5.1 NBA的有效球員數據 247
8.5.2 有關點球成金的靠譜方法 249
8.5.3 點球成金小結 251