內容簡介
《大數據時代下的統計學》是一本討論時下熱門話題——大數據的書,生動活潑地闡釋了晦澀艱深的統計學原理,條理清晰地告訴讀者如何從數據中獲取智慧。
《大數據時代下的統計學》分為8章,第1章概述了大數據時代統計學面臨的機遇和挑戰。第2、3章講述了統計學在思想方法及數據表述上和大數據處理方法的異同;第4章介紹了對統計學影響深遠的常態分配;第5章探討了大數據時代統計推斷是否失效;第6章重點從統計學視角講述了大數據時代最熱門的變數間的“相關性”問題;第7章以一種比較開放的態度討論統計學中一些有意思又實用的話題;第8章探討大數據能夠給企業、用戶及整個產業和社會帶來什麼價值。
擁有《大數據時代下的統計學》,不僅可以使讀者感受數字的美感和哲學的智慧,還能夠使讀者掌握思辨的洞察力。更重要的是,擁有《大數據時代下的統計學》就相當於擁有了一種武器,數據驅動的思維模式將會使讀者在生活、工作中受益匪淺。
目錄
第1章 大數據時代下的統計學 1
1.1 統計學——天使還是惡魔 1
【知識點】統計學的定義 1
1.2 機率——上帝的指引 3
【案例1】硬幣的指引 3
【案例2】賭徒的錯覺 3
【知識點1】隨機性 4
【知識點2】機率 4
1.3 小機率事件必然不會發生的事件 6
【知識點】“必然會發生”和“必然不會發生”的事件 6
1.4 你真的了解數據嗎 7
【案例】淘寶的客戶評價體系 8
【知識點】數據的類型 8
1.5 數據來自哪裡 10
【案例】大數據,大偏差——谷歌的流感預測模型真的靠譜嗎 10
【知識點1】二手數據 11
【知識點2】相關關係和因果關係 11
第2章 樣本魅影 14
2.1 樣本——窺一斑而見全豹,觀滴水而知滄海 15
【案例1】客戶滿意度調查 15
【案例2】救護車壟斷業務調查 16
【知識點】隨機樣本,方便樣本和自願回應樣本 17
2.2 抽樣——嘗一勺鍋里的靚湯 18
【案例1】紅豆和綠豆 18
【案例2】“捉放法”估算魚苗成活率 19
【案例3】被解僱的市場調研部員工 20
【知識點1】簡單隨機抽樣 21
【知識點2】抽樣中存在的錯誤風險 22
【知識點3】訪問員 23
2.3 不回應誤差——沉默不是金 24
【案例】不回應的影響有多大 24
【知識點1】不回應(Nonresponse) 24
【知識點2】如何降低不回應率 25
2.4 措辭的藝術——僧推/敲月下門 26
【案例2】幾字之差對於民眾支持率的影響 27
【案例3】雙重否定的疑惑 28
【知識點1】回響誤差(Response Error) 29
【知識點2】有效性(Validity)和可靠性(Reliability) 29
2.5 大數據時代,當“樣本”已成往事 31
【案例】Farecast,美國創業夢 31
【知識點】大數據的4V特徵 32
第3章 描述數據 34
3.1 均值——可能會說謊的天平 34
【案例1】中關村創業者平均39歲 34
【案例2】令人啼笑皆非的統計局數據 35
【知識點】均值計算 36
3.2 尋找中位數——排序,數到中間 37
【案例1】騰訊筆試題:大數據量尋找中位數 37
【案例2】淘寶賣家評分體系 38
【知識點1】求取中位數 39
【知識點2】四分位數 40
3.3 標準差、標準誤,傻傻分不清楚 42
【案例1】均值-方差證券資產組合理論 42
【案例2】語文成績調研 42
【知識點1】標準差(Standard Deviation) 43
【知識點2】標準誤(Standard Error) 43
3.4 圖形替數據說話——“剩女”和相親市場 46
【案例】“剩女”和潛力巨大的相親市場 46
【知識點1】餅狀圖(Pie Chart) 48
【知識點2】條狀圖(Bar Chart) 49
【知識點3】散點圖(Scatter Plot) 50
3.5 數據可視化——“雲想衣裳花想容” 51
【案例】誰在開網店 51
【知識點1】什麼是數據可視化 54
【知識點2】數據可視化主要套用領域 55
【知識點3】數據可視化的工具 55
第4章 正態女神 57
4.1 期望——量化你的預期 58
【案例1】擲骰子和伯努利試驗 58
【案例2】賭場就是機率場 59
【知識點1】機率分布 60
【知識點2】期望(Expectation) 61
【知識點3】方差 62
4.2 大數定律——為什麼十賭九輸 63
【案例1】澳門風雲 63
【案例2】誰會是被騙的大傻瓜 64
【知識點】大數定律 65
4.3 常態分配——大道至簡,大美天成 65
【案例1】高爾頓釘板 65
【案例2】女博士嫁人難,誰之過 67
【知識點】常態分配 68
4.4 中心極限定理 70
【案例】肯家和麥家的博弈 70
【知識點】中心極限定理 70
第5章 統計推斷 74
5.1 點估計——統計學家比間諜幹得漂亮 75
【案例1】二戰中的德軍坦克數 75
【案例2】首家新鮮咖啡速遞服務企業 76
【知識點1】樣本統計量和總體參數 77
【知識點2】點估計 77
5.2 置信區間——責善切戒盡言 79
【案例】美國蓋洛普公司的民意調查 79
【知識點1】置信水平 79
【知識點2】置信區間 80
5.3 兩類錯誤:有罪被判無罪和無罪被判有罪哪個更嚴重 81
【案例1】法律中的人文精神 81
【案例2】抗擊伊波拉要避免兩類錯誤 82
【知識點1】零假設和備擇假設 84
【知識點2】兩類錯誤 84
5.4 假設檢驗——“湊巧”可以拒絕嗎 85
【案例1】奶茶情緣 85
【案例2】咖啡新鮮嗎 87
【知識點1】顯著性水平 88
【知識點2】p值 88
【知識點3】統計顯著 88
【知識點4】統計顯著 vs. 實際顯著 89
【知識點5】假設檢驗 vs. 置信區間 89
【知識點6】單側檢驗 vs. 雙側檢驗 90
5.5 p值——打開潘多拉魔盒的鑰匙 92
【案例】金榜題名無望、少年得志夢斷 92
【知識點1】p值的歷史和思想 93
【知識點2】p值誤用 94
第6章 變數間的關係 96
6.1 卡方分析——細膩的眼神里豈容得半粒沙 97
【案例1】仙道遲到事件發生率分析 97
【案例2】性別和文化程度是相互獨立的嗎 98
【知識點1】卡方分布 99
【知識點2】卡方檢驗 100
6.2 相關性分析——早起的鳥兒有蟲吃 102
【案例1】早起的鳥兒有蟲吃 102
【案例2】化妝品銷售額與廣告費的關係分析 103
【知識點1】相關關係 104
【知識點2】相關分析 105
【知識點3】相關表、相關圖和相關係數 106
【知識點4】相關係數t統計量 107
6.3 ANOVA——地域,我們沒有什麼不同 107
【案例】地域歧視問題 107
【知識點1】方差分析 108
【知識點2】方差分析統計模型 109
【知識點3】離差平方和及其分解 110
【知識點4】均方 111
【知識點5】AMOVA F統計量 112
【知識點6】方差分析表 113
6.4 回歸分析——對不起,其實我也想長高 117
【案例1】子女身高遺傳學的發現 117
【案例2】身高地區差異分析 117
【知識點1】回歸分析 119
【知識點2】隨機誤差項 119
【知識點3】最小二乘法 120
【知識點4】回歸分析T檢驗 121
【知識點5】回歸分析F檢驗 122
【知識點6】擬合優度R2 123
第7章 統計雜談 124
7.1 為什麼對回歸情有獨鐘 124
【回歸和電影】 126
【回歸和手遊】 128
7.2 調查問卷中的分類變數 132
【疼痛】 133
【Rank-Invariant】 134
【Svensson Method】 135
【工作環境和員工滿意度】 136
7.3 條件機率和更多的信息 138
【生男生女的問題】 139
【門後的世界:到底是誰錯了】 140
7.4 極大似然估計——看起來最像 142
【白狐,iphone 6 plus和房價】 143
7.5 R you happy 145
【名門閨秀SAS】 145
【國民初戀SPSS】 146
【小家碧玉Stata、Minitab、Excel】 147
【清新蘿莉R】 148
7.6 貝葉斯 149
【起源】 150
【定義】 150
【自拍桿和藍牙耳機】 152
7.7 來自星星的統計陷阱 155
【被黑的統計機構】 155
【統計局的無奈】 157
【王老吉狀告加多寶】 158
第8章 大數據,在水一方 161
8.1 洛陽紙貴——大數據思維 161
【案例1】罩杯和敗家程度 166
【案例2】外灘踩踏悲劇 167
【案例3】大數據和途牛網 169
8.2 大數據驅動運營 171
【案例】DataEye,數據驅動手遊運營 175
8.3 商業智慧型——決策者的錦囊 177
【案例】廣告業的商業智慧型 178
8.4 市場智慧型——商業智慧型的衍生智慧 179
8.5 消費智慧型——當數據成為一種服務 182
作者簡介
本書由楊軼莘主筆編寫,其中第6章由王輝撰寫。
楊軼莘:瑞典厄勒布魯大學商學院統計學博士畢業,北京諾貝倫思教育諮詢有限公司高級諮詢師,旗下商學院CN網站聯合創始人和網站知識分享類微信節目《楊博夜話》製作人和主持人。
王輝:北京大學滙豐商學院金融學(數量金融方向)研究生。善於統計綜合評價方法的套用、金融計量學、經濟計量分析領域的研究。2013—2014年,主持項目《社區養老現狀和需求研究》,獲第四屆全國大學生市場調查分析大賽一等獎和第三屆海峽兩岸市場調查分析大賽二等獎。2014—2015年,參與朱喜安教授的國家社科基金課題《綜合評價方法的優良標準研究》。