《從零進階!數據分析的統計基礎(第2版)》是2016年5月電子工業出版社出版的圖書,作者是經管之家主編曹正鳳。
基本介紹
- 書名:從零進階!數據分析的統計基礎(第2版)
- 作者:經管之家主編曹正鳳
- ISBN:978-7-121-28500-4
- 頁數:256
- 定價:59.00元
- 出版社:電子工業出版社
- 出版時間:2016年5月
- 開本:16
內容簡介,編輯推薦,內容提要,目錄,精彩節摘,作者簡介,前言,
內容簡介
《從零進階!數據分析的統計基礎(第2 版)》共7 章,分別講解了數據分析的步驟和方法、描述性統計分析、數理統計基礎、抽樣估計、假設檢驗、方差分析、相關與回歸分析。本書使用簡單的語言介紹了這些數據分析基本方法的核心思想和涉及的統計學、機率論等方面的理論內容,並使用圖示的方法詳細介紹了使用Excel 2013 進行簡單的描述性統計分析和使用SPSS 進行相關的數據分析的過程與結果分析。
《從零進階!數據分析的統計基礎(第2 版)》適合需要提升自身數據分析理論和實踐能力的職場新人;在市場行銷、金融、財務、人力資源管理中需要數據分析的人士,從事諮詢、研究、分析等的專業人士。也可以作為數據分析師職業培訓的教材,普通高等院校非統計專業數據分析的選修教材。
編輯推薦
“CDA數據分析師系列叢書”依照數據分析師規範化學習體系而定。滿足了CDA數據分析師等級認證學習的需要,也兼顧了大數據的熱點動態。
從策劃之初一直堅持以“讀者需求”為主線,結合企業實際案例和業務場景來談大數據思維和小數據分析。實現技術紮實,業務精通,策略接地氣!
內容提要
《從零進階!數據分析的統計基礎(第2 版)》共7 章,分別講解了數據分析的步驟和方法、描述性統計分析、數理統計基礎、抽樣估計、假設檢驗、方差分析、相關與回歸分析。本書使用簡單的語言介紹了這些數據分析基本方法的核心思想和涉及的統計學、機率論等方面的理論內容,並使用圖示的方法詳細介紹了使用Excel 2013 進行簡單的描述性統計分析和使用SPSS 進行相關的數據分析的過程與結果分析。
《從零進階!數據分析的統計基礎(第2 版)》適合需要提升自身數據分析理論和實踐能力的職場新人;在市場行銷、金融、財務、人力資源管理中需要數據分析的人士,從事諮詢、研究、分析等的專業人士。也可以作為數據分析師職業培訓的教材,普通高等院校非統計專業數據分析的選修教材。
目錄
第1 章數據分析概述 1
1.1 什麼是數據分析 2
1.2 數據分析六部曲 2
1.2.1 明確分析目的和內容 2
1.2.2 數據收集 . 3
1.2.3 數據預處理 . 3
1.2.4 數據分析 . 4
1.2.5 數據展現 . 5
1.2.6 報告撰寫 . 6
1.3 數據分析方法簡介 6
1.3.1 單純的數據加工方法 6
1.3.2 基於數理統計的數據分析方法 7
1.3.3 基於數據挖掘的數據分析方法 8
1.3.4 基於大數據的數據分析方法 11
1.3.5 數理統計與數據挖掘的區別和聯繫 13
1.4 常用數據分析工具的安裝 14
1.4.1 在Excel 2013 中安裝數據分析工具 14
1.4.2 數據分析軟體SPSS 的安裝 . 16
1.5 重要知識點回顧 22
1.6 課後習題 . 23
第2 章描述性統計分析 24
2.1 直方圖 . 25
2.1.1 什麼是直方圖 25
2.1.2 如何看直方圖 25
2.1.3 如何畫直方圖 26
2.1.4 使用Excel 2013 進行直方圖的繪製 27
2.2 數據的計量尺度 30
2.3 數據的集中趨勢 31
2.3.1 平均數 . 31
2.3.2 分位數 . 33
2.3.3 眾數 . 34
2.4 數據的離中趨勢 34
2.4.1 極差 . 35
2.4.2 分位距 . 35
2.4.3 平均差 . 36
2.4.4 方差與標準差 37
2.4.5 離散係數 . 38
2.5 數據分布的測定 40
2.5.1 數據偏態及其測定 40
2.5.2 數據峰度及其測定 41
2.5.3 數據偏度和峰度的作用 42
2.6 數據的展示——統計圖 43
2.6.1 條形圖與扇形圖 43
2.6.2 折線圖 . 44
2.6.3 莖葉圖 . 45
2.6.4 箱線圖 . 48
2.6.5 統計圖小結 . 52
2.7 使用Excel 實現數據的描述性統計及分析 . 52
2.7.1 使用Excel 實現三國全部人物武力描述性統計 . 52
2.7.2 使用Excel 分別實現三個國家人物武力描述性統計分析 . 54
2.7.3 使用Excel 分別實現三個國家武將武力描述性統計分析 . 55
2.7.4 使用SPSS 實現三個國家武將武力的分位數分析 . 56
2.8 重要知識點回顧 59
2.9 課後習題 . 59
第3 章數理統計基礎 62
3.1 抽樣估計基礎 63
3.1.1 隨機事件 . 63
3.1.2 隨機事件的機率 64
3.1.3 隨機變數及其機率分布 66
3.1.4 隨機變數的數字特徵 71
3.2 常態分配及三大分布 72
3.2.1 常態分配的機率密度函式 73
3.2.2 常態分配的特徵 73
3.2.3 標準常態分配 74
3.2.4 基於常態分配的三大分布 77
3.3 中心極限定理 80
3.3.1 中心極限定理的提法 80
3.3.2 中心極限定理的內容 81
3.3.3 中心極限定理的意義與套用 81
3.4 重要知識點回顧 82
3.5 課後習題 . 83
第4 章抽樣估計 . 86
4.1 抽樣估計的基本概念 87
4.1.1 總體及總體指標 87
4.1.2 樣本及樣本指標 88
4.1.3 抽樣估計的思想 89
4.1.4 抽樣估計的理論基礎 91
4.1.5 樣本統計量及分布 92
4.2 抽樣估計的方法——點估計 93
4.2.1 點估計 . 93
4.2.2 點估計精度和樣本容量的關係 95
4.2.3 點估計的優缺點 96
4.3 抽樣估計的誤差 97
4.3.1 抽樣估計的實際誤差 97
4.3.2 抽樣估計的平均誤差 98
4.3.3 抽樣估計的極限誤差 102
4.4 抽樣估計的方法——區間估計 102
4.4.1 抽樣估計的精度及置信度 102
4.4.2 區間估計的方法 105
4.4.3 區間估計的步驟 106
4.5 抽樣的組織形式和抽樣數目的確定 107
4.5.1 抽樣的組織形式 107
4.5.2 必要抽樣數目的確定 109
4.6 重要知識點回顧 112
4.7 課後習題 113
第5 章假設檢驗 . 117
5.1 假設檢驗概述 118
5.1.1 假設檢驗的概念 118
5.1.2 假設檢驗的基本思想 118
5.1.3 假設檢驗在數據分析中的作用 119
5.2 假設檢驗的分析方法 119
5.2.1 假設檢驗的基本步驟 119
5.2.2 假設檢驗與區間估計的聯繫 122
5.2.3 假設檢驗中的兩類錯誤 123
5.2.4 利用P 值進行決策 124
5.2.5 套用假設檢驗需要注意的問題 125
5.3 常見的檢驗統計量 126
5.3.1 z 檢驗統計量 126
5.3.2 t 檢驗統計量 128
5.3.3 2 檢驗統計量 129
5.3.4 F 檢驗統計量 . 129
5.4 SPSS 中常用的幾種t 檢驗實例 . 130
5.4.1 單樣本t 檢驗 . 130
5.4.2 兩獨立樣本t 檢驗 . 133
5.4.3 配對樣本t 檢驗 . 139
5.5 重要知識點回顧 143
5.6 課後習題 143
第6 章方差分析 . 147
6.1 方差分析 148
6.1.1 方差分析的概述 148
6.1.2 方差分析的幾個概念 148
6.1.3 單因素方差分析中的基本假定 149
6.2 單因素方差分析 149
6.2.1 單因素方差分析的原理 149
6.2.2 單因素方差分析的原假設 150
6.2.3 單因素方差分析的統計量 151
6.2.4 單因素方差分析的基本步驟 152
6.3 使用SPSS 實現三國武將武力差異分析 . 152
6.3.1 檢驗不同國家武將數據是否符合常態分配 153
6.3.2 單因素方差分析操作步驟及必要說明 155
6.3.3 對三國武將武力單因素方差分析結果的分析 160
6.4 使用SPSS 實現三國文官智力差異分析 . 163
6.4.1 檢驗不同國家文官數據是否符合常態分配 163
6.4.2 單因素方差分析操作步驟及必要說明 165
6.4.3 對三國文官智力單因素方差分析結果的分析 167
6.5 數說漢室衰微與三足鼎立現象 169
6.6 重要知識點回顧 171
6.7 課後習題 171
第7 章相關與回歸分析 175
7.1 變數間的關係 176
7.1.1 函式關係及特點 176
7.1.2 相關關係及特點 176
7.2 相關分析 177
7.2.1 相關分析及步驟 177
7.2.2 散點圖的繪製 177
7.2.3 相關係數的計算 178
7.2.4 相關係數的顯著性檢驗 182
7.3 使用SPSS 實現相關分析 . 182
7.3.1 在SPSS 中繪製散點圖 . 182
7.3.2 在SPSS 中進行正態性檢驗 . 185
7.3.3 相關係數的計算和檢驗 187
7.4 一元線性回歸分析 189
7.4.1 一元回歸模型及相關假定 190
7.4.2 一元線性回歸方程及求法 190
7.4.3 回歸模型的檢驗 191
7.4.4 回歸直線的擬合優度 194
7.5 使用SPSS 實現一元線性回歸分析 . 195
7.5.1 畫散點圖和趨勢線 195
7.5.2 簡單相關分析 198
7.5.3 一元線性回歸分析的操作步驟 199
7.5.4 一元線性回歸分析的結果解讀 205
7.6 重要知識點回顧 207
7.7 課後習題 208
附錄A 三國人物數據 . 213
附錄B CDA 數據分析師致力於最好的數據分析人才建設 . 226
附錄C 參考答案 . 230
精彩節摘
單純的數據加工方法
這種數據分析方法側重於數據的加工和預處理,使用的工具一般是SQL 和Excel,這是現在市場上大部分企業所使用的數據分析工具,有的公司乾脆就僅使用Excel。該種方法一般是從企業的管理信息資料庫系統或數據倉庫中,對相關數據進行提取、加工、衍生處理和生成各種業務報表。在我們的經濟生活中,經常看到關於同比發展速度、環比發展速度、今年比去年淨增加了多少等新聞報導,這些統計數據計算起來比較簡單,理論難度很低。這種方法最典型的代表就是描述性統計分析和相關分析。
1.描述性統計分析
描述性統計分析是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變數之間的關係進行估計和描述的方法。通俗地講,描述性統計就是當數據分析師需要分析一萬個數時,他僅需要用八個數就把這一萬個數說清楚了,這樣進行決策管理時才不用再看一萬個數,而只看這八個數就能解決問題。描述性數據分析的關鍵就是要看明白這八個數,能解釋清楚其背後的含義。描述性統計分析分為集中趨勢分析、離中趨勢分析和數據分布分析三大部分。
集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢,例如測試班級的平均成績是多少。離中趨勢分析主要靠全距、四分位距、方差、標準差等統計指標來研究數據的離中趨勢。例如,當我們想知道兩個教學班的語文成績哪個班級的成績分布更分散時,就可以用兩個班級的方差來比較。數據分布分析是指和常態分配相比,所得數據的直方圖從形態上看是左偏的還是右偏的,從峰度上看是尖峰的還是扁平的,這些內容會在第2 章詳細介紹。
2.相關分析
相關分析是研究現象之間是否存在某種依存關係,並對具體有依存關係的現象進行相關方向及相關程度的研究。這種關係既包括兩個數據之間的單一相關關係一一例如年齡與個人領域空間之間的關係,也包括多個數據之間的多重相關關係一一例如年齡、抑鬱症發生率和個人領域空間之間的關係;既可以是A 大B 就大(小),A 小B 就小(大)的直線相關關係,也可以是複雜相關關係;既可以是A、B 變數同時增大的正相關關係,也可以是A 變數增大時B 變數減小的負相關關係,還包括兩變數共同變化的緊密程度一一相關係數。
基於數理統計的數據分析方法
數理統計的理論基礎比較複雜,也就是機率論和高等數學中的微積分。當然這裡的微積分只是簡單的一元函式積分,即根據機率論和微積分引出數據的分布,從數據的分布出發,進行數據的抽樣推斷和假設檢驗,由此引出方差分析、回歸分析、因子分析等基於數理統計的數據分析方法。此種分析方法一般使用SPSS Statistics、SAS EG 等分析工具就可以實現。
1.方差分析
方差分析(Analysis of Variance, ANOVA)又稱“變異數分析”、“F 檢驗”,它是R.A.Fisher 發明的分析方法,用於兩個及兩個以上樣本均數差別的顯著性檢驗。由於受各種因素的影響,方差分析研究所得的數據呈現波動狀。造成波動的因素可分成兩類,一類是不可控的隨機因素,另一類是研究中施加的對結果形成影響的可控因素。方差分析是從觀測變數的方差入手,研究諸多控制變數中哪些變數是對觀測變數有顯著影響的變數。
2.回歸分析
回歸分析(Regression)是確定兩個或兩個以上變數之間相互依賴的定量關係的一種統計分析方法,它主要研究一個隨機變數Y 對另一個變數(X)或一組(X1,X2,…,Xk)變數的相依關係,回歸分析按照涉及的自變數的數量,可分為一元回歸分析和多元回歸分析。按照自變數和因變數之間的關係類型,可分為線性回歸分析和非線性回歸分析。此處所講的回歸分析是指一元線性回歸,區別於數據挖掘方法裡的多元線性回歸和邏輯斯蒂回歸。
3.因子分析
因子分析(Factor Analysis)是指研究從變數群中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯繫,減輕決策困難的分析方法。因子分析的方法有十多種,例如重心法、影像分析法、最大似然解法、最小平方法、阿爾法抽因法、拉奧典型抽因法等。這些方法在本質上大都屬於近似方法,是以相關係數矩陣為基礎的,所不同的是相關係數矩陣對角線上的值,採用不同的共同性估值。在社會經濟統計研究中,因子分析常以主成分分析為基礎。
作者簡介
經管之家:原人大經濟論壇,於2003年成立,致力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內最大的經濟、管理、金融、統計類的線上教育和諮詢網站,也是國內最活躍和最具影響力的經管類網路社區。
經管之家從2006年起在國內最早開展數據分析培訓,累計培訓學員數萬人。在大數據的趨勢背景下,創新“CDA數據分析師”品牌,致力於為社會各界數據分析愛好者提供最優質、最科學、最系統的數據分析教育。截至2016年3月已成功舉辦40多期系統培訓,培訓學員達3千餘名;CDA認證考試已成功舉辦三屆,報考人數上千人;中國數據分析師俱樂部(CDA CLUB),每周線下免費沙龍活動,已舉力40多期,累積會員2千餘名;中國數據分析師行業峰會(CDA Summit),一年兩屆,參會人數皆達2千餘名,在大數據領域影響力超前。“CDA數據分析師”隊伍在業界不斷壯大,對數據分析人才產業起到了巨大的推動作用。
曹正鳳,統計學博士,經管之家(原人大經濟論壇)大數據中心總工程師,經管之家(原人大經濟論壇)CDA大數據分析師培訓負責人,北京博宇通達科技有限公司技術總監。致力於大數據分析前沿領域研究,主持人大經濟論壇基於Hadoop架構的論壇主題推薦系統項目,參與國家社科基金項目《基於大數據整合的空氣品質測度方法研究》,發表多篇論文,且發表的EI核心收錄論文受到多次檢索。
前言
序言:這是一個用數據說話的時代
在CDA(註冊數據分析師)Level I 級教材付諸印刷之際,關於數據分析這個職業及其價值的報導就有很多,比如,下面兩條報導就充分體現了在大數據時代下,數據分析的價值。這在以前是從來沒有過的。
LinkedIn 的最新投票結果顯示,“統計分析和數據挖掘”是2014 年最大的求職法寶。LinkedIn對全球超過3.3 億用戶的工作經歷和技能進行分析,公布2014 年最受僱主喜歡、最炙手可熱的25項技能,其中位列榜首的是統計分析和數據挖掘。
麥肯錫公司的一份研究預測稱,到2018 年,在“具有深入分析能力的人才”方面,美國可能面臨著14 萬到19 萬人的缺口,而“可以利用大數據分析來做出有效決策的經理和分析師”缺口則會達到150 萬人。
早在2010 年2 月,肯尼斯·庫克爾在《經濟學人》上發表了一份關於管理信息的特別報告——《數據,無所不在的數據》,文中寫道:“世界上有著無法想像的巨量數字信息,並以極快的速度增長……從經濟界到科學界,從政府部門到藝術領域,很多地方都已感受到了這種巨量信息的影響。”
2011 年,麥肯錫發布了《大數據:下一個具有創新力、競爭力與生產力的前沿領域》,使人們在這篇文章里認識到了數據的力量,於是,一夜之間,面向數據分析市場的新產品、新技術、新服務、新業態正在不斷湧現。從個人、企業到國家層面,都把數據作為一種重要的戰略資產,逐漸認識到了數據的價值,不同程度地滲透到每個行業領域和部門,大大提升了企業的經營利潤,推動了經濟的發展。
這是一個用數據說話的時代,也是一個依靠數據競爭的時代。目前世界500 強企業中,有90%以上都建立了數據分析部門。IBM、微軟、Google 等知名公司都積極投資數據業務,建立數據部門,培養數據分析團隊。各國政府和越來越多的企業意識到數據和信息已經成為企業的智力資產和資源,數據的分析和處理能力正在成為日益倚重的技術手段。
作為一個數學和統計學的強國,數據分析、數據挖掘和大數據價值挖掘行業在我國仍屬於朝陽行業,數據分析人才仍然比較稀缺。各行各業在平常工作中積累的各種各樣的數據分析問題仍然沒有得到及時有效地解決,有些問題,還是關乎本行業發展的至關重要的問題。數據積累越來越多,期待解決分析的數據問題也越來越多,人們逐漸習慣的使用數據作為決策的重要參考依據。據艾瑞的研究報告,未來與數據分析相關的就業崗位會在1000 萬左右,而目前來說國內合格的數據分析師不足5 萬左右,建立一個科學有效的數據分析師培訓體系迫在眉睫。
在這樣一個用數據說話的時代,積累了豐富的數據分析培訓經驗的人大經濟論壇承擔起使命,幾番調查研究,幾番反覆推演論證,在2013 年,這個大數據的“元年”,CDA 註冊數據分析師應運而生!
2003 年,人大經濟論壇依託中國人民大學成立,在金融、管理、統計領域已積澱11 個年頭,在國內享有良好聲譽。
2006 年,人大經濟論壇數據分析培訓中心設立,至今經歷8 個春秋,建立了大陸、台灣一線師資團隊,培養人才已達3 萬餘人。
2013 年,“中國數據挖掘與數據分析俱樂部CDMC”在人大經濟論壇旗下成立,2014 年改名為“中國數據分析師俱樂部CDA”。來自政府、金融、電信、零售、電商、網際網路、教育等行業人士加入會員,成功舉辦了數十場行業聚會。緊接著,積累了數據分析培訓豐富經驗的人大經濟論壇在國內展開CDA 數據分析師系統培訓和認證考試,成功見證了1000 余名數據分析師的成長。
2015 年,人大經濟論壇將提供高水平、多層次的數據分析培訓服務,以在行業積累多年的影響力,吸引更好更多的優秀師資,瞄準行業內重要的數據分析問題和難點,攻堅突破,建立更加規範的行業培訓體系,引領數據分析培訓行業向規範化、有效化和前瞻化方向發展,為數據分析培訓做出應有的貢獻。
其實,數學(含統計)和英語一樣重要,都是人們不可或缺的重要技能。既然英語全民這么重視,數學及其數據分析的技能更加需求於方方面面,更應被做大做強。讓我們共同期待人大經濟論壇辦成另一個數據的“新東方”!
覃智勇
2015 年1 月1 日
前言
本書第1 版自2015 年2 月出版後,在市場上獲得了強烈的反響,當月在噹噹網的新書熱賣榜中排名第二,半年內銷售近萬冊,至2016 年1 月已經印刷了5 次,共發行近兩萬冊,圖書被收錄進中文百科。
如此巨大的市場銷量和好評,引起筆者的深思,除本書構思巧妙、內容翔實、文法流暢等主觀因素外,巨觀的市場環境也是不容忽視的。2015 年,中國經濟由原來的爆發式增長進入到略顯低迷的新常態,無論是企業還是商家都感受到了壓力,錢不再像以前那樣好賺了。如何實現經濟成長,如何讓企業存活下去,這就需要深挖企業內部的痛點和洞察外部客戶的特點。深挖和洞察的過程就是數據分析的過程,數據分析時代在中國悄然到來了。
隨著數據分析師的價值凸顯,有越來越多先知先覺的人們紛紛轉行加入到數據分析師的大軍中。而統計學是數據分析師們必修的課程之一,“從零進階!數據分析的統計基礎”的本意就是讓更多的人能從零基礎快速進階到數據分析領域,並且重點講述數據分析師們必須具備的機率和統計的關鍵知識點。而經管之家(原人大經濟論壇)適時地推出本書,使其得到了很好的市場回饋。正所謂天時地利人和,造就了一本好書。
為了和市場的發展緊密結合,以及更好地適應讀者的需求,本書進行了改版。本次改版繼續堅持從零進階,強化數據分析基礎理論,和市場接軌等核心理念,繼續使用“三國武將”這個大家都耳熟能詳的業務背景知識。根據學員的需求和市場的實際情況,作者還對本書內容進行了如下調整。
(1)進一步精練數據分析的理論基礎,去除了一些不必要的數學公式。由於數據分析涉及機率論、微積分、數理統計的很多內容,但有些內容又不用全部學會,這讓初學者很難找出哪些是需要學習的內容,哪些是不需要學習的內容。因此在編寫本書第1 版時,將很多數據分析師不需要知道的知識點都省略了,比如省略了統計量服從某個分布的證明過程,省略了抽樣平均誤差的證明過程。
這樣做的目的是為了讓數據分析師們能更快地進入這個領域,更好地洞察數據。在編寫本書的第2版時,繼續沿用此思想,去掉了一些數據分析師不必要知道的公式,增加了更多的數據分析思想的內容。
(2)將原來的第3 章抽樣估計分解成數理統計基礎和抽樣估計兩章,這樣做的目的是考慮到原來的第3 章涉及的理論內容太多,並且比較枯燥,將其分成兩部分,一來可以在每一部分增加更多的公式解讀內容,也可以補充更多的案例進來;二來降低了閱讀難度,使讀者能在學習知識的同時,獲得更多的成就感,從而更加有興趣學習。
(3)對試驗數據進行了更多的數據分析,增加了對讀者數據分析思維的培養。尤其是第2 章的描述性數據分析過程,進行了更深入的數據分析過程剖析,主要宗旨在於讓讀者更快地進入到數據分析行業的隊伍中來。當然,這也使得第2 版中的三國武將數據和第1 版中的數據存在一些差異。
當然,僅就本書而言,讀者並不會學到數據分析師所需要的全部知識,這需要幾年的循序漸進學習,但我希望讀者看過本書後,能快速具有數據分析師所需要的最基本的統計學知識,能快速地進入到數據分析的行業,從而具備一個數據分析師應具備的最起碼的知識,在工作中能說內行話,而不是說行外話。
在本書改版之際,作者衷心感謝經管之家(原人大經濟論壇)和CDA 課程研發團隊多年來始終不渝的關心與鼎力支持,感謝關繼傑,感謝廣大讀者給予我的理解與感受,感謝電子工業出版社多年來的密切合作與支持。沒有這一切,本書不可能取得這么好的成果,我永遠感謝曾經幫助和支持過我的相識的和不相識的同志和朋友。由於作者水平有限,本書肯定會有不少缺點和不足,熱切期望得到專家和讀者的批評指正。
曹正鳳
2016 年3 月於北京