Python統計分析

內容簡介

本書以基礎的統計學知識和假設檢驗為重點，簡明扼要地講述了Python在數據分析、可視化和統計建模中的套用。主要包括Python的簡單介紹、研究設計、數據管理、機率分布、不同數據類型的假設檢驗、廣義線性模型、生存分析和貝葉斯統計學等從入門到高級的內容。

本書利用Python這門開源語言，不僅在直觀上對數據分析和統計檢驗提供了很好的理解，而且在相關數學公式的講解上也能夠做到深入淺出。本書的可操作性很強，配套提供相關的代碼和數據，讀者可以依照書中所講，復現和加深對相關知識的理解。

本書適合對統計學和Python有興趣的讀者，特別是在實驗學科中需要利用Python的強大功能來進行數和您墓擔據處理和統計分析的學生和研究人員。

圖書目錄

第一部分　Python和統計學

第1章　為什麼學習統計學　2

第 2章　Python　4

2.1　開始　4

2.1.1　慣例　4

2.1.2　發行版和包　5

2.1.3　安裝Python　7

2.1.4　安裝R和rpy2　8

2.1.5　個性化IPython/Jupyter　9

2.1.6　Python資源　12

2.1.7　第一個Python程式　13

2.2　Python數據結構　14

2.2.1　Python數據類型　14

2.2.2　索引和切片　16

2.2.3　向量和數組　17

2.3　IPython/Jupyter：一個互動式的Python編程環境　18

2.3.1　Qt控制台的第一個會話　19

2.3.2　Notebook和rpy2　21

2.3.3　IPython小貼士　23

2.4　開發Python程式　24

2.4.1　將互動式命令轉化為一個Python程式　24

2.4.2　函式、模組和包　26

2.4.3　Python小貼士　30

2.4.4　代碼版本控制　31

2.5　Pandas：用於說多盛統計學的數據結構　31

2.5.1　數據處理　31

2.5.2　分組（Grouping）　33

2.6　Statsmodels：統計建模的工具　34

2.7　Seaborn：數據可視乃匪汗碑化　35

2.8　一般慣例　36

2.9　練習　36

第3章　數據輸店拳元入　38

3.1　從文本檔案中輸入　38

3.1.1　目視檢查　38

3.1.2　讀入ASCII數據到Python中　38

3.2　從MS Excel中導入　42

3.3　從其他格式導入數據　43

第4章　統計數據的展示　45

4.1　數據類型　45

4.1.1　分類數據　45

4.1.2　數值型　46

4.2　在Python中作圖　46

4.2.1　函式式和面向對象式的繪圖方法　47

4.2.2　互動式繪圖　48

4.3　展示統計學數據集　52

4.3.1　單變數數據　53

4.3.2　二元變數和多元變數繪圖　59

4.4　練習　61

第二部分　分布和假設檢驗

第5章　背景　63

5.1　總體和樣本　63

5.2　機率分布　64

5.2.1　離散分布　循踏灑64

5.2.2　連續分布　65

5.2.3　期望值和方差　65

5.3　自由度　66

5.4　研究設計　66

5.4.1　術語　67

5.4.2　概述　67

5.4.3　研嚷良旬究類型　68

5.4.4　實驗設計　69

5.4.5　個人建議　72

5.4.6　臨床研究計畫　73

第6章　單變數的分布　74

6.1　分布的特徵描述　74

6.1.1　分布中心　74

6.1.2　量化變異度　76

6.1.3　分布形狀的參數描述　79

6.1.4　機率密度的重要展示　81

6.2　離散分布　82

6.2.1　伯努利分布　82

6.2.2　二項分布　83

6.2.3　泊松分布　85

6.3　常態分配　86

6.3.1　常態分配的例子　88

6.3.2　中心極限定理　88

6.3.3　分布和假設檢驗　89

6.4　來自常態分配的連續型分布　料市90

6.4.1　t分布　90

6.4.2　卡方分布　92

6.4.3　F分布　94

6.5　其他連續型分布　95

6.5.1　對數常態分配　96

6.5.2　韋伯分布　96

6.5.3　指數分布　97

6.5.4　均勻分布　98

6.6　練習　98

第7章　假設檢驗　100

7.1　典型分析步驟　100

7.1.1　數據篩選和離群值　100

7.1.2　正態性檢驗　101

7.1.3　轉換　104

7.2　假設概念、錯誤、p值和樣本量　104

7.2.1　一個例子　104

7.2.2　推廣和套用　105

7.2.3　p值的解釋　106

7.2.4　錯誤的類型　107

7.2.5　樣本量　108

7.3　靈敏度和特異度　110

7.4　受試者操作特徵（ROC）曲線　113

第8章　數值型數據的均值檢驗　114

8.1　樣本均值的分布　114

8.1.1　單樣本均值的t檢驗　114

8.1.2　Wilcoxon符號秩和檢驗　116

8.2　兩組之間的比較　117

8.2.1　配對t檢驗　117

8.2.2　獨立組別之間的t檢驗　118

8.2.3　兩組之間的非參數比較：Mann-Whitney檢驗　118

8.2.4　統計學假設檢驗與統計學建模　118

8.3　多組比較　120

8.3.1　方差分析（ANOVA）　120

8.3.2　多重比較　123

8.3.3　Kruskal–Wallis檢驗　125

8.3.4　兩因素方差分析　126

8.3.5　三因素方差分析　126

8.4　總結：選擇正確的檢驗方法進行組間比較　127

8.4.1　典型的檢驗　127

8.4.2　假設的例子　128

8.5　練習　129

第9章　分類數據的檢驗　131

9.1　單個率　131

9.1.1　置信區間　131

9.1.2　解釋　132

9.1.3　例子　132

9.2　頻數表　133

9.2.1　單因素卡方檢驗　133

9.2.2　卡方列聯表檢驗　134

9.2.3　Fisher精確檢驗　136

9.2.4　McNemar檢驗　139

9.2.5　Cochran's Q檢驗　140

9.3　練習　141

第 10章　生存時間分析　144

10.1　生存分布　144

10.2　生存機率　145

10.2.1　刪失　145

10.2.2　Kaplan–Meier生存曲線　146

10.3　在兩組間比較生存曲線　148

第三部分　統計建模

第 11章　線性回歸模型　150

11.1　線性相關　150

11.1.1　相關係數　150

11.1.2　秩相關　151

11.2　一般線性回歸模型　152

11.2.1　例子1：簡單線性回歸　153

11.2.2　例子2：二次方擬合　153

11.2.3　決定係數　154

11.3　Patsy：公式的語言　155

11.4　用Python進行線性回歸分析　158

11.4.1　例子1：擬合帶置信區間的直線　158

11.4.2　例子2：嘈雜的二次多項式　159

11.5　線性回歸模型的結果　162

11.5.1　例子：英國的菸草和酒精　162

11.5.2　帶有截距的回歸的定義　165

11.5.3　R2值　165

11.5.4　調整後的R2值　165

11.5.5　模型的係數和它們的解釋　168

11.5.6　殘差分析　171

11.5.7　異常值　174

11.5.8　用Sklearn進行回歸　175

11.5.9　結論　176

11.6　線性回歸模型的假設　177

11.7　線性回歸模型結果的解釋　180

11.8　Bootstrapping　180

11.9　練習　181

第 12章　多元數據分析　182

12.1　可視化多元相關　182

12.1.1　散點圖矩陣　182

12.1.2　相關性矩陣　182

12.2　多重線性回歸　184

第 13章　離散數據的檢驗　185

13.1　等級資料的組間比較　185

13.2　Logistic回歸　186

13.3　廣義線性模型　188

13.3.1　指數族分布　189

13.3.2　線性預測器和連線函式　189

13.4　有序Logistic回歸　189

13.4.1　問題定義　189

13.4.2　最佳化　191

13.4.3　代碼　191

13.4.4　性能　191

第 14章　貝葉斯統計學　193

14.1　貝葉斯學派與頻率學派的解釋　193

14.2　計算機時代的貝葉斯方法　195

14.3　例子：用馬爾可夫鏈蒙特卡洛模擬分析挑戰者號災難　195

14.4　總結　198

參考答案　199

術語表　219

參考文獻　223

Python統計分析

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條