《 玩轉大數據:SAS+R+Stata+Python》是清華大學出版社出版的一本圖書,作者是孫江偉 王韻章 寧錚 李夏 王吟曦 李琳 卞偉瑋 。
基本介紹
- 中文名:玩轉大數據:SAS R Stata Python
- 作者:孫江偉 王韻章 寧錚 李夏 王吟曦 李琳 卞偉瑋
- 出版社:清華大學出版社
- ISBN:9787302570677
內容介紹
面對日漸複雜的大數據,科技工作者很難用單一的統計軟體高效、完美地完成從數據挖掘、數據清洗、統計分析到結果呈現的全部工作,因此需要熟悉和掌握多種統計工具,各取所長、整合使用。本書立足於大數據研究的現狀,基於實際醫療案例,介紹數學基礎知識和統計學基礎知識,SAS、R語言、Stata和Python這4款大數據常用分析工具的基礎編程知識及實踐操作。本書主要面向在校本科生、研究生,以及要掌握SAS、R語言、Stata和Python的數據工作者,熟悉四個軟體的任意一個且想要在短時間內掌握其他軟體的讀者,也適合醫科學生、臨床醫生或藥企人員等醫療相關人員學習使用。
目錄
第1章數學基礎1
1.1常用的數學符號1
1.2常見概念2
1.2.1集合2
1.2.2極限3
1.3微積分5
1.3.1導數與微分5
1.3.2基本初等函式的導函式和微分公式6
1.3.3導數與微分的運算法則7
1.3.4定積分與不定積分8
1.3.5基本的不定積分公式9
1.3.6定積分與不定積分的性質10
1.4線性代數11
1.4.1標量與向量11
1.4.2矩陣與線性方程組11
1.4.3行列式的定義與運算12
1.4.4矩陣的運算法則14
1.4.5特殊的矩陣16
1.4.6矩陣的秩17
1.4.7矩陣的轉置與矩陣的逆18
1.4.8特徵向量與特徵值18
第2章統計學基礎20
2.1機率論的基本概念20
2.2隨機變數與分布21
2.2.1隨機變數21
2.2.2累積分布函式222.2.3機率函式22
2.3隨機變數的數學特徵23
2.3.1數學期望23
2.3.2期望值的規律24
2.3.3條件期望25
2.3.4協方差與相關係數25
2.3.5樣本均值和方差26
2.4常見的隨機變數分布27
2.4.1離散變數分布27
2.4.2連續變數分布28
2.5統計學基本概念32
2.5.1總體與樣本32
2.5.2參數和統計量32
2.5.3中心極限定理32
2.6統計描述32
2.6.1定量資料的統計描述32
2.6.2分類資料的統計描述34
2.7統計推斷34
2.7.1參數估計34
2.7.2假設檢驗38
2.8多因素回歸模型40
2.8.1多因素線性回歸模型40
2.8.2多因素Logistic回歸模型41
2.8.3多因素Cox回歸模型43
第3章軟體基礎總論45
3.1軟體初識45
3.1.1SAS45
3.1.2R語言45
3.1.3Stata45
3.1.4Python46
3.24個軟體的比較46
第4章SAS基礎52
4.1SAS介紹與資源52
4.1.1SAS語言及程式結構52
4.1.2SAS工作界面53
4.1.3獲得幫助54
4.2數據的導入與導出55
4.2.1導入數據55
4.2.2導出數據67
4.3SAS中常用的函式70
4.3.1字元型函式70
4.3.2數值型函式80
4.3.3日期型函式84
4.3.4特殊函式86
4.3.5其他函式89
4.4SAS變數91
4.4.1變數屬性92
4.4.2自動變數92
4.4.3變數列表的縮寫規則92
4.4.4創建變數94
4.4.5改變變數屬性96
4.4.6改變變數類型96
4.5SAS數據處理97
4.5.1選取變數97
4.5.2創建變數99
4.5.3對觀測求和100
4.5.4選取並操作部分觀測102
4.5.5循環和數組104
4.5.6數據集的橫向合併和縱向合併107
4.5.7增加數據集處理靈活性的SAS選項111
4.6SAS中常見的proc步113
4.6.1proc contents113
4.6.2proc datasets114
4.6.3proc freq116
4.6.4proc means118
4.6.5proc sort120
4.6.6proc transpose121
4.6.7proc univariate123
4.6.8proc corr125
4.6.9proc reg126
4.6.10proc logistic128
4.6.11proc lifetest129
4.6.12proc phreg130
4.7PROC SQL131
4.7.1檢索數據131
4.7.2合併數據集135
4.7.3使用PROC SQL管理表137
4.8SAS宏介紹143
4.8.1宏變數143
4.8.2宏函式147
4.8.3宏程式151
4.8.4宏參數152
4.8.5宏語言與data步153
4.8.6宏語言與PROC SQL157
4.8.7條件語句和循環語句在宏語言中的使用161
第5章R語言基礎163
5.1R語言介紹163
5.1.1R語言的特點與資源163
5.1.2RStudio使用簡介163
5.2R語言的基本規則164
5.2.1對象165
5.2.2函式使用基礎165
5.2.3擴展包166
5.2.4幫助167
5.3數據類型167
5.3.1vector167
5.3.2factor169
5.3.3date171
5.3.4matrix172
5.3.5list175
5.3.6data.frame179
5.3.7formula181
5.4常用函式介紹182
5.4.1數據的讀入和導出182
5.4.2條件判斷183
5.4.3循環186
5.4.4文本處理188
5.4.5基本作圖190
5.4.6自定義函式192
5.5常用數據處理與統計分析函式195
5.5.1單變數分析195
5.5.2雙變數、多變數分析198
5.5.3線性回歸模型200
5.5.4Logistic回歸模型202
5.5.5生存分析模型203
5.6dplyr包簡介206
5.6.1安裝dplyr包206
5.6.2dplyr包中最常用的5個函式206
5.6.3用%>%運算符連線多個函式211
5.6.4dplyr包中其他實用的函式212
5.7ggplot2包簡介214
5.7.1安裝ggplot2包214
5.7.2使用ggplot2畫圖的基本思路214
5.7.3使用geom_histogram函式繪製直方圖215
5.7.4使用geom_bar函式繪製柱狀圖217
5.7.5使用geom_boxplot函式繪製箱形圖217
5.7.6使用geom_point函式繪製散點圖220
5.7.7使用geom_smooth函式在散點圖上添加線性回歸結果223
5.7.8對圖中細節進行微調224
5.7.9將多個圖合併為一個圖225
5.7.10保存圖228
第6章Stata基礎229
6.1Stata簡介229
6.1.1界面介紹229
6.1.2在選單欄中選擇命令230
6.1.3輸入命令代碼230
6.2獲得幫助230
6.2.1檢索關鍵字230
6.2.2查看幫助231
6.2.3幫助建議231
6.3語法結構231
6.3.1變數集232
6.3.2by前綴233
6.3.3命令234
6.3.4=表達式234
6.3.5if表達式236
6.3.6in範圍236
6.3.7權重237
6.3.8命令選項237
6.3.9數值集合238
6.3.10檔案名稱238
6.4數據轉換與分析239
6.4.1導入數據239
6.4.2瀏覽數據與基本描述240
6.4.3數值變數243
6.4.4文本變數247
6.4.5日期變數252
6.4.6缺失值253
6.4.7注釋變數254
6.4.8調整數據結構256
6.4.9基本描述258
6.4.10統計檢驗260
6.4.11相關分析262
6.4.12回歸分析263
6.4.13導出數據267
6.5輸出結果調用268
6.5.1一般統計命令結果調用268
6.5.2估計命令結果調用269
6.6重複命令271
6.6.1by前綴271
6.6.2foreach循環274
6.6.3forvalues循環275
6.7編程工具275
6.7.1do檔案275
6.7.2標量變數276
6.7.3宏變數277
6.7.4矩陣279
6.7.5程式283
第7章Python基礎284
7.1Python的安裝284
7.1.1使用Python安裝包安裝Python 3284
7.1.2通過Anaconda安裝Python 3285
7.2常用互動式語言開發環境287
7.2.1編輯器288
7.2.2控制台289
7.2.3變數管理器290
7.3常用數據類型、數據結構與基本語句291
7.3.1Python中的變數命名規則291
7.3.2常見的數據類型及運算291
7.3.3常見的數據結構及運算291
7.3.4第一個程式295
7.3.5函式295
7.3.6常用邏輯語句298
7.4數據的導入與導出302
7.4.1數據的讀取302
7.4.2數據存儲304
7.5基礎運算常用包——NumPy 304
7.5.1基本性質304
7.5.2矢量化運算306
7.5.3NumPy中的函式306
7.5.4ndarray的軸、索引與切片309
7.5.5實戰舉例: 用NumPy進行圖像處理313
7.6數據處理常用包——Pandas316
7.6.1主要數據類型316
7.6.2對DataFrame的描述318
7.6.3缺失值的檢測與處理319
7.6.4DataFrame的索引321
7.6.5常見操作325
7.6.6字元處理專題328
7.6.7apply專題331
7.6.8groupby專題333
7.7統計分析常用包338
7.7.1單樣本t檢驗339
7.7.2獨立樣本t檢驗340
7.7.3兩個連續型變數的相關性341
7.7.4兩個分類變數的頻數統計341
7.7.5線性回歸模型342
7.7.6Logistic回歸模型345
7.7.7生存分析347
7.8繪圖常用包352
7.8.1Pandas352
7.8.2Matplotlib356
7.8.3Seaborn360
第8章軟體實踐總論366
8.1本書使用的數據集366
8.1.1病人基本信息數據集366
8.1.2診斷信息數據集367
8.1.3實驗室檢測結果數據集(一)368
8.1.4實驗室檢測結果數據集(二)368
8.1.5用藥信息數據集368
8.1.6急性心肌梗死數據集369
8.2軟體實踐步驟369
8.2.1數據清洗369
8.2.2數據準備370
8.2.3數據分析370
8.2.4結果整理370
8.2.5代碼的重複使用370
8.3實例: 擬研究的課題371
第9章SAS實踐部分372
9.1數據的清洗與管理372
9.1.1病人基本信息數據集372
9.1.2診斷信息數據集376
9.1.3實驗室檢測結果數據集(一)381
9.1.4實驗室檢測結果數據集(二)387
9.1.5用藥信息數據集390
9.2數據分析與結果整理393
9.2.1定量數據的統計描述394
9.2.2分類數據的統計描述398
9.2.3相關分析402
9.2.4線性回歸分析406
9.2.5Logistic回歸分析412
9.2.6Cox回歸分析418
第10章R語言實踐部分425
10.1數據的清洗與管理425
10.1.1病人基本信息數據集425
10.1.2診斷信息數據集431
10.1.3實驗室檢測結果數據集(一)435
10.1.4實驗室檢測結果數據集(二)439
10.1.5用藥信息數據集442
10.2數據分析與結果整理445
10.2.1定量數據的統計描述446
10.2.2分類數據的統計描述449
10.2.3相關分析452
10.2.4線性回歸分析453
10.2.5Logistic回歸分析457
10.2.6Cox回歸分析463
第11章Stata實踐部分470
11.1數據的清洗與管理470
11.1.1病人基本信息數據集470
11.1.2診斷信息數據集483
11.1.3實驗室檢測結果數據集(一)490
11.1.4實驗室檢測結果數據集(二)495
11.1.5用藥信息數據集500
11.2數據分析與結果整理504
11.2.1定量數據的統計描述504
11.2.2分類數據的統計描述511
11.2.3相關分析516
11.2.4一般線性回歸分析519
11.2.5Logistic回歸分析526
11.2.6Cox回歸分析535
11.3Stata在Meta分析中的套用545
11.3.1Meta分析簡介545
11.3.2二分類變數的Meta分析548
11.3.3連續性變數的Meta分析552
11.3.4發表偏倚分析553
第12章Python實踐部分557
12.1數據的清洗與管理557
12.1.1病人基本信息數據集557
12.1.2診斷信息數據集566
12.1.3實驗室檢測結果數據集(一)571
12.1.4實驗室檢測結果數據集(二)578
12.1.5用藥信息數據集582
12.2數據準備和數據分析584
12.2.1定量數據的統計描述584
12.2.2分類數據的統計描述587
12.2.3相關分析589
12.2.4線性回歸分析591
12.2.5Logistic回歸分析595
12.2.6Cox回歸分析602參考文獻609附錄A常用假設檢驗方法610附錄B正則表達式619附錄C系統綜述與Meta分析技術路線圖622