數據科學統計基礎

數據科學統計基礎

《數據科學統計基礎》是2021年中國人民大學出版社出版的圖書。

基本介紹

  • 中文名:數據科學統計基礎
  • 作者:呂曉玲 黃丹陽 
  • 出版社:中國人民大學出版社
  • 出版時間:2021年1月31日
  • 定價:49 元 
  • ISBN:9787300286921
內容簡介,作者介紹,目錄,

內容簡介

在數據科學的時代背景下,統計學作為一門學科基礎課和方法論課程,更強調的是統計思想在數據科學中的套用。編寫教材、組織教學都是圍繞著這個核心內容來安排的。我們不再將傳統的常態分配下的抽樣分布、參數估計、假設檢驗的理論和方法作為重點講述內容, 而是將其融入到具體例子中進行講授,突出統計思維在其中的套用。
本書首先介紹統計量的概念及其性質,在此基礎上介紹經典統計的兩個重要內容,參數估計和假設檢驗,將其作為統計研究問題中的兩個例子, 介紹統計研究方法的重要思想。之後介紹統計決策與貝葉斯方法。最後介紹基於再抽樣和數據重利用的統計方法與理論。本書的每個小節後面都有批判性思考題目,目的是引起討論、啟發思考。每章的最後一節介紹了與本章知識點相關的R語言操作, 包括本書介紹的各種方法的計算機實現, 以及使用統計模擬來輔助各種方法的更深入理解等。

作者介紹

呂曉玲,中國人民大學統計學院教授,博士生導師;數據科學與大數據統計系系主任;中國人民大學數據挖掘中心主任。本科與碩士畢業於南開大學數學系機率統計專業,博士畢業於香港城市大學管理科學系。曾經是奧地利約翰克卜勒大學套用統計系以及美國加州大學伯克利分校統計系訪問學者。一直從事統計機器學習、數據科學領域的研究。主持教育部人文社會科學研究項目以及中國國家自然科學基金項目。學術論文在Journal of American Statistical Association, Journal of Electronic Commerce Research等SSCI/SCI檢索的國際學術期刊發表。
黃丹陽,北京大學光華管理學院博士畢業,現任中國人民大學統計學院副教授,中國人民大學傑出青年學者,北京大數據協會理事會副秘書長,常務理事,全國工業統計學教學研究會青年統計學家協會理事。主持國家自然科學基金,北京市社會科學基金等多項科研課題,曾獲北京市優秀人才培養資助。長期從事複雜網路建模、大型網路計算、超高維數據分析等方向的理論研究工作。研究論文發表於國內外權威期刊包括Journal of the American Statistical Association, Journal of Econometrics, Journal of Business and Economic Statistics,以及《統計研究》,《管理世界》等。

目錄

第 1章 數據及其描述 :統計量
1.1數據和變數
1.1.1數據的例子
1.1.2變數的類型
批判性思考
習題1.1
1.2總體、樣本和統計量
1.2.1總體和分布
1.2.2樣本
1.2.3統計量
批判性思考
習題 1.2
1.3從樣本認識總體的圖表方法
1.3.1頻數頻率表與直方圖
1.3.2餅圖與條形圖
1.3.3樣本的經驗分布函式
1.3.4高維數據的圖表展示方法
1.3.5數據變換
批判性思考
習題 1.3
1.4次序統計量
1.4.1次序統計量的概念
1.4.2樣本極差
1.4.3樣本中位數與樣本 p分位數
1.4.4箱線圖和 Q–Q圖
批判性思考
習題 1.4
1.5抽樣分布
1.5.1樣本均值的抽樣分布
1.5.2正態總體各統計量的分布
1.5.3次序統計量的分布
1.5.4用隨機模擬法尋找統計量的近似分布
批判性思考
習題 1.5
1.6充分統計量
1.6.1充分統計量的概念
1.6.2因子分解定理
批判性思考
習題 1.6
1.7常用的機率分布族
1.7.1常用機率分布族表
1.7.2伽瑪分布族
1.7.3貝塔分布族
1.7.4指數型分布族
批判性思考
習題 1.7
1.8與本章相關的 R語言操作
1.8.1基本統計量的計算
1.8.2圖表
1.8.3隨機模擬統計量的抽樣分布
附錄:定理證明
第 2章 參數估計
2.1點估計與無偏性
批判性思考
習題2.1
2.2矩估計與相合性
2.2.1矩估計
2.2.2相合性
批判性思考
習題2.2
2.3最大似然估計與漸近正態性
2.3.1最大似然估計
2.3.2最大似然估計的不變原理
2.3.3最大似然估計的漸近正態性
2.3.4 EN算法
批判性思考
習題2.3
2.4最小方差無偏估計
2.4.1無偏估計的有效性
2.4.2有偏估計的均方誤差準則
2.4.3一致最小方差無偏估計
2.4.4完備性及其套用
批判性思考
習題2.4
2.5 C-R不等式
2.5.1 C-R不等式
2.5.2有效估計
批判性思考
習題2.5
2.6置信區間
2.6.1置信區間概念
2.6.2樞軸量法
2.6.3大樣本置信區間
批判性思考
習題2.6
2.7正態總體參數的置信區間
2.7.1正態總體參數的置信區間
2.7.2二維參數 (μ, σ2)的置信域
2.7.3樣本量的確定
批判性思考
習題2.7
2.8與本章相關的R語言操作
2.8.1隨機變數序列分布的演示
2.8.2最大似然估計
2.8.3 EM算法模擬實例
2.8.4區間估計的模擬結果
2.8.5均值、方差的區間估計
第3章假設檢驗
3.1假設檢驗的概念與步驟
3.1.1假設檢驗問題
3.1.2假設檢驗的步驟
批判性思考
習題3.1
3.2正態總體參數和比率的檢驗
3.2.1正態均值μ的檢驗
3.2.2其他正態總體參數的檢驗
3.2.3成對數據的t檢驗
3.2.4比率的推斷
3.2.5幾個說明
批判性思考
習題3.2
3.3分布的檢驗
3.3.1離散分布的X2擬合優度檢驗
3.3.2連續分布的檢驗
批判性思考
習題3.3
3.4大規模假設檢驗與FDR
3.4.1大規模假設檢驗
3.4.2 FDR方法介紹
批判性思考
習題3.4
3.5與本章相關的R語言操作
3.5.1正態總體的參數檢驗
3.5.2比率檢驗
3.5.3假設檢驗的一個人為例子
3.5.4 X2擬合優度檢驗
3.5.5夏皮洛—威爾克檢驗
3.5.6柯莫哥洛夫—斯米爾諾夫檢驗
3.5.7 FDR例子
第4章統計決策與貝葉斯方法
4.1統計決策的基本概念
4.1.1統計決策問題的三要素
4.1.2統計決策函式與風險函式
批判性思考
習題 4.1
4.2貝葉斯點估計
4.2.1先驗分布與貝葉斯公式
4.2.2先驗分布
4.2.3貝葉斯風險與貝葉斯點估計
4.2.4兩個注釋
批判性思考
習題 4.2
4.3貝葉斯區間估計
4.3.1可信區間
4.3.2最大後驗密度 (HPD)可信區間
批判性思考
習題 4.3
4.4貝葉斯假設檢驗
批判性思考
習題 4.4
4.5與本章相關的 R語言操作
4.5.1不同先驗的對比
4.5.2貝葉斯區間估計
第 5章再抽樣方法
5.1自助法參數估計
5.1.1標準誤差的自助法估計
5.1.2偏差的自助法估計
5.1.3自助法的區間估計
5.1.4討論
批判性思考
習題 5.1
5.2 Jackknife
5.2.1 Jackknife方法介紹
5.2.2 Jackknife和自助法的聯繫
批判性思考
習題 5.2
5.3再抽樣假設檢驗
5.3.1置換檢驗
5.3.2自助法假設檢驗
批判性思考
習題 5.3
5.4交叉驗證
5.4.1交叉驗證簡介
5.4.2進一步討論
批判性思考
習題 5.4
5.5數據科學中的 PCS準則
5.5.1 DSLC中的 PCS準則
5.5.2通過擾動分析進行 PCS推斷
批判性思考
習題 5.5
5.6與本章相關的 R語言操作
5.6.1自助法
5.6.2 Jackknife
5.6.3假設檢驗
5.6.4交叉驗證
5.6.5數據科學中的 PCS準則
附錄 R語言簡介
A.1 R軟體簡介
A.1.1 R軟體的簡單介紹
A.1.2 R軟體的安裝
A.2數據的類型結構
A.2.1數據的類型
A.2.2數據的結構
A.2.3缺失數據的處理
A.3 R的基本操作
A.3.1數據的輸入和輸出
A.3.2控制結構
A.3.3自定義函式
A.3.4畫圖
A.4機率分布
參考文獻

相關詞條

熱門詞條

聯絡我們