基本介紹
統計推斷(statistical inference),是指根據帶隨機性的觀測數據(樣本)以及問題的條件和假定(模型),而對未知事物作出的,以機率形式表述的推斷。它是數理統計學的主要任務,其理論和方法構成數理統計學的主要內容。
統計推斷是從總體中抽取部分樣本,通過對抽取部分所得到的帶有隨機性的數據進行合理的分析,進而對總體作出科學的判斷,它是伴隨著一定機率的推測。統計推斷的基本問題可以分為兩大類:一類是參數估計問題;另一類是假設檢驗問題。在質量活動和管理實踐中,人們關心的是特定產品的質量水平,如產品質量特性的平均值、不合格品率等。這些都需要從總體中抽取樣本,通過對樣本觀察值分析來估計和推斷,即根據樣本來推斷總體分布的未知參數,稱為參數估計。參數估計有兩種基本形式:點估計和區間估計。
統計推斷的一個基本特點是:其所依據的條件中包含有帶隨機性的觀測數據。以隨機現象為研究對象的機率論,是統計推斷的理論基礎。
表述形式
在數理統計學中,統計推斷問題常表述為如下形式:所研究的問題有一個確定的總體,其總體分布未知或部分未知,通過從該總體中抽取的樣本(觀測數據)作出與未知分布有關的某種結論。例如,某一群人的身高構成一個總體,通常認為身高是服從
常態分配的,但不知道這個總體的均值,隨機抽部分人,測得身高的值,用這些數據來估計這群人的平均身高,這就是一種統計推斷形式,即
參數估計。若感興趣的問題是“平均身高是否超過1.7(米)”,就需要通過樣本檢驗此命題是否成立,這也是一種推斷形式,即
假設檢驗。由於統計推斷是由部分(樣本)推斷整體(總體),因此根據樣本對總體所作的推斷,不可能是完全精確和可靠的,其結論要以機率的形式表達。統計推斷的目的,是利用問題的基本假定及包含在觀測數據中的信息,作出儘量精確和可靠的結論。
提高可靠性
個體是總體的一部分,局部的特性能反映全局的特點,但是,由於總體的不均勻性和樣本的隨機性,又使得樣本不能精確地反映總體。因此,抽取部分個體經分析得出有關總體的結論存在著差錯和不可靠。從理論上講有兩種途徑可以消除和減少這種差錯。
儘量均勻
總體是我們要研究的未知事物,我們往往不可能改變他的均勻性,當能夠使其達到理想的均勻時,已經完全掌握了它,沒有研究的必要了。
確保抽樣代表性
採取適當的抽樣方法確保抽樣的“代表性”,可有效地控制和提高統計推斷的可靠性和正確性。隨機抽樣的方法很多,常用的有:
(1)簡單隨機抽樣:
簡單隨機抽樣,是指抽樣過程應獨立進行並且總體中每個個體被抽到的機會均等。隨機抽樣不是隨便抽取,隨便抽取容易受到個人好惡的影響。為實現隨機化,可採取抽籤、擲隨機數骰子或查隨機數值表等辦法。如從100件產品中隨機抽取l0件組成樣本,可以把這100件產品從l開始編號直到100號,然後用抓鬮的辦法任意抽出l0個編號,由這l0個編號代表的產品組成樣本。此種抽樣方法的優點是抽樣誤差小,缺點是手續繁雜。在實踐中真正做到每個個體被抽到的機會相等是不容易的。
(2)周期系統抽樣:
周期系統抽樣,又叫等距抽樣或機械抽樣,即將總體按順序編號,用抽籤或查隨機數值表的方法確定首件,進而按等距原則依次抽取樣本。如從120個零件中取五個做樣本,先按生產順序給產品編號,用簡單隨機抽樣法確定首件,然後按每隔24(由120÷5=24得)個號碼抽取一個,共抽取五個組成樣本。這種方法特別適用於流水線上取樣,操作簡便,實施起來不易出現差錯。但抽樣起點一經確定,整個樣本就完全固定。對總體質量特性含有某種周期性變化,而當抽樣間隔恰好與質量特性變化周期吻合時,就可能得到一個偏差很大的樣本。
(3)分層抽樣法:
分層抽樣法,即從一個可以分成不同子總體的總體中,按規定比例從不同層中隨機抽取個體的方法。當不同設備、不同環境生產同一種產品時,由於條件差別產品質量可能有較大差異,為了使所抽取的樣本具有代表性,可以將不同條件下生產的產品組成組,使同一組內產品質量均勻,然後在各組內按比例隨機抽取樣品合成一個樣本。這種抽樣方法得到的樣本代表性比較好,抽樣誤差較小,缺點是抽樣手續較繁,常用於產品質量檢驗。
(4)整群抽樣法:
這種方法是先將總體按一定方式分成多個群,然後隨機地抽取若干群並由這些群中的所有個體組成樣本。如按照生產過程將1000個零件分別裝入20個箱中,每箱50個,然後隨機抽取一箱,此箱中50個零件組成樣本。這種抽樣方法實施方便,但樣本來自個別群體而不能均勻分布在總體中,因而代表性差,抽樣誤差較大。
統計假設測驗
先假設真實差異不存在,表面差異全為試驗誤差。然後計算這一假設出現的機率,根據小機率事件實際不可能性原理,判斷假設是否正確。這是對樣本所屬總體所做假設是否正確的統計證明,稱為統計假設測驗。
統計假設測驗的基本步驟為:
(3)在
正確的前提下,依統計數的抽樣分布,計算 實際差異由誤差造成的機率;
(4)將算得的機率與
相比較,根據小機率事件實際不可能性原理作出是接受還是否定
的推斷。
同名著作
基本信息
作 者: (美)卡塞拉(Casella,G.),(美)貝耶(Berger,R.L.) 著;
出版時間: 2004-2;
字 數: 824000;
頁 數: 660;
開 本: 16;
紙 張: 膠版紙;
I S B N : 9787111109457;
包 裝: 平裝;
定價:¥39.00。
內容介紹
本書從機率論的基礎開始,通過例子與習題的旁徵博引,引進了大量近代統計處理的新技術和一些國內同類教材中不能見而廣為使用的分布。其內容包括工科機率論入門、經典統計和現代統計的基礎,又加進了不少近代統計中數據處理的實用方法和思想,例如:Bootstrap再抽樣法、刀切(Jackknife)估計、EM算法、Logistic回歸、穩健(Robust)回歸、Markov鏈、Monte Carlo方法等。它的統計內容與國內流行的教材相比,理論較深,模型較多,案例的涉及面要廣,理論的套用面要豐富,
統計思想的闡述與算法更為具體。本書可作為工科、管理類學科專業本科生、研究生的教材或參考書,也可供教師、工程技術人員自學之用。
目錄
出版說明
序
1 Probability Theory
1.1 Set Theory
1.2 Basics of Probability Theory
1.3 Conditional Probability and Independence
1.4 Random Variables
1.5 Distribution FunCtions
1.6 Density and Mass Functions
1.7 Exercises
1.8 Miscellanea
2 Transformations and Expectations
2.1 Distributions of Functions of a Random Varible
2.2 Expected Values
2.3 Moments and Moment Generating Functions
2.4 Differentiating Under an Integral Sign
2.5 Exercises
2.6 Miscellanea
3 Common Families of Distributions
3.1 Introduction
3.2 Discrete Distributions
3.3 Continuous Distributions
3.4 Exponential Families
3.5 Location and Scale Families
3.6 Inequalities and Identities
3.7 Exercises
3.8 Miscellanea
4 Multiple Random Variables
4.1 Joint and Marginal Distributions
4.2 Conditional Distributions and Independence
4.3 Bivariate Transformations
4.4 Hierarchical Models and Mixture Distributions
4.5 Covariance and Correlation
4.6 Multivariate and Correlation
4.7 Inequalities
4.8 Exercises
4.9 miscellanea
5 Properties of a Random Sample
……
6 Principles of Data Reduction
7 Point Estimation
8 Hypothesis Testing
9 Interval Estimation
10 Asymptotic Evaluations
11 Analysis of Variance and Regression
12 Regression Models
Appendix:Computer Algebra
Table of Common Distributions
References
Author Index
Subject Index