單變數統計分析

單變數統計分析

單變數統計分析是對某一變數的數量特徵所進行的描述和推論,它是最簡單也是最基本的統計。包括兩個大的方面,即描述統計推論統計

基本介紹

  • 中文名:單變數統計分析
  • 外文名:Single variable statistical analysis
  • 所屬學科:數學(統計學)
  • 內容:描述統計和推論統計
  • 相關概念:標準差、置信度、四分位差等
基本介紹,單變數描述統計,集中趨勢分析,離散趨勢分析,單變數推論統計,區間估計,假設檢驗,

基本介紹

單變數統計分析可以分為兩個大的方面,即描述統計推論統計。描述統計的主要目的在於用最簡單的概括形式反映出大量數據資料所容納的基本信息。它的基本方法包括集中趨勢分析離散趨勢分析等。而推論統計則是用從樣本中所得到的數據資料來推斷總體的情況,它主要包括區間估計假設檢驗等。

單變數描述統計

集中趨勢分析

集中趨勢分析指的是用一個典型值或代表值來反映一組數據的一般水平,或者說反映這組數據向這個典型值集中的情況。最常見的集中趨勢有算術平均數(簡稱平均數,也稱為均值)、眾數和中位數3種。這裡只對使用最多的平均數略作介紹。平均數的定義是:總體各單位數值之和除以總體單位數目之商。統計分析中習慣用來表示。其計算公式如下:
如果是單值分組資料,那么,計算平均數時首先要將每一個變數值乘以所對應的頻數f,然後將各組的數值之和全部相加,並除以單位總數(也即各組頻數之和)。其公式是:
在調查收人、年齡等方面情況時,常常得到組距分組形式的資料(比如,人口普查的許多數據就是以年齡分組的形式給出的,即我們常常知道的是0~4歲,5~9歲、10~14歲等年齡段的人數、他們的各種特徵等)。這時,若要計算樣本的平均數,就需要先計算出各組的組中值,然後再按照上述單值分組資料計算平均數的公式計算。組中值的計算公式為:組中值=(上限+下限)/2。
當組中值為小數時,通常採取四舍五人的辦法將其化為整數後再計算。

離散趨勢分析

與集中趨勢分析相反,離散趨勢分析指的是用一個特別的數值來反映一組數據相互之間的離散程度。它與集中趨勢一起,分別從兩個不同的側面描述和揭示一組數據的分布情況,共同反映出資料分布的全面特徵。同時,它還對相應的集中趨勢(如平均數、眾數、中位數)的代表性作出補充說明。
常見的離散趨勢統計量有全距標準差異眾比率四分位差等。其中,標準差、異眾比率、四分位差分別與平均數、眾數、中位數相對應,判定和說明平均數、眾數、中位數代表性的大小。下面我們主要介紹標準差和離散係數。
標準差的定義是:一組數據對其平均數的偏差平方的算術平均數的平方根。它是用得最多、也是最重要的離散趨勢統計量,其計算公式為:
對於單值分組數據資料,計算標準差的公式略有變化:
其中,
所對應的頻數。由組距分組資料計算標準差時,只需先計算出各組的組中值,然後按照單值分組資料計算標準差的公式和方法計算即可。離散係數是一種相對的離散趨勢統計量,它使我們能夠對同一總體中的兩種不同的離散趨勢統計量進行比較,或者對兩個不同總體中的同一離散趨勢統計量進行比較。離散係數的定義是:標準差與平均數的比值用百分比表示。其計算公式為:
(CV 為離散係數).

單變數推論統計

簡單地說,推論統計就是利用樣本的統計值對總體的參數值進行估計的方法。推論統計的內容主要包括兩個方面:一是區間估計;二是假設檢驗。

區間估計

區間估計的實質就是在一定的可信度(置信度) 下,用樣本統計值的某個範圍(置信區間)來估價總體的參數值。範圍的大小反映的是這種估計的精確性問題,而可信度高低反映的則是這種估計的可靠性或把握性問題。區間估計的結果通常可以採取下述方式來表述:“我們有95%的把握認為,全市職工的月工資收入在182-218元之間”。或者“全省人口中,女性占50%~52%的可能性為99%”。
區間估計中的可靠性或把握性是指用某個區間去估計總體參數時,成功的可能性有多大。它可以這樣來解釋:如果從總體中重複抽樣100次,約有95次所抽樣本的統計值的某個區間中都將包含總體的參數值,那么就說這個區間估計的可靠性為95%,對於同一總體和同一抽樣規模來說,所給區間的大小與作出這種估計所具有的把握性呈正比,即所估計的區間越大,則對這一估計成功的把握性也越大;反之,則把握性越小。實際上,區間的大小所體現的是估計的精確性問題,上者呈反比,即區間越大,精確程度越低;區間越小,精確程度越高。從精確性出發,要求所估計的區間越小越好;但從把握性出發,又要求所估計的區間越大越好。因此,人們總是需要在這二者之間進行平衡和選擇。在社會統計分析中,常用的置信度分別為90%,95%和99%,與它們所對應的允許誤差(a)則分別為10%,5%和1%。在計算中,置信度常用
來表示。下面我們分別介紹總體均值和總體百分數的區間估計方法。
(1)總體均值的區間估計
總體均值的區間估計公式為:
其中,
為樣本平均數;S為樣本標準差;
叫為置信度是
值;
為樣本規模。
(2)總體百分數的區間估計
總體百分數的區間估計公式為:
這裡,
為樣本中的百分比。

假設檢驗

假設檢驗問題是推論統計中的另一種類型。首先需要說明的是,這裡的假設不是指抽象層次的理論假設,而是指和抽樣手段聯繫在一起並且依靠抽樣數據進行驗證的經驗層次的假設,即統計假設。
假設檢驗,實際上就是先對總體的某一參數作出假設,然後用樣本的統計量去進行驗證,以決定假設是否為總體所接受。假設檢驗所依據的是機率論中的小機率原理,即“小機率事件在一次觀察中不可能出現”的原理。但是,如果現實的情況恰恰是在一次觀察中小機率事件出現了,那該如何判斷呢?一種是認為該事件的機率仍然很小,只不過不巧被碰上了;另- 一種則是懷疑和否定該事件的機率未必很小,即認為該事件本身不是一種小機率事件,而是一種大機率事件。後一種判斷更為合理,它所代表的正是假設檢驗的基本思想。概括起來,假設檢驗的步驟是:
(1) 建立虛無假設和研究假設。通常是將原假設作為虛無假設。
(2) 根據需要選擇適當的顯著性水平a(即機率的大小),通常有a=0.05,a=0.01等。
(3) 根據樣本數據計算出統計值,並根據顯著性水平查出對應的臨界值。
(4) 將臨界值與統計值進行比較,若臨界值大於統計值的絕對值,則接受虛無假設;反之,則接受研究假設。

相關詞條

熱門詞條

聯絡我們