離散量

離散量

離散量有兩個含義,它可以指與連續量相對的、是指分散開來的、不存在中間值的量;也可以指描述數據離散趨勢的統計量,常用的表示數據離散趨勢的統計指標有全距、四分位區間距、平均差方差標準差

基本介紹

  • 中文名:離散量
  • 所屬學科:數學(統計學)
  • 相關概念:連續量,離散趨勢,集中量等
  • 義項1:分散開來的、不存在中間值的量
  • 義項2:描述數據離散趨勢的統計量
與連續量對應的離散量,基本介紹,物理學中的連續量和離散量,描述離散趨勢的統計量,全距,四分位區間距,平均差,方差與標準差,

與連續量對應的離散量

基本介紹

可以說“這個筐里有多少個蘋果”,而不能說“這個桶里有多少個水”,對於水只能說多少而不能說多少個。這樣,多少個和多少之間就有了明顯的區別。
蘋果是一個個分離、獨立存在的,像這類東西(數學上稱作集)在數數目的時候,回答是多少個,這類東西就稱作離散量。例如,人群、鳥群、棍子捆,全都是離散量,因為這些都是一個個相互分離的。在數離散量時總是說1,2,3,…,稱為自然數正整數
與數多少個的離散量相比較,像測量水有多少這樣的量就稱作連續量。因為桶里的水不是一個個分離的,而是連續變化的。
水無論分到多么細小也是水,是不會變的。還有,當把兩個桶里的水倒在一起,仍然是連續的水,看不到有接縫的地方。
像這樣能夠自由地分開和結合的東西就稱為連續量。然而,離散量和連續量的區別也並不是絕對的。例如,我們說多少米的布料是連續量,但若將其縫製成人們所穿的西裝,就必須考慮它已成為離散量了。另外,俄國有一個故事說;“有位老奶奶要給三個孫子分吃兩個土豆,因為不好分割,就把土豆做成了湯,分給三個孫子喝了。”老奶奶是把離散量的土豆,變成了連續量的土豆湯,從而解決了難題。在人類靠摘取樹木的果實和獵取野獸來維持生活的時候,只數離散量就足夠了,不會產生什麼差錯。在數樹木的果實和野獸這樣的離散量時,就說1,2,3,…自然數就行了。後來隨著農業和畜牧業的發展,集體活動和集體生活的興盛,就有了考慮連續量的要求了。假定有10個人捕獲了7隻鹿,當需要把7隻鹿的肉分成相等的10份的時候,或者需要用鹿肉去交換其他東西的時候,自然就產生了考慮分割連續量的問題了。另外,像穀物的量、田地的面積、道路的里程等都是需要知道的,而這些都是連續量。

物理學中的連續量和離散量

連續量通常稱做模擬量,它在時間上和數量上是連續的物理量。如溫度計用水銀長度來表示溫度高低。其特點是數值由連續量表示,其運算過程也是連續的。溫度變化的連續量曲線圖如圖1所示。
圖1  溫度變化的連續量曲線圖圖1 溫度變化的連續量曲線圖
離散量又稱數字量,它是將模擬量離散化之後得到的物理量。即任何儀器設備對於模擬量都不可能有完全精確的表示,因為它們都有一個採樣周期,在該採樣周期內,其物理量的數值都是不變的,而實際上的模擬量則是變化的。這樣就將模擬量離散化,從而成為離散量。如一天中以每小時為單位測量一次溫度的值,則得到24h內離散的時間點上的溫度值,如圖2所示。
圖2 溫度變化的離散量曲線圖圖2 溫度變化的離散量曲線圖

描述離散趨勢的統計量

儘管集中量可以很好地描述一組數據的特徵,但僅用這些統計量還是不夠的。還需要考慮數據的分散情況。有時,兩組數據的平均數和中位數可能完全相同,但這兩組數據之間會存在著很大的區別。請看下面兩組數據:
A組:79 79 79 80 81 81 81
B組:50 60 70 80 90 100 100
這兩組數據的平均數和中位數均為80,但不能據此就簡單認為這兩組學生的水平是一樣的。A組數據與B組數據之間顯然是有區別的。首先,A組中的數據相對比較集中,每個數據的值與平均數80相差無幾;而B組中的數據相對分散一些,參差不齊,它反映了數據分布的另一個重要特徵——變異性(variability)。描述數據離散趨勢的統計量稱為離散量(measures of dispersion),或稱差異量
集中量描述了一組數據的典型情況,離散量則反映了數據的特殊情況。在研究一組數據的特徵時,不但要了解其典型情況,而且還要了解其特殊情況,前面的例子中A組數據和B組數據的集中量相同,但其離散量肯定是不同的,只有同時了解了這兩組數據的集中量和離散量,才能更為透徹地了解這兩組數據之間的差別。常用的表示數據離散趨勢的統計指標有全距四分位區間距平均差方差標準差

全距

全距是說明數據離散程度的最簡單的統計量。把一組數據按從小到大的順序排列,用最高分減去最低分,所得的值就是全距,即最高分和最低分之問的距離。上面A組數據的全距為
;B組數據的全距為
。全距小,說明數據的分布相對集中;全距大,說明數據的分布較為分散。全距的優點是計算方法簡單,而且也容易理解。缺點是由於它只考慮到兩端的數值,沒有考慮中間數值的差異情況,描述數據時不太穩定。

四分位區間距

中位數可以用來表示一組數據分布的集中趨勢。中位數正好把一組數據一分為二。如果把中位數左側和右側的分布再各分成兩個部分,得到的是四個相等的分位。這組數據的第一個四分位(即25%的位置)的值正好處於數據分布的四分之一處,中位數正好是第二個四分位的值,第三個四分位的值剛好位於該組數據分布的四分之三處。把第三個四分位的值減去第一個四分位的值,所得到的值叫做四分位區間距(inter-quartile range,IQR),統計學上也用這種方法來表示數據的離散情況。如上面A組數據的四分位區間距為
;B組數據的四分位區間距為
。除了四分位區間距,統計學上還有十分位區間距百分位區間距,它們的區分方法相同,十分位則將數據由大到小或由小到大排序後,用9個點將全部數據分為十等份,與9個點位置上相對應的變數稱為十分位數(deciles),分別記為
,表示10%的數據落在D1下,20%的數據落在D2下……100%的數據落在D9下。百分位區間距與十分位區間距同例,只是將數據分成100等份,於99個分割點位置上相對應的變數稱為百分位數(Percentiles),分別記為P1,P2,…,P99,表示1%的數據落在P1下……99%的數據落在P99下。

平均差

與全距相比,四分位區間距在表述數據的離散情況時稍微好一些,但由於它沒有把所有的數據都考慮在內,其穩定性會差一些。比如說,我們得到兩組數據,這兩組數據的值並不完全一樣,但最後得到的四分位區間距的值則可能完全一致,這便是用四分位區問距來表示數據分布的不足之處。理想的辦法是把全部數據都考慮在內來計算分布程度。理由很簡單:平均數代表一組數據的集中趨勢,我們把一組數據中的每個數據與平均數相比較就可以得知每個數據與平均數偏離的程度,或者說與平均數差異的情況。如果把這組數據中每個數據與平均數差異的情況相加起來,那么所有數據的差異情況便一目了然。把這個值除以數據的個數,所得的值叫做平均差。其計算公式為:
平均差=
其中,
=每個數據的值;
=總體平均數;
=觀測的數據個數。
從上式可知,平均差是數據分布中所有原始數據與平均數距離的絕對值的平均。用絕對值是為了不出現負數。由於平均差是根據分布中每一個觀測值計算求得的,它較好地代表了數據分布的離散程度。然而,由於平均差的計算要求絕對值,不利於進一步的統計分析,故在統計實踐中平均差不常使用。

方差與標準差

根據上面的公式,如果不求每個原始數據與平均數之差的絕對
平均值,而是求它們之間的平方,這樣就不會有負數出現了。然後再把每個原始數據與平均數之差的平方的值加起來,得到的是每個原始數據與平均數之差的平方和:
。用這個平方和再除以所觀測到的數據的個數,得到的值被稱作方差。用公式表示為:
由於方差的值相對來說比較大,一般情況下人們使用標準差來代表數據的離散程度。標準差就是方差的平方根,其計算公式為:
標準差與方差的概念易於理解,它們實際上都是一個差異量數:標準差的平方就是方差,或方差的平方根就等於標準差,二者都反映了一組數據圍繞平均數分布的情況。標準差的值越大,表明這組數據的離散程度也越大,即數據越參差不齊,分布範圍越廣;標準差的值越小,表明這組數據的離散程度越小,即數據越集中、整齊,分布範圍越小。當數據完全沒有差異時,所有數值都與平均數相等,這時標準差或方差等於零。
有一點需要說明:在上述公式中我們用N作為除數,所得結果並不是十分準確的。這是因為在一般情況下,總體參數是未知的,只能用樣本統計量作估計值,譬如用樣本標準差(S)作為總體標準差(
)的估計值。可以證明,在公式中用N作為除數時(尤其是當N很小時),所得出的作為總體標準差估計值的樣本標準差是有偏差的,而
作除數時,所得標準差則是無偏差的。因此,比較穩妥的做法是用
作除數。當然,當N比較大時,用N或
作除數,所得結果差別不大。

相關詞條

熱門詞條

聯絡我們