抽樣框誤差是因不準確或不完整的抽樣框而引起的誤差。從包含抽樣誤差的抽樣框中抽取的樣本有時無法正確地代表調研目標的實際情況,這就存在抽樣框誤差。在實踐中由於設計或是資料本身等方面的原因,目標總體與抽樣總體往往不一致,無法保證樣本的代表性,而且由於目標總體單位數不準確,對總體進行估計時就會產生估計量偏倚,增大其方差。這種誤差並不是來自抽樣的隨機性,而是產生於不完善的抽樣框,因此稱為抽樣框誤差。抽樣框誤差是一種非抽樣誤差。
基本介紹
- 中文名:抽樣框誤差
- 誤差來源1:丟失目標總體單位
- 誤差來源2:包含非目標單位
- 誤差來源3:複合連線
- 領域:數學
來源,丟失目標總體單位,包含非目標單位,丟失目標單位和包含非目標單位共存,複合連線,不正確的輔助信息,抽樣框老化,減少抽樣框誤差的方法,在抽選樣本之前要對抽樣框加以檢查,聯接遺漏單位法,
來源
丟失目標總體單位
丟失目標總體單位也被稱為“涵蓋不足”,是指抽樣框沒有覆蓋全部目標總體單位,有些目標單位沒有在抽樣框中出現,因而也就沒有機會被選入樣本,這些單位成為丟失目標單位。對丟失的總體單位不能發現並糾正會造成調查中對總量的估計偏低。
包含非目標單位
包含非目標單位也被稱為“過涵蓋”,是指抽樣框中包含了一些不屬於研究對象的非目標總體單位。這種偏差的影響很大,但是潛在威脅卻通常會小一些。因為可以在調查中辨認出非目標元素並把它們剔除。一般情況下,由於抽樣框中存在非目標總體單位,容易造成估計量的高估。
丟失目標單位和包含非目標單位共存
丟失目標單位和非目標單位共存是指在抽樣框中既有丟失目標單位,也有包含非目標單位。在實際調查中,丟失目標單位不易被查覺和發現,具有較大的隱蔽性,相比之下,包含非目標單位的抽樣框誤差的威脅性要小些。因為在調查過程中,非目標單位容易被發現,並予以剔除。此外,如果丟失目標單位和非目標單位數量相當,也相互抵消,估計量是否會產生偏差也難以斷定。這要取決於丟失目標單位和非目標單位的數量特徵是否有顯著差異。
複合連線
複合連線是指抽樣框單元與目標總體單元不完全一一對應,而是存在一對多、多對一或是多對多模式的現象。在前一種模式中,若進行簡單隨機抽樣,能保證每個目的總體單位以同等的可能性被抽中。在後兩種模式中進行簡單隨機抽樣,每個目的總體單位被抽中的機率是不同的,從而使估計量產生偏斜。例如:若某銀行想了解其客戶的情況進行一次抽樣調查,則該行所有客戶構成目的總體。選擇的抽樣框是銀行的來往帳目,這就構成了多對一模式。若在這個框中進行抽樣,則來往帳目多的客戶被抽中的可能性則較大,反之來往帳目少的客戶被抽中的可能性很小,而兩種客戶通常會有較大差異,從而造成樣本的偏斜,使估計量產生偏差。
不正確的輔助信息
不正確的輔助信息誤差也被稱為稱為“內容上的偏差”,這種誤差的主要影響是降低估計的精度。許多抽樣框中包含了輔助信息,可用於特殊的抽樣設計和估計技術。可用這些輔助信息來進行分層抽樣,對規模大小的測度用於與規模成比例的機率抽樣。如果輔助信息的特徵與研究的調查變數的特徵高度相關,還可以用於比率估計和回歸估計。但是這些輔助信息可能有錯誤,或者是一些抽樣單位不具備輔助信息,那么就會對抽樣精度產生巨大的影響。
抽樣框老化
抽樣框老化又被稱為“抽樣框過時”或“不準確的抽樣框”,是指隨著時間的推移,抽樣總體與目標總體產生極大的偏差,即原來的抽樣框不符合實際情況,必須進行更新。最典型的例子,就是隨著城市建設的大規模展開,許多地區已被改造,地址發生了變化,如果仍按以前的抽樣框去抽樣,那么精度就會難以控制。
減少抽樣框誤差的方法
在抽選樣本之前要對抽樣框加以檢查
發現可能存在的問題,進行識別、處理,並採取一定措施加以補救。
可以和普查或其他調查資料的總值或記錄等相比較、分析,進而查明是否存在遺漏。可以利用客觀現實的相互聯繫,找出平衡關係,推算是否有偏差。發現存在問題時,要及時進行補救。當一些目標總體單位對調查結論不會產生太大影響時,可重新把抽樣框定義為可以得到的目標總體單位,將抽樣框視為舊抽樣框所能提供的總體。當抽樣框不能涵蓋抽樣總體時,就可以採用輔助抽樣框,採用此法要避免目標單位的重疊。
聯接遺漏單位法
就是指把抽樣樣本遺漏的個體和抽樣樣本中某個值相聯接,其聯接規則必須在調查前明確規定。其前提條件是在抽樣過程中能發現被遺漏的單位。
此外,對抽樣框進行清查是最費力、最繁瑣也是效果最好的一種方法。在臨近調查前,重新獨立構建抽樣框的全部或部分。