偏性樣本即“非隨機樣本”或“非機率樣本”。這類樣本不受機率支配,不是隨機抽取的,因而不能用來推論或代表總體。歷史上,最典型的偏性樣本例子是1936年美國《文摘》雜誌(Literary Digest)組織民意測驗預測總統選舉結果所使用的樣本。
基本介紹
- 中文名:偏性樣本
- 別名:非隨機樣本
當時正值美國經濟蕭條,這家雜誌按照電話簿和私人汽車登記簿上的名單寄出一千萬張詢問卡(模擬選票),收回了其中的二百萬張,預示共和黨候選人奧夫·蘭頓(Alfred Landon)得票率為57%,民主黨候選人富蘭克林·羅斯福(Franklin Roosevelt)得票率為43%,據此推斷奧夫·蘭頓獲勝。但是實際選舉結果是富蘭克林·羅斯福連任總統職務。《文摘》選舉預測失敗的癥結在於它僅從裝有電話的和擁有汽車的人中抽取樣本,而這些人中富有者和持保守態度者居多,並不能代表選舉人總體。
以北京的空氣品質檢測和交通流量預測為例,即便35個空氣品質監測子站已全面覆蓋這座城市,但由於空氣品質隨著時間和地點的不同發生巨大的非線性變化,給空氣品質檢測帶來難度。同樣如果從計程車的GPS軌跡來預測城市交通流量,也會遭遇偏性樣本的挑戰,畢竟私家車和計程車屬性不同,計程車的分布並不具有普遍的代表性。