簡介
統計誤用是指統計學的爭論被斷言為
謬誤。在一些情況,這些誤用是意外發生的。可是,在其他情況,這都是有目的的,而且會令犯罪者(使用統計誤用的人)從中得到好處。當其統計原因涉及到錯誤或誤用,便構成了
統計謬誤。
錯誤的統計陷阱會對知識的追求帶來負面的影響。例如將一個醫學上的謬誤會花上數十年,並會招致人命損失。
誤用是很常發生的。即使一些專業的科學家、數學家和統計員小心檢查所有數據,仍有可能被些簡單的方法玩弄到。有科學家發現這是因為他們欠缺有關
機率論的知識和其測試欠
標準化。
誤用的類型
一間公司所需做的事就是找出推廣中性(無用)的產品的方法,例如︰有40個研究指出產品的置信等級有95%。如果該產品真的是無用的,這個數據便會是由1份指出產品是好的、1份指出產品是不好的及38份不確定的研究(38是40的95%)得出的平均值。當研究報告越多時,這個策略便會越有效。組織是不會把他們的所有研究都公開的,例如菸草公司否認吸菸和癌症之間的關聯,而提倡禁菸組織和媒體就嘗試著證明吸菸和多種的痛症是有關聯的,或減肥藥物製造商也常用這個策略。
另一個常見的技巧就是進行其測試中有大量應變項(dependent variable)的研究。例如︰一個測試治療方法的效果的研究可以存活率、在醫院的平均日數、病人自報的疼痛程度等作為應變項。最少一個變項會碰巧展示與自變項(independent variable)的可能性便會增加。
問題的用字能引導受訪者給予某一答案,問卷的結果因而能被操縱(參見
觀察者期望效應)。例如在有關戰爭的民意調查中,問題為︰
你支持美國的企圖能為其他國家帶來自由和民主嗎?
你支持美國的無故軍事行動嗎?
以上兩道問題雖然也有關戰爭的民意調查,但所得出的結果會有所不同。(參見預立論題)
另一做法是在問題前加上支持“理想答案”的資料。例如︰
在前者,有較多人會傾向回答“支持”。(參見誘導性提問)
主條目:輕率概化
輕率概化是當一個統計的的特定總體不能代表原本總體時發生的謬誤。
例如,假設在夏天時的蘋果100%也是紅色的。那么,“所有蘋果都是紅色”的推斷便是過度類化,因為原本的統計只對那些在夏天的蘋果正確,而不能代表所有蘋果。
在現實生活中,禁止通過電話的政治民意調查可見到過度類化的謬誤。由於年青人只擁有一部手提電話,而非也擁有一部家用電話,這種年青人會被視為自由主意者,而沒有家用電話的年青人很大機會會被當作整體,這些民意調查便有效地使很多自由的選民排除在外。
因此,使用這種技巧的民意調查所檢驗的年青人的投票意願,是不能在沒有過度類化的情況下聲稱能代表所有年青人的真正投票意願,這是因為其使用的樣本不是整個總體的代表。
當資料在某個媒體經過非技術性的來源,過度類化便經常出現。
如果一個研究小組希望知道300萬人對指定題目的看法,一一詢問是個不實際的做法。可是,如果這個小組隨意抽出1000人作樣本,這些人給予的回應便可代表那300萬人的意願。。
這個置信區間可以被
中心極限定理和其他數學的結果量化。它會被表達為一個在指定範圍的估計值(較小組別的數字)的真實結果(較大組別)的機率。這是經常被統計調查引用的“正或負”數。這個置信區間的機率部分不是常常被提起,即使有被提起,它也會被假設為像95%的標準數。
這兩個數字是有關的。如果一個問卷調查在95%的置信區間中,其估計誤差為±5%;在99%的置信區間中,其估計誤差為±6.6%。當置信區間為95%時是±%,那置信區間為99%時便多為±%。
當估計錯誤越少時,便需要越大的樣本空間。已知置信區間為95.4%︰ ±1%需要10,000人。 ±2%需要2,500人。 ±3%需要1,111人。 ±4%需要625人。 ±5%需要400人。 ±10%需要100人。 ±20%需要25人。 ±25%需要16人。 ±50%需要4。
很多人採用了這些數字,因為置信區間忽略了這是100%肯定真實結果是存有估計誤差的。這在數學上是不正確的。
很多人可能不會發現樣本空間的隨意性是十分重要的。在日常的做法中,很多輿論調查也通過電話進行,而這種方法會在幾方面歪曲樣本空間,當中包括剔除了沒有電話的人、重複計算了擁有多於一部電話的人等。
非隨機抽樣會使估計誤差變得不可靠。
在另一方面,由於不是所有人的意見也問到或他們從來亦未被訪問,所以很多人都認為統計是不可靠的。不少人認為只透過調查數千人是不可能取得數百萬人的意見,這也是不準確的。一個有完美公正的抽樣和可信答案的調查在數學上被定義為
誤差範圍,這是只取決於調查的人數。
可是,問卷調查通常只有一個誤差範圍。當一小群人的結果被報告時,誤差範圍便會較大,但這可能不太清楚,例如,一個1000人的問卷調查可能會包含100位來自指定種族或經濟組別。聚焦組別得出的結果會比總體的不太可靠。如果整個樣本空間的誤差範圍是4%,那么一個分組的誤差範圍便會是大約13%。 人口調查還會出現很多其他量度上的問題。
以上提及的問題不只會發生在人口調查,還會發生在所有的統計實驗。
主條目:相關不蘊涵因果
當一個統計測試展示A和B之間的關係時,通常也會有5種可能性︰
A導致B。
B導致A。
A和B互相導致對方出現。
A和B一起導致C。
觀察得的關係純屬偶然。
第五個可能性可透過統計測試來量化,計算出來的機率與其可能發生的機會是一樣大的。事實上,變數之間是沒有關係的。可是,即使那個機率的可能性很少,其餘四個可能性仍有機會發生。
如果在沙灘里購買雪糕的人數是與在沙灘里遇溺的人數有關的,那沒有人會斷言雪糕會導致遇溺,這是因為這是明顯地無關。(遇溺和購買雪糕清楚地與第三個因素 – 沙灘上的人數有關)
這個謬誤的例子有證明接觸化學品會導致癌症。很多相信你會把“接觸化學品X的人數”代替“購買雪糕的人數”及把“患上癌症的人數”代替“遇溺的人數”。在這個情況,即使這樣做沒有真正的效果,那仍然有一個統計上的關聯。例如,如果某一地方對化學品站是“危險”(即使它不危險)的資產的看法減少,這會誘使更多低收入家庭搬到該地。即使那種化學品本身不危險,如果低收入家庭較高收入家庭容易患上癌症(這可能是基於更差膳食和醫療技術欠佳等原因),然後患癌率上升。在一些證明電源線的EMF(電磁場)和癌症的關聯的研究中,這個情況真的發生了。
在構思甚佳的研究中,錯誤的因果關係的影響可透過隨機分別分配一些人到“治療組”及“控制組”中來排除,然對治療組的人進行治療,不對控制組的進行治療。在以上的例子,研究可能要把一組暴露在化學品X中和不暴露第二組人在化學品X中。如困第一組人有較高的患癌率,由於研究員控制了實驗對像有否暴露在化學品X中,他便知道沒有第三個因素影響。可是,這樣做實驗是十分昂貴、不可行、不合法或完全不可能的。例如,機構審查委員會大多不會批准進行測試某物質的毒性的實驗,而把人類暴露在危險物質。這類實驗明顯的道德暗示會限制了研究員憑驗經驗地判斷實驗因果關係的能力。
相關術語