數據失信

數據失信,指的是誠實的數據也會說謊,經科學計算得出的統計數據總是與真實生活相去甚遠,“差之毫厘,失之千里”,就算方法正確,不能反映真實情況的統計數據仍然是霧裡看花、水中望月,基於此產生的爭論成了一場場“文字遊戲”和“口水戰”,民眾自然是越看越糊塗。

基本介紹

  • 中文名:數據失信
  • 釋義:數據也會說謊
  • 特點:霧裡看花、水中望月
  • 類別:現象
詞條來由,雷人數據,原因分析,根本原因,

詞條來由

社科院城市發展與環境研究所發布《藍皮書》中稱,截至2009年底,全國城鎮人口為62186萬人,城鎮居民人均可支配收入為17175元。城市中等收入者已達2.3億人,占城市人口的37%左右。城市合理的貧困線在人均年收入7500至8500元之間,全國城市貧困人口數約為5000萬人,占7%至8%。這組數據主要被質疑的方面有:其一,人均年收入7500至8500元的貧困線標準,比大多數地區的最低工資保障線還要低。其二,貧困線太低,導致相當一部分收入相對較低的人群被劃入“中等收入階層”。
住房與城鄉建設部政策研究中心主任陳淮認為,不能以以往的溫飽標準來衡量貧困。不足以滿足自己基本生活需求,都可以歸於貧困,比如醫療保障、孩子上學。隨著生活水平改善,明顯低於整個城市的經濟發展水平也屬於相對貧困化。
社科院發布的《城市藍皮書》顯示,2009年中國城市中等收入階層規模已達2.3億人,城市貧困人口數約為5000萬,光榮“脫貧”的民眾紛紛笑稱“被中產”。事實上,由統計數據引發的“被上座”、“被就業”、“被平均”由來已久,科學計算的統計數據與民眾直觀感受的差別越來越大。有網友創建了“數據失信”一詞來表達諷刺和不滿。

雷人數據

高鐵上座率107%
每站新上人數都會被納入總人數,空車廂不影響上座率。鐵道部網站訊息,京滬高鐵開通運營一個月以來,共開行動車組列車5542列,日均179列;運送旅客525.9萬人,日均17萬人,平均上座率107%。鐵道部解釋稱,上座率是用買票的總人數/總的座位數得出的平均數。但被嚴重忽視的問題是,鐵路不同於飛機,確實存在旅客上下車的問題,非直達車在統計時,路途中每新增的一位遊客應該被累加,然後再除以定員數。
同樣以上海到南京為例,在上海有480人上車,到蘇州下車400人,又上車100人,儘管過了蘇州,車廂里已經沒有多少人,到南京站時僅有180人,但該趟列車的上座率依然為(480+100)/556=104%。
城鎮登記失業率源自“待業登記”
只有城鎮戶口去勞動部門登記才算失業人口,中國上世紀80年代起建立登記失業制度,所有城鎮無業者都必須去政府勞動部門登記,稱為“待業登記”。1994年伴隨中國市場經濟轉型,勞動用工制度改變,政府不再統一分配安置,“待業登記”改名為“失業登記”。“城鎮登記失業率”,顧名思義只面向城鎮戶口擁有者,不包括農村勞動力。
這種既不包括國有及集體企業下崗職工也不包括農民的失業率計算方法已經遭到學界質疑,國際通行的調查失業率既不會將鄉下人區別對待,同時也並非由失業人口主動上門登記,發改委此前稱改革後的調查失業率將從“十二五”期間展開。
60%勞動者未進入統計,“平均工資”不平均
國家統計局2009年公布上半年城鎮平均工資14638元,平均到每月為2440元,數據一出引起廣泛質疑。首先,平均工資不等於實際發放工資,它是將個人津貼、獎金、養老保險、醫療、住房等個人賬戶的所有勞動報酬。其次,國家統計局採用的是總額除以人數的方式,統計樣本包括城鎮在崗職工工資,它包括國有企業、集體企業、股份制經濟、外企等,未包括城鎮私營企業和個體工商戶,但後兩者恰恰是就業的主要方向。2008年的《統計公報》顯示就業實際人數已經達到3.02億, 60%以上的人並沒有包括在統計範圍之內。
2009年房價同比上漲1.5%
2009年2月國家統計局公布數據顯示,全國70個大中城市房屋銷售價格同比上漲1.5%。這一漲幅顯然與民眾經驗迥異,但國土局隨後的緊急解釋也並非沒有道理。差異主要是信源不同,統計局的調查範圍是70個大中城市房價抽樣,甚至還有開發商填寫的數據。此外,2009年房市年初慘澹,年尾紅火,綜合全年數據並不是很高,1.5%指的是全年的平均漲幅。不過,民眾顯然並不買賬,“小數點放錯了”等批評不僅體現了對統計局數據與事實背離的不滿,還有對樓市政策措施未來效果的擔憂。
人均居住月支出111元遠低於實際花費
人均居住月支出111元遠低於實際花費,80%自有住房率≠80%的人有房住。統計局公布的2010年國民經濟核算中,居民消費支出內的“居民人均每月居住支出僅為111元”,但城市房屋租賃者明顯感覺這個數字遠遠低於他們實際花費。統計局官員解釋稱,這個數字是全國平均,北上廣等大城市房屋租賃者很多,但在全國範圍內,自行擁有住房的家庭仍然是大多數。居住支出包括也不包括購建房支出和自有住房虛擬租金。
另外在國家統計局調查樣本中,自有住房戶比重超過80%,極易給人造成全國80%的人有房住的幻覺。但事實上,“自有住房率”原本的意義是有多大比例的房子是私有的。按照聯合國的統計資料,歐美發達和較已開發國家的總自有住宅率普遍在60%至70%,中國在住房自有率上“超英趕美”,那是因為中國住房保障沒有跟上,這是危機,而不是成績。

原因分析

相關部門引起爭論的統計數據有兩個共同點:其一,權威部門經過科學方法統計出的數據是否真實?是的。其二,這些數據與民眾普遍、直接的生活體驗是否符合?不符合。科學松鼠會曾在一份研究報告中為讀者梳理了造成統計數據無法與生活實際對照的原因。
數據本身並不支持所證明的問題
首先最容易設定的陷阱就是把相關說成因果。一般在統計上關心的兩種關係是因果和相關,前者例如缺水導致歉收,後者則相對複雜,比如身高越高體重相應越重,吃高脂肪食物越多,保持健康的幾率越小等等。要強調的是,這些關係並不是因果關係,並沒有足夠證據表明其中一個變數的變化導致了另一個變數的變化。
2011年第一季度,中國GDP同比增長為9.7%,相比2010年一季度11.9%的增速有所回落,就有分析認為,這是汽車和住房市場調控產生的影響,但其實經濟增速放緩與巨觀調控僅僅具有相關性,而不是絕對的因果。世界上有聯繫的事物甚多,但確定因果關係卻需慎而又慎。
抽樣數據
民意調查因樣本構成的偏差常常成了“偽民意”,統計數字誤導最常見來自抽樣問題,首先要保證一定的樣本容量。另一方面,樣本能很好的代表總體,避免調查受到社會傾向的影響,例如,恐怕很少有人願意填寫問卷承認自己歧視農民工,但實際言行顯然是另一回事。
網上常見的所謂民意調查其結果是值得存疑,其原因就在於樣本構成大有問題。某網站將調查放出,最可能看到這個調查的是這個網站的常客;某些話題更能引發人的興趣,有些則只是很少的人關心。這都會導致最終參加調查的人是一個有偏的樣本。結論代表了這些人群,卻不能推廣到全體。
此外還要特別注意平均數這個危險概念,這類計算方法總是容易受到極端數據的影響。回憶一下國小時老師對一個差生拉下全班平均分的憤懣表情。以及一個月收入五萬的老闆和五名月收入兩千元的員工享受著一萬元的月平均工資,而這個平均數居然是一個員工月收入的五倍之多。研究表明,只有在處理一些呈現常態分配的形態特點的數據時,平均數才最有意義。
選擇性忽略
農民工、私企職工、個體戶不在公共政策和數據統計口徑中,國家統計局2009年公布的數據稱,金融危機影響下中國城鎮和農村居民收入增長上半年都超過了GDP。這個數據並不樂觀,因為有專家指出統計部門一定程度上存在著“選擇性統計”的習慣與癖好。以億計的農民工,大量在私營企業工作的職工,以及靈活就業者、從事工商業的個體戶本來應該在公共政策和數據統計口徑中,卻並未得到相應的反映和表現,理由有數據普查難度過大、收入狀況多元化及變動頻率較高等。

根本原因

部門爭利,房價相關統計至少五個部門發布
2007年國家統計局、北京市建委先後發布了北京房價指標,同一個城市,同一時段,國家統計局顯示北京房價上漲7.3%,而北京市統計顯示漲幅為17.3%。這樣的情況也曾在廣州發生,國家發改委和廣州市針對房價得出了一漲一跌完全不同的結果。業內人士指出,差距如此之大,不僅在與統計方法和計算方式不同,更與部門利益密切相關,各個部門都希望自己提供的統計數據成為決策的參照,以引導有利於自己的政策出台。
在已開發國家,哪個統計數據應該由哪個部門完成和發布,有著極為明確的規定,其他部門不能超越職權範圍發布統計數據。中國對此尚不明確,統計局、建設部、發改委、房管局、國土局等等部門,似乎都可以隨意發布有關房價的統計數據,這種狀況導致有關部門爭搶統計話語權。
地方GDP總和屢超中央,下級在統計數據上間接為上級創造政績
全國各省區市上半年(GDP)數據日前悉數公布,31個省區市上半年GDP總和約為22.7萬億元,超出國家統計局發布的全國數據2萬多億元。中國GDP統計“1+1>2”的鬧劇近年來多次上演,除了被歸結為地方GDP“崇拜”,各級統計部門在GDP上“注水”也反映了間接為上級領導創造政績的衝動。
有分析指出,政績需要用數據來體現時,當指標由上向下層層壓來時,自然會有統計數據由下向上層層虛假的現象發生,形成的可能性結果之一就是各地區一級與國家一級在國內生產總值總量、結構和速度核算數據方面的不一致。相反,各種生產傷亡事故漏報、瞞報、環境污染、失業率的“縮水”也是政績壓力之下的另一種表現。

相關詞條

熱門詞條

聯絡我們