無回答的含義
無回答是影響調查數據分析結論可信度的重要因素,可能造成估計量的系統偏差。在調查設計、調查數據收集、整頁凳應理和分析過程中的很多潛在因素都可能造成無回答。在調查實踐中,無回答是指單元沒有提供某些或全部調查數據。一般地,無回答分為單元無回答和項目無回答。單元無回答是指單元沒有接受調查,或沒有提供調查問卷的任何信息。例如,沒有收回調查問卷,或者收回的調查問卷全部項目空白而出現的無回答。項目無回答是指單元只回答了調查問卷的某些而不是全部的調查數據。例如,在新藥臨床試驗過程中,或者單元認為新藥療效不好而停止用藥,或者認為新藥療效好,病戒采熱殼情好轉而不再繼續治療,造成項目無回答。
在現場調查中,事前安排好的實驗被意外原因終止造成無回答;一些特殊原因的失訪也會導致單元無回答;檢測限以下數值由於測量工具的局限性會造成無回答;實驗單元意外死亡會造成無回答;跟蹤調查時單元搬遷而無法取得聯繫造成無回答,等等。在調查實踐中,無回答經常發生,甚至很難避免。特別是以人為單元,更碑廈容易出現無回答。很多教材曾引用下面一個案例。1992年,英國保守棕套籃黨第四次在大選中以7.6%的優勢勝出。在大選當日,4個主要民意調查公司最後一次民意測驗結果仍然表明工黨領先了0.9%,預測誤差達到了8.5%。在後來的研究中發現,引起如此大預測誤差的主要原因之一是在民意測驗中沒有明確意圖的選舉人導致預測誤差大於2%。在調查中,這些選舉人“拒絕回答”或回答“不知道”,在進行統計分析時沒有對這些數據采巴敬求取適當的統計分析方法,導致統計分析的嚴重偏差。
目前,無回答擔舉臭懂的研究文獻很多,對無回答含義的解釋並不完全一致。Little and Rubin(1987)用無回答機制描述無回答的含義。Graham(2012)定義無回答為單元完成調查的狀態。後者的定義是為了引入描述無回答狀態變數M,M=1表示調查數據Y是觀測的,不是無回答;M=0表示調查數據Y為無回答。
產生無回答的原因
在實際調查中,無回答產生的可能原因很多,涉及到調查組織者、調查方案設計者、調查員和被調查單元以及調查的各個階段等。其中,主要原因如下。
1.調查方案設計不合理或者問卷設計不恰當,導致調查得不到被調查單元的數據;問卷涉及個人隱私或者工作機密,被調查單元不願或不能回答;調查問卷過長,調查項目過多,被調查單元沒有足夠時間完成調查問卷;調查項目太複雜或選項含糊不清,被調查單元無法正確理解調查項目含義。
2.調查員缺少職業素養,對被調查單元不熱情不主動,往往招致被調查單元拒絕回答調查項目;調查員缺乏追問、補問、查漏等必備的基本能力和技巧;調查員的工作態度不積極,往往會放棄聯絡困難的被調查單元;現場調查的調查員遺漏填寫某些調查項目,或者認為調查項目無關緊要或者對調查項目理解不當而沒有調查。
3.調查單位沒有做好調查的宣傳和組織工作,被調查單元經常以各種藉口拒絕參加調查;調查時間選擇不當,往往找不到外出頻率較高的被調查單元;或者被調查單元比較忙、正在就餐或者正在準備外出而不接受入戶調查。
4.數據錄入員由於粗心遺漏了某些調查數據,或者按照自己意願刪除某些調查數據。
5.學歷較低的被調查單元經常拒絕參加調查,或者不理解而不回答調查問題;學歷較高的被調查單元更容易接受調查,但所提供的調查數據真實性不一定好於學歷較低的被調查單元。
6.對於敏感性調查項目,被調查單元認為某些項目可能會招致日後麻煩或不利影響而拒絕回答;種族和民族的忌諱會引起被調查單元的消極情緒而拒絕回答;調查問卷的調查項目表述不明確,或者調查項目不能引起被調查單元的興趣容易產生無回答。
7.被調查單元是聾啞人、智障或文盲;作為獨生子女的被調查單元無法回答有關兄弟姐妹關係等調查項目;被調查單元無讀寫能力,不能參加郵寄調查;在醫學和生物學等的臨床實驗研究中,被調查單元的治癒康復、死亡或不願意繼續參加實驗而中途退出;在電話調查中,被調查單元的聽力和語言障礙而無法進行調查。
8.被調查單元的疏忽也會遺漏某些調查項目;被調查單元態度消極、對調查重要性認識不夠、出於自身原因殼戲促或情緒欠佳等拒絕參加調查。
9.調查員對某些被調在單元沒有調查權,或者被調查單元地址不詳,或者被調查單元無法尋找等,統計保障制度建立得不完善,缺乏統計執法力度不能保證某些調查的順利進行。
10.在網路調查中,郵件沒有到達被調查單元信箱,或郵件達到被調查單元信箱但被調查單元在調查期間沒有打開信箱;被調查單元的計算機無法下載調查問卷;調查員沒有收到或無法下載已完成的調查問卷。
11.含調查問卷的信件無人打開;電話調查中,調查員的電話無人接聽。
上述羅列的是產生無回答的常見原因,還有很多未被羅列的其他原因也會導致無回答。羅列出無回答的全部潛在原因很困難,甚至是不可能的。調查員和調查組織單位更傾向於高質量完成調查工作,積極性和主動性更高,不斷積累調查經驗和付出更多的努力,往往會減少或避免自身原因所造成的無回答。與調查人員和調查組織單位相比,被調查單元並不會更多關注調查工作,很難主動去減少或避免無回答的出現。
無回答偏差
在無回答的早期研究中,人們假定無回答是被調查單元的本質特徵,被調查單元要么回答調查項目,要么不回答調查項目。按照是否回答調查項目,將所有被調查單元分為兩個集合,回答調查項目的被調查單元集合稱為回答層,不回答調查項目的被調查單元集合稱為無回答層。
這裡,為了簡單,只關心一個調查項目Y。令
分別為總體中被調查單元總數、回答層單元數和無回答層單元數,
分別為總體均值、回答層均值和無回答層均值。設無回答層和回答層的被調查單元數占比分別為
。可以驗證
,並且,
。由於事前很難判斷每個單元是否為無回答,
都未知。從總體中隨機抽取的單元,可能來自於回答層,也可能來自於無回答層。觀測到的樣本標誌值都是來自回答層的單元,樣本均值記為
。 當抽樣方法是
簡單隨機抽樣,回答層的樣本均值是回答層均值的無偏估計,即
。用樣本均值
估計總體均值
,偏差為
偏差大小取決於無回答層單元數占比
,以及回答層均值和無回答層均值之間的差值。對於簡單隨機抽樣,樣本均值是總體均值的無偏估計。由於無回答導致觀測的樣本量減小,用觀測的樣本均值估計總體均值的偏差稱為無回答偏差。在數據分析模型中,由於無回答導致模型參數估計量的期望不再等於參數真值,也稱其偏差為無回答偏差。
在很多社會調查中,無回答單元往往與回答單元具有不同的統計特徵,差值
往往不等於0,而且未知的,無回答造成估計量偏差很難確定。在有些情況下,無回答是客觀的偶然因素導致的,不會造成回答層與無回答層之間差異,只會造成樣本量減小。在另外一些情況下,回答單元和無回答單元的統計特徵存在較大差異,回答層樣本不能全面反映總體的統計特徵,造成估計量的偏差很大。
根據等式(1),當無回答層均值與回答層均值之間差異較小或無回答率W
M較小時,無回答偏差也較小。在實際調查中,差值
未知,減小偏差只能儘量降低總體無回答率W
M。有些學者鼓勵調查數據具有適當高的回答率,認為回答率應該大於50%,回答率高於60%更好。有些學者認為面訪調查的回答率為85%是合適的最低限度,回答率低於70%很可能產生嚴重偏差。目前,由於實際調查問題的複雜性,還沒有無回答率最低限度的公認標準,低於公認標準將導致較大無回答偏差。
注意到,等式(1)成立條件為無回答是單元的本質特徵。然而,隨著抽樣調查的廣泛套用,有些領域的研究發現,無回答率對總體均值估計量的影響並不大。降低無回答率不一定會降低無回答偏差,有時反而使偏差變大。研究文獻也指出,無回答偏差也受到調查環境的影響。,
為了描述偏差的嚴重程度,Collins et al. (2001)採用了標準化偏差。記估計量
的標準化偏差為SB(
),均方誤差為MSE(
)。則
Collins et al. (2001)認為,標準化偏差的絕對值不超過40%,無回答不會對估計量造成顯著影響;標準化偏差超過40%,無回答可能導致統計分析出現顯著偏差。無回答原因和調查項目的相關程度也影響標準化偏差大小。
無回答的敏感性分析是在給定參數取值區間內,檢驗無回答對估計量偏差的影響。如果在給定的參數值範圍內無回答偏差很小,則傾向於無回答偏差的真實水平很小。敏感性分析的參數包括無回答率、目標變數和輔助變數之間相關係數,無回答原因變數與目標變數之間相關係數等。對於未知的相關係數,需要進行估計。在參數取值範圍內,無回答偏差顯著性的檢驗統計量
其中
為模擬次數。該檢驗統計量漸進服從T分布,自由度等於模擬次數減2。
偏差度量估計量的均值和總體真值之間差值,在很多情況下並沒有太大價值,但是很多其他評價無回答偏差的方法都是偏差的函式。對於無回答偏差的評價,偏差的局限性是在模擬過程中偏差的顯著性與模擬次數有關。標準化偏差是偏差的函式,評價無回答偏差更合理;局限性是隨著樣本量增加而標準化偏差增大。評價無回答偏差的其他方法還有標準差、相對偏差、根均方誤差等。
無回答問題的解決方法
為解決無回答問題,常用的處理方法有以下三種。
第一,多次調查。即對於首次調查無回答的單位,分清原因,有針對性地進行第二次、第三次甚至更多次的調查。多次調查能減少不回答率,但要增加費用。
第二,對調查結果進行估算。即不把精力放在如何提高回答率上,而是根據相關信息依靠已回答的數據進行估算,以減少無回答現象對調查結果的影響。
第三,在無回答者中抽取隨機子樣本進行調查。若調查最初採用郵寄方式進行,從沒有寄回填好的問卷者中抽選一個隨機子樣本進行訪問調查。
3.調查單位沒有做好調查的宣傳和組織工作,被調查單元經常以各種藉口拒絕參加調查;調查時間選擇不當,往往找不到外出頻率較高的被調查單元;或者被調查單元比較忙、正在就餐或者正在準備外出而不接受入戶調查。
4.數據錄入員由於粗心遺漏了某些調查數據,或者按照自己意願刪除某些調查數據。
5.學歷較低的被調查單元經常拒絕參加調查,或者不理解而不回答調查問題;學歷較高的被調查單元更容易接受調查,但所提供的調查數據真實性不一定好於學歷較低的被調查單元。
6.對於敏感性調查項目,被調查單元認為某些項目可能會招致日後麻煩或不利影響而拒絕回答;種族和民族的忌諱會引起被調查單元的消極情緒而拒絕回答;調查問卷的調查項目表述不明確,或者調查項目不能引起被調查單元的興趣容易產生無回答。
7.被調查單元是聾啞人、智障或文盲;作為獨生子女的被調查單元無法回答有關兄弟姐妹關係等調查項目;被調查單元無讀寫能力,不能參加郵寄調查;在醫學和生物學等的臨床實驗研究中,被調查單元的治癒康復、死亡或不願意繼續參加實驗而中途退出;在電話調查中,被調查單元的聽力和語言障礙而無法進行調查。
8.被調查單元的疏忽也會遺漏某些調查項目;被調查單元態度消極、對調查重要性認識不夠、出於自身原因或情緒欠佳等拒絕參加調查。
9.調查員對某些被調在單元沒有調查權,或者被調查單元地址不詳,或者被調查單元無法尋找等,統計保障制度建立得不完善,缺乏統計執法力度不能保證某些調查的順利進行。
10.在網路調查中,郵件沒有到達被調查單元信箱,或郵件達到被調查單元信箱但被調查單元在調查期間沒有打開信箱;被調查單元的計算機無法下載調查問卷;調查員沒有收到或無法下載已完成的調查問卷。
11.含調查問卷的信件無人打開;電話調查中,調查員的電話無人接聽。
上述羅列的是產生無回答的常見原因,還有很多未被羅列的其他原因也會導致無回答。羅列出無回答的全部潛在原因很困難,甚至是不可能的。調查員和調查組織單位更傾向於高質量完成調查工作,積極性和主動性更高,不斷積累調查經驗和付出更多的努力,往往會減少或避免自身原因所造成的無回答。與調查人員和調查組織單位相比,被調查單元並不會更多關注調查工作,很難主動去減少或避免無回答的出現。
無回答偏差
在無回答的早期研究中,人們假定無回答是被調查單元的本質特徵,被調查單元要么回答調查項目,要么不回答調查項目。按照是否回答調查項目,將所有被調查單元分為兩個集合,回答調查項目的被調查單元集合稱為回答層,不回答調查項目的被調查單元集合稱為無回答層。
這裡,為了簡單,只關心一個調查項目Y。令
分別為總體中被調查單元總數、回答層單元數和無回答層單元數,
分別為總體均值、回答層均值和無回答層均值。設無回答層和回答層的被調查單元數占比分別為
。可以驗證
,並且,
。由於事前很難判斷每個單元是否為無回答,
都未知。從總體中隨機抽取的單元,可能來自於回答層,也可能來自於無回答層。觀測到的樣本標誌值都是來自回答層的單元,樣本均值記為
。 當抽樣方法是
簡單隨機抽樣,回答層的樣本均值是回答層均值的無偏估計,即
。用樣本均值
估計總體均值
,偏差為
偏差大小取決於無回答層單元數占比
,以及回答層均值和無回答層均值之間的差值。對於簡單隨機抽樣,樣本均值是總體均值的無偏估計。由於無回答導致觀測的樣本量減小,用觀測的樣本均值估計總體均值的偏差稱為無回答偏差。在數據分析模型中,由於無回答導致模型參數估計量的期望不再等於參數真值,也稱其偏差為無回答偏差。
在很多社會調查中,無回答單元往往與回答單元具有不同的統計特徵,差值
往往不等於0,而且未知的,無回答造成估計量偏差很難確定。在有些情況下,無回答是客觀的偶然因素導致的,不會造成回答層與無回答層之間差異,只會造成樣本量減小。在另外一些情況下,回答單元和無回答單元的統計特徵存在較大差異,回答層樣本不能全面反映總體的統計特徵,造成估計量的偏差很大。
根據等式(1),當無回答層均值與回答層均值之間差異較小或無回答率W
M較小時,無回答偏差也較小。在實際調查中,差值
未知,減小偏差只能儘量降低總體無回答率W
M。有些學者鼓勵調查數據具有適當高的回答率,認為回答率應該大於50%,回答率高於60%更好。有些學者認為面訪調查的回答率為85%是合適的最低限度,回答率低於70%很可能產生嚴重偏差。目前,由於實際調查問題的複雜性,還沒有無回答率最低限度的公認標準,低於公認標準將導致較大無回答偏差。
注意到,等式(1)成立條件為無回答是單元的本質特徵。然而,隨著抽樣調查的廣泛套用,有些領域的研究發現,無回答率對總體均值估計量的影響並不大。降低無回答率不一定會降低無回答偏差,有時反而使偏差變大。研究文獻也指出,無回答偏差也受到調查環境的影響。,
為了描述偏差的嚴重程度,Collins et al. (2001)採用了標準化偏差。記估計量
的標準化偏差為SB(
),均方誤差為MSE(
)。則
Collins et al. (2001)認為,標準化偏差的絕對值不超過40%,無回答不會對估計量造成顯著影響;標準化偏差超過40%,無回答可能導致統計分析出現顯著偏差。無回答原因和調查項目的相關程度也影響標準化偏差大小。
無回答的敏感性分析是在給定參數取值區間內,檢驗無回答對估計量偏差的影響。如果在給定的參數值範圍內無回答偏差很小,則傾向於無回答偏差的真實水平很小。敏感性分析的參數包括無回答率、目標變數和輔助變數之間相關係數,無回答原因變數與目標變數之間相關係數等。對於未知的相關係數,需要進行估計。在參數取值範圍內,無回答偏差顯著性的檢驗統計量
其中
為模擬次數。該檢驗統計量漸進服從T分布,自由度等於模擬次數減2。
偏差度量估計量的均值和總體真值之間差值,在很多情況下並沒有太大價值,但是很多其他評價無回答偏差的方法都是偏差的函式。對於無回答偏差的評價,偏差的局限性是在模擬過程中偏差的顯著性與模擬次數有關。標準化偏差是偏差的函式,評價無回答偏差更合理;局限性是隨著樣本量增加而標準化偏差增大。評價無回答偏差的其他方法還有標準差、相對偏差、根均方誤差等。
無回答問題的解決方法
為解決無回答問題,常用的處理方法有以下三種。
第一,多次調查。即對於首次調查無回答的單位,分清原因,有針對性地進行第二次、第三次甚至更多次的調查。多次調查能減少不回答率,但要增加費用。
第二,對調查結果進行估算。即不把精力放在如何提高回答率上,而是根據相關信息依靠已回答的數據進行估算,以減少無回答現象對調查結果的影響。
第三,在無回答者中抽取隨機子樣本進行調查。若調查最初採用郵寄方式進行,從沒有寄回填好的問卷者中抽選一個隨機子樣本進行訪問調查。