《並行數據和調查數據質量管理》是依託北京大學,由嚴潔擔任負責人的面上項目。
基本介紹
- 中文名:並行數據和調查數據質量管理
- 項目負責人:嚴潔
- 項目類別:面上項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
抽樣調查是一種有效、可靠的數據採集方法。隨著數字信息和網路技術普及,計算機輔助調查方式得以推廣,由此產生了一類新數據- - 並行數據(paradata),用於數據質量的實時監控和改進、數據質量評估、測量誤差矯正,以及無回答插補等。本項目套用中國家庭動態跟蹤調查(China Family Panel Study,以下簡稱CFPS)的並行數據和調查數據,研究以下問題:(1)臆答行為的監測及其對CFPS數據質量的影響;(2)訪員誘導行為的監測及其對CFPS數據質量的影響;(3)樣本確認過程及其對數據質量評估的影響;(4)訪問幫助使用模式和提示性校驗處理模式對數據測量誤差的影響;(5)訪問場景控制與無回答誤差校正。綜上,本課題擬產出合理的並行數據採集系統,以及可供檢驗的並行數據與數據質量管理經驗。
結題摘要
本課題的研究目標,一是建立並行數據採集系統,向社會推廣,提高國內社會調查質量的整體水平;二是積累豐富的並行數據,為並行數據的套用提供數據資源;三是分析並行數據對社會調查數據質量的影響,探索如何套用並行數據評估和改進調查數據質量。課題組依據“設計→採集數據、效果評估→修正→再採集數據、效果評估→再修正”的路線進行了研究。藉助兩波中國家庭跟蹤調查和兩項全國大規模調查改進了並行數據採集系統,採集並構建了多種並行資料庫,分析了並行數據與社會調查數據質量的關係,並且將並行數據的使用經驗直接套用到每一次的調查執行過程中。 根據上述研究進程,本課題取得了重要成果:1.首次在全國建立了並行數據採集系統,申請了著作權。該系統處於國際先進水平。由訪問管理(含樣本信息管理、問卷管理、聯繫記錄管理、樣本調配)、傳送接收工具、調查支持、數據提取、數據核查系統組成。能夠採集到聯繫記錄、樣本調配、樣本生命周期、訪問痕跡、訪問時長、訪問錄音、質控、訪員觀察、訪員信息等多種類型的並行數據。該系統首次實現各種來源並行數據的整合和輸入輸出調用,安全數據傳輸,並能低成本、高效、靈活配置到各種調查中。2.在全國首次採集了豐富的並行數據,並且克服了從非結構化的文本檔案、錄音檔案中提取信息的難題,構建了結構化的並行資料庫,為後續研究奠定了基礎。3.在全國首次將並行數據進行實時監測和實時套用,為其他調查機構提供了調查管理經驗。4.首次對中國社會情境中的並行數據和數據質量關係進行了研究。例如,將並行數據套用於數據質量的校正,提出了可操作化的應答代表性指標;在末端抽樣樣本確認過程中套用並行數據校正抽樣誤差;形成了訪員臆答行為、誘導行為的快速、準確的識別方法,可在調查過程中迅速發現不規範行為,改進數據質量;在社會調查數據質量的影響因素中,除了訪員特徵、受訪者特徵之外,發現了訪問場景控制、訪問幫助的使用模式對數據質量的影響。本課題的成果不僅具有學術價值,而且直接轉化為採集並行數據的信息科學技術系統,對國內外政府部門、學術機構的信息採集提供了參考和技術支持。例如,本課題的並行數據採集系統在申請著作權時向社會公布了程式代碼。