資料品質

資料品質是指公司所蒐集的信息的準確性以及與預期用途的相關性。與最初蒐集信息目的不一致或是與遞交信息人之授權不一致的方式處理個人信息等都可能會導致資料品質失真和無效,從而帶來損失。

基本介紹

  • 中文名:資料品質
  • 類型:經濟術語
資料品質的維護
基本上,我們認為維護資料品質,有以下的步驟:
1、資料現況描述(Data Profiling)
(1)了解資料需求以及取得方式:此部分在了解所需資料原有的商業需求為何,並成立項目組織以進行了解資料的位置、格式、規格欄位等,以及存取資料的方式。
(2)分析信息的環境:這裡是要確定所分析的資料與原訂的商業目標相關,並針對資料的來源以及其中可能的轉換進行調查,並確定提供資料以及使用資料的單位及人員,最後建立資料擷取以及後續評估資料品質的計畫。
(3)評估資料品質與影響層面:此部分包含具體評估資料每個欄位的分布狀況以及資料品質,包含:重複性、正確性、一致性與同步的頻率、實時性與可用程度、易用性以及可維護性、在整體資料庫的涵蓋幅度、損壞程度、與商業行為的互動程度。
另外並在評估資料引進後,對初期/新增的儲存空間的估算,以及對硬體/網路的負載衝擊,甚至對現有資料產出流程的影響等,以評估是否要投入資源進行改善或擴充。
2、資料稽核(Data Auditing)
(1)找出根因:針對不符合原來資料規則的資料,須調查其原因,是否為原有規則已經過期,或是前端的套用系統對資料的把關不嚴。
(2)發展改善計畫:針對已經找到的問題,研擬改善計畫,如更新原有的資料規則,或是修改前端套用系統,針對來源資料的質量做更嚴格的管制。
3、資料清理(Data Cleansing)
解決問題:這是實際清理目前現有資料中的問題的步驟。根據前述步驟所找出的問題和解決方案,實際以資料轉置(ETL)程式,將資料清理的步驟實做出來,清理出不合規則的資料,交由資料的擁有者(Owner)決定如何更正資料,或透過先期的協調結果,更正錯誤的資料。
4、資料品質持續監控(Data Quality Monitoring)
設計控制機制:在實做了一輪的資料品質項目後,後續的工作就是持續監控資料品質是否有偏移出原有規則的設定,這需要有特定功能的工具,可以針對欲監控的資料,設定監控規則,針對資料的健康狀況,定期做出報告。

相關詞條

熱門詞條

聯絡我們