基本介紹
- 中文名:CRISP-DM方法論
- 外文名:CRISP-DM methodology
- 類別:數據挖掘方法論
定義,內容介紹,
定義
CRISP - DM方法論把數據挖掘實踐定義為六個標準階段,分別是商業理解、數據理解、數據準備、建立模型、模型評估和模型發布。
內容介紹
以下分別加以簡介:
(一)business understanding: 即商業理解。
在第一個階段我們必須從商業的角度上面了解項目的要求和最終目的是什麼. 並將這些目的與數據挖掘的定義以及結果結合起來.
商業理解階段商業理解是明確要達到的業務目標,並將其轉化為數據挖掘主題。要從商業角度對業務部門的需求進行理解,並把業務需求的理解轉化為數據挖掘的定義,擬定達成業務目標的初步方案。具體包括商業背景分析、商業成功標準的確定、形勢評估、獲得企業資源清單、獲得企業的要求和構想、評估成本和收益、評估風險和意外、初步理解行業術語,並確定數據挖掘的目標和制定數據挖掘計畫。
(二)data understanding: 數據的理解以及收集,對可用的數據進行評估。
數據理解階段數據理解是找出可能的影響主題的因素,確定這些影響因素的數據載體、數據體現形式和數據存儲位置。數據理解從數據收集開始,然後熟悉數據,具體包括以下工作內容:檢測數據質量,對數據進行初步理解,簡單描述數據,探測數據意義,並對數據中潛藏的信息和知識提出擬用數據加以驗證的假設。
(三)data preparation: 數據的準備,對可用的原始數據進行一系列的組織以及清洗,使之達到建模需求。
數據準備階段數據準備是將前面找到的數據進行變換、組合,建立數據挖掘工具軟體要求格式和內容的寬表。數據準備階段要從原始數據中形成作為建模分析對象的最終數據集。數據準備階段的具體工作主要包括數據制表、記錄處理、變數選擇、數據轉換、數據格式化和數據清理等,各項工作並不需要預先規定好執行順序,而且數據準備工作還有可能多次執行。
(四)modeling: 即套用數據挖掘工具建立模型。
(五)evaluation: 對建立的模型進行評估,重點具體考慮得出的結果是否符合第一步的商業目的.
模型評估階段模型評估是要從業務角度和統計角度進行模型結論的評估。要求檢查建模的整個過程,以確保模型沒有重大錯誤,並檢查是否遺漏重要的業務問題。當模型評估階段結束時,應對數據挖掘結果的發布計畫達成一致。
(六)deployment: 部署,即將其發現的結果以及過程組織成為可讀文本形式.(數據挖掘報告)