CRISP-DM方法論

CRISP-DM方法論

CRISP-DM (cross-industry standard process for data mining), 即為"跨行業數據挖掘標準流程".

CRISP-DM方法論是NCR、OHRA、SPSS、Daimler-Benz等全球企業一起開發出來的數據挖掘方法論,它沒有特定的工具限制,也沒有特定領域局限,是適用於所有行業的標準方法論,相對於現存的其他數據挖掘方法論,CRISP - DM方法論更具有優越性,因而被廣泛地採用。

基本介紹

  • 中文名:CRISP-DM方法論 
  • 外文名:CRISP-DM methodology
  • 類別:數據挖掘方法論
定義,內容介紹,

定義

CRISP - DM方法論把數據挖掘實踐定義為六個標準階段,分別是商業理解、數據理解、數據準備、建立模型、模型評估和模型發布。

內容介紹

以下分別加以簡介:
(一)business understanding: 即商業理解。
在第一個階段我們必須從商業的角度上面了解項目的要求和最終目的是什麼. 並將這些目的與數據挖掘的定義以及結果結合起來.
商業理解階段商業理解是明確要達到的業務目標,並將其轉化為數據挖掘主題。要從商業角度對業務部門的需求進行理解,並把業務需求的理解轉化為數據挖掘的定義,擬定達成業務目標的初步方案。具體包括商業背景分析、商業成功標準的確定、形勢評估、獲得企業資源清單、獲得企業的要求和構想、評估成本收益、評估風險和意外、初步理解行業術語,並確定數據挖掘的目標和制定數據挖掘計畫。
(二)data understanding: 數據的理解以及收集,對可用的數據進行評估。
數據理解階段數據理解是找出可能的影響主題的因素,確定這些影響因素的數據載體、數據體現形式和數據存儲位置。數據理解從數據收集開始,然後熟悉數據,具體包括以下工作內容:檢測數據質量,對數據進行初步理解,簡單描述數據,探測數據意義,並對數據中潛藏的信息和知識提出擬用數據加以驗證的假設。
(三)data preparation: 數據的準備,對可用的原始數據進行一系列的組織以及清洗,使之達到建模需求。
數據準備階段數據準備是將前面找到的數據進行變換、組合,建立數據挖掘工具軟體要求格式和內容的寬表。數據準備階段要從原始數據中形成作為建模分析對象的最終數據集。數據準備階段的具體工作主要包括數據制表、記錄處理、變數選擇、數據轉換、數據格式化和數據清理等,各項工作並不需要預先規定好執行順序,而且數據準備工作還有可能多次執行。
(四)modeling: 即套用數據挖掘工具建立模型。
建立模型階段建立模型是套用軟體工具,選擇合適的建模方法,處理準備好的數據寬表,找出數據中隱藏的規律。在建立模型階段,將選擇和使用各種建模方法,並將模型參數進行最佳化。對同樣的業務問題和數據準備,可能有多種數據挖掘技術方法可供選用,此時可優選提升度高、置信度高、簡單而易於總結業務政策和建議的數據挖掘技術方法。在建模過程中,還可能會發現一些潛在的數據問題,要求回到數據準備階段。建立模型階段的具體工作包括:選擇合適的建模技術、進行檢驗設計、建造模型。
(五)evaluation: 對建立的模型進行評估,重點具體考慮得出的結果是否符合第一步的商業目的.
模型評估階段模型評估是要從業務角度和統計角度進行模型結論的評估。要求檢查建模的整個過程,以確保模型沒有重大錯誤,並檢查是否遺漏重要的業務問題。當模型評估階段結束時,應對數據挖掘結果的發布計畫達成一致。
(六)deployment: 部署,即將其發現的結果以及過程組織成為可讀文本形式.(數據挖掘報告)
模型發布階段模型發布又稱為模型部署,建立模型本身並不是數據挖掘的目標,雖然模型使數據背後隱藏的信息和知識顯現出來,但數據挖掘的根本目標是將信息和知識以某種方式組織和呈現出來,並用來改善運營和提高效率。當然,在實際的數據挖掘工作中,根據不同的企業業務需求,模型發布的具體工作可能簡單到提交數據挖掘報告,也可能複雜到將模型集成到企業的核心運營系統中去。

熱門詞條

聯絡我們