數據挖掘技術(數據處理的技術)

技術流程

從數據本身來考慮，通常數據挖掘需要有數據清理、數據變換、數據挖掘實施過程、模式評估和知識表示等8個步驟。

（1）信息收集：根據確定的數據分析對象抽象出在數據分析中所需要的特徵信息，然後選擇合適的信息收集方法，將收集到的信息存入資料庫。對於海量數據，選擇一個合適的數據存儲和管理的數據倉庫是至關重要的。

（2）數據集成：把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中，從而為企業提供全面的數據共享。

（3）數據規約：執行多數的數據挖掘算法即使在少量數據上也需要很長的時間，而做商業運營數據挖掘時往往數據量非常大。數據規約技術可以用來得到數據集的規約表示，它小得多，但仍然接近於保持原數據的完整性，並且規約後執行數據挖掘結果與規約前執行結果相同或幾乎相同。

（4）數據清理：在資料庫中的數據有一些是不完整的（有些感興趣的屬性缺少屬性值），含噪聲的（包含錯誤的屬性值），並且是不一致的（同樣的信息不同的表示方式），因此需要進行數據清理，將完整、正確、一致的數據信息存入數據倉庫中。

（5）數據變換：通過平滑聚集，數據概化，規範化等方式將數據轉換成適用於數據挖掘的形式。對於有些實數型數據,通過概念分層和數據的離散化來轉換數據也是重要的一步。

（6）數據挖掘過程：根據數據倉庫中的數據信息，選擇合適的分析工具，套用統計方法、事例推理、決策樹、規則推理、模糊集、甚至神經網路、遺傳算法的方法處理信息，得出有用的分析信息。

（7）模式評估：從商業角度，由行業專家來驗證數據挖掘結果的正確性。

（8）知識表示：將數據挖掘所得到的分析信息以可視化的方式呈現給用戶，或作為新的知識存放在知識庫中，供其他應用程式使用。

數據挖掘過程是一個反覆循環的過程，每一個步驟如果沒有達到預期目標，都需要回到前面的步驟，重新調整並執行。不是每件數據挖掘的工作都需要這裡列出的每一步，例如在某個工作中不存在多個數據源的時候，步驟（2）數據集成的步驟便可以省略。

步驟（3）數據規約（4）數據清理（5）數據變換又合稱數據預處理。在數據挖掘中，至少60%的費用可能要花在步驟（1）信息收集階段，而至少60%以上的精力和時間是花在數據預處理

神經網路

神經網路由於本身良好的魯棒性、自組織自適應性、並行處理、分布存儲和高度容錯等特性非常適合解決數據挖掘的問題，用於分類、預測和模式識別的前饋式神經網路模型；以hopfield的離散模型和連續模型為代表的，分別用於聯想記憶和最佳化計算的反饋式神經網路模型；以art模型、koholon模型為代表的，用於聚類的自組織映射方法。神經網路方法的缺點是"黑箱"性，人們難以理解網路的學習和決策過程。

遺傳算法

遺傳算法是一種基於生物自然選擇與遺傳機理的隨機搜尋算法。遺傳算法具有的隱含並行性、易於和其它模型結合等性質使得它在數據挖掘中被加以套用。