知識發現(KDD:Knowledge Discovery in Database)是從數據集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。知識發現將信息變為知識,從數據礦山中找到蘊藏的知識金塊,將為知識創新和知識經濟的發展作出貢獻。該術語於1989年出現,Fayyad定義為"KDD"是從數據集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程”。
基本介紹
中文名:知識發現
外文名:Knowledge Discovery in Database
英文簡稱:KDD
目的:將信息變為知識
詳細解釋,基本過程,過程模型,核心工作,
詳細解釋
資料庫知識發現(knowledge discovery in database,KDD)的研究非常活躍。在上面的定義中,涉及幾個需要進一步解釋的概念:“數據集”、“模式”、“過程”、“有效性”、“新穎性”、“潛在有用性”和“最終可理解性”。數據集是一組事實 F(如關係資料庫中的記錄)。模式是一個用語言L來表示的一個表達式E,它可用來描述數據集F的某個子集凡上作為一個模式要求它比對數據子集FE的枚舉要簡單(所用的描述信息量要少)。過程在KDD中通常指多階段的處理,涉及數據準備、模式搜尋、知識評價以及反覆的修改求精;該過程要求是非平凡的,意思是要有一定程度的智慧型性、自動性(僅僅給出所有數據的總和不能算作是一個發現過程)。有效性是指發現的模式對於新的數據仍保持有一定的可信度。新穎性要求發現的模式應該是新的。潛在有用性是指發現的知識將來有實際效用,如用於決策支持系統里可提高經濟效益。最終可理解性要求發現的模式能被用戶理解,它主要是體現在簡潔性上。有效性、新穎性、潛在有用性和最終可理解性綜合在一起稱為興趣性。
由於知識發現是一門受到來自各種不同領域的研究者關注的交叉性學科,因此導致了很多不同的術語名稱。除了 KDD外,主要還有如下若干種稱法:“數據挖掘”(data mining),“知識抽取”(information extraction)、“信息發現”(information discovery)、“智慧型數據分析”(intelligent data analysis)、“探索式數據分析”(exploratory data analysis)、“信息收穫”(Information harvesting)和“數據考古”(data archaeology)等等。其中,最常用的術語是“知識發現”和“數據挖掘”。相對來講,數據挖掘主要流行於統計界(最早出現於統計文獻中)、數據分析、資料庫和管理信息系統界;而知識發現則主要流行於人工智慧和機器學習界。
隨著參與人員的不斷增多,KDD於1995年由國際研討會發展成為國際會議年會。
基本過程
KDD基本過程(the process of the KDD)
作為一個KDD的工程而言,KDD通常包含一系列複雜的挖掘步驟. Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作發布的論文<From Data Mining to knowledge discovery>中總結出了KDD包含的5個最基本步驟(如圖).