數據挖掘(Data Mining),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。綿陽師範學院於2005年7月成立“數據挖掘”研究中心。
基本介紹
- 中文名:數據挖掘研究中心
- 外文名:Data Mining Research Center
科研宗旨,科研隊伍,數據挖掘概念,數據挖掘用途,套用領域,
科研宗旨
為了全面貫徹綿陽市“科技興市”和綿陽師範學院“科研強校”戰略,充分整合數學與信息人才資源優勢,適應學院快速健康發展的需要,及時了解和把握國內外數據挖掘理論和套用的最新動態,同時開展數據挖掘前沿領域的研究和相關產品的開發,於2005年7月成立“數據挖掘”研究中心。爭取在5-10內把該中心打造成:
(1)產品研發基地:瞄準國際、國內極具潛力的套用行業,開發適銷對路的數據挖掘產品,為相關套用行業解決知識發現的難題,同是為中心帶來穩定的收入來源。
(2)人才培養基地:作為國內科研院所研究型人才及企事業單位套用型人才培養的搖籃。
(3)套用推廣基地:及時跟蹤企事業單位的套用需求,一方面將項目的研究成果推廣到企事業,另一方面,根據企業發展的需求,為他們定製數據挖掘產品,為企業的科技研發與技術創新提供國內外專利數據挖掘與數據分析服務。
(4)學科前沿基地:及時跟蹤數據挖掘方面的國際前沿領域。
科研隊伍
何紅洲 計算機軟體與理論博士(副教授)
李俐玲 副教授
數據挖掘概念
數據挖掘(Data Mining),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數據挖掘的廣義觀點:數據挖掘就是從存放在資料庫,數據倉庫或其他信息庫中的大量的數據中“挖掘”有趣知識的過程。數據挖掘,又稱為資料庫中知識發現(Knowledge Discovery in Database, KDD), 也有人把數據挖掘視為資料庫中知識發現過程的一個基本步驟。知識發現過程以下步驟組成:(1)數據清理,(2)數據集成,(3)數據選擇,(4)數據變換,(5)數據挖掘,(6)模式評估,(7)知識表示。數據挖掘可以與用戶或知識庫互動。
並非所有的信息發現任務都被視為數據挖掘。例如,使用資料庫管理系統查找個別的記錄,或通過網際網路的搜尋引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用複雜的算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構,從而有效地組織和檢索信息。儘管如此,數據挖掘技術也已用來增強信息檢索系統的能力。
數據挖掘用途
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值、估算(Estimation)
· 預測(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚類(Clustering)
· 描述和可視化(Description and Visualization)
· 複雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關係 。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時間後,才知道預言準確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集裡。聚集和分類的區別是聚集不依賴於預先定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶回響最好?",對於這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集裡,然後對每個不同的聚集,回答問題,可能效果更好。