《大數據挖掘:系統方法與實例分析》是2016年4月機械工業出版社出版的一本圖書,作者是周英、卓金武、卞月青。
基本介紹
- 書名:大數據挖掘:系統方法與實例分析
- 作者:周英;卓金武;卞月青
- ISBN:987-7-111-53267-5
- 定價:79.00元
- 出版社:機械工業出版社
- 出版時間:2016年4月
內容簡介,作者簡介,目錄,
內容簡介
主要介紹大數據挖掘的方法,並分析相關的實例。
本書是大數據挖掘領域的扛鼎之作,由全球科學計算領域的領導者MathWorks(MATLAB公司)官方的資深數據挖掘專家撰寫,MathWorks官方及多位專家聯袂推薦。
它從技術、方法、案例和最佳實踐4個維度對如何系統、深入掌握大數據挖掘提供了詳盡的講解。
技術:不僅講解了大數據挖掘的原理、過程、工具,還講解了大數據的準備、處理與探索;
最佳實踐:首先總結了數據挖掘中確定挖掘、套用技術以及如何平衡的藝術,然後總結了數據挖掘的項目管理和團隊管理的藝術。
作者簡介
周英,中科數據首席數據科學家。曾在某知名搜尋引擎公司任職多年,主要從事網際網路文本挖掘相關的工作。目前專注於大數據挖掘技術的工業套用研究和工程套用,已成功完成數據挖掘量化選股、大型設備保養維護預警、銀行客戶信用評分、電商客戶分類及精準行銷最佳化等多個大型項目。著有《量化投資:數據挖掘技術與實踐(MATLAB版)》(國際上第一本系統介紹將數據挖掘技術用於量化投資的書籍,已被金融行業多家機構套用)。
卓金武,MathWorks中國區科學計算業務總監,資深數據挖掘專家,主要負責數據挖掘、最佳化、量化投資、風險管理等科學計算業務,已為工行、交行、中投、華為、通用、一汽、上汽、格力等多家企業提供數據挖掘解決方案。已出版著作兩部:《MATLAB在數學建模中的套用》(第1版和第2版),《量化投資:數據挖掘技術與實踐(MATLAB版)》。大學期間曾兩次獲全國大學生數學建模競賽一等獎 (2003、2004),一次獲全國研究生數學建模競賽一等獎 (2007)。
卞月青,深圳人人數據挖掘經理。曾就職於三一重工,主要從事工業大數據分析工作。2012年以來,一直從事基於大數據的套用研發工作,從事的工作包括兩個方面,一是為銀行、P2P、小貸公司開發基於數據挖掘的信用評級系統;二是利用網際網路大數據挖掘技術,採集、清洗、集成特定領域的數據,並開發成大數據公眾服務平台。
目錄
第一篇 基礎篇
第1章 認識大數據挖掘
1.1 大數據與數據挖掘
1.1.1 何為大數據
1.1.2 大數據的價值
1.1.3 大數據與數據挖掘的關係
1.2 數據挖掘的概念和原理
1.2.1 什麼是數據挖掘
1.2.2 數據挖掘的原理
1.3 數據挖掘的內容
1.3.1 關聯
1.3.2 回歸
1.3.3 分類
1.3.4 聚類
1.3.5 預測
1.3.6 診斷
1.4 數據挖掘的套用領域
1.4.1 零售業
1.4.2 銀行業
1.4.3 證券業
1.4.4 能源業
1.4.5 醫療行業
1.4.6 通信行業
1.4.7 汽車行業
1.4.8 公共事業
1.5 大數據挖掘的要點
1.6 小結
參考文獻
第2章 數據挖掘的過程及工具
2.1 數據挖掘過程概述
2.2 挖掘目標的定義
2.3 數據的準備
2.4 數據的探索
2.5 模型的建立
2.6 模型的評估
2.7 模型的部署
2.8 工具的比較與選擇
2.9 小結
參考文獻
第3章MATLAB數據挖掘快速入門
3.1 MATLAB快速入門
3.1.1 MATLAB概要
3.1.2 MATLAB的功能
3.1.3 快速入門實例
3.1.4 入門後的提高
3.2 MATLAB常用技巧
3.3 MATLAB開發模式
3.4 MATLAB數據挖掘實例
3.5 MATLAB集成數據挖掘工具
3.5.1 分類學習機簡介
3.5.2 互動探索算法的方式
3.5.3 MATLAB分類學習機套用實例
3.6 小結
第二篇 技術篇
第4章 數據的準備
4.1 數據的收集
4.1.1 認識數據
4.1.2 數據挖掘的數據源
4.1.3 數據抽樣
4.1.4 金融行業的數據源
4.1.5 從雅虎獲取交易數據
4.1.6 從大智慧獲取財務數據
4.1.7 從Wind獲取高質量數據
4.2 數據質量分析
4.2.1 數據質量分析的必要性
4.2.2 數據質量分析的目的
4.2.3 數據質量分析的內容
4.2.4 數據質量分析方法
4.2.5 數據質量分析的結果及套用
4.3 數據預處理
4.3.1 為什麼需要數據預處理
4.3.2 數據預處理的方法
4.3.3 數據清洗
4.3.4 數據集成
4.3.5 數據歸約
4.3.6 數據變換
4.4 小結
參考文獻
第5章 數據的探索
5.1 衍生變數
5.1.1 衍生變數的定義
5.1.2 變數衍生的原則和方法
5.1.3 常用的股票衍生變數
5.1.4 評價型衍生變數
5.1.5 衍生變數的數據收集與集成
5.2 數據的統計
5.2.1 基本描述性統計
5.2.2 分布描述性統計
5.3 數據可視化
5.3.1 基本可視化方法
5.3.2 數據分布形狀可視化
5.3.3 數據關聯情況可視化
5.3.4 數據分組可視化
5.4 樣本選擇
5.4.1 樣本選擇的方法
5.4.2 樣本選擇套用實例
5.5 數據降維
5.5.1 主成分分析基本原理
5.5.2 PCA套用案例:企業綜合實力排序
5.5.3 相關係數降維
5.6 小結
參考文獻
第6章關聯規則方法
6.1 關聯規則概要
6.1.1 關聯規則的背景
6.1.2 關聯規則的基本概念
6.1.3 關聯規則的分類
6.1.4 關聯規則挖掘常用算法
6.2Apriori算法
6.2.1 Apriori算法基本思想
6.2.2 Apriori算法步驟
6.2.3 Apriori算法實例
6.2.4 Apriori算法程式實現
6.2.5 Apriori算法優缺點
6.3FP-Growth算法
6.3.1 FP-Growth算法步驟
6.3.2 FP-Growth算法實例
6.3.3 FP-Growth算法優缺點
6.4 套用實例:行業關聯選股法
6.5 小結
參考文獻
第7章 數據回歸方法
7.1 一元回歸
7.1.1 一元線性回歸
7.1.2 一元非線性回歸
7.1.3 一元多項式回歸
7.2 多元回歸
7.2.1多元線性回歸
7.2.2 多元多項式回歸
7.3 逐步歸回
7.3.1 逐步回歸基本思想
7.3.2 逐步回歸步驟
7.3.3 逐步回歸的MATLAB方法
7.4 Logistic回歸
7.4.1 Logistic模型
7.4.2 Logistic回歸實例
7.5 套用實例:多因子選股模型的實現
7.5.1 多因子模型基本思想
7.5.2 多因子模型的實現
7.6 小結
參考文獻
第8章 分類方法
8.1 分類方法概要
8.1.1 分類的概念
8.1.2 分類的原理
8.1.3 常用的分類方法
8.2 K-近鄰
8.2.1 K-近鄰原理
8.2.2 K-近鄰實例
8.2.3 K-近鄰特點
8.3 貝葉斯分類
8.3.1 貝葉斯分類原理
8.3.2 樸素貝葉斯分類原理
8.3.3 樸素貝葉斯分類實例
8.3.4 樸素貝葉斯特點
8.4 神經網路
8.4.1 神經網路原理
8.4.2 神經網路實例
8.4.3 神經網路特點
8.5 邏輯斯蒂
8.5.1 邏輯斯蒂原理
8.5.2 邏輯斯蒂實例
8.5.3 邏輯斯蒂特點
8.6 判別分析
8.6.1 判別分析原理
8.6.2 判別分析實例
8.6.3 判別分析特點
8.7 支持向量機
8.7.1 支持向量機基本思想
8.7.2 支持向量機理論基礎
8.7.3 支持向量機實例
8.7.4 支持向量機特點
8.8 決策樹
8.8.1 決策樹的基本概念
8.8.2 決策樹的構建步驟
8.8.3決策樹實例
8.8.4 決策樹特點
8.9 分類的評判
8.9.1 正確率
8.9.2 ROC曲線
8.10 套用實例:分類選股法
8.10.1 案例背景
8.10.2 實現方法
8.11 延伸閱讀:其他分類方法
8.12 小結
參考文獻
9.1 聚類方法概要
9.1.1 聚類的概念
9.1.2 類的度量方法
9.1.3 聚類方法的套用場景
9.1.4 聚類方法分類
9.2 K-means方法
9.2.1 K-means原理和步驟
9.2.2 K-means實例1:自主編程
9.2.3 K-means實例2:集成函式
9.2.4 K-means特點
9.3 層次聚類
9.3.1 層次聚類原理和步驟
9.3.2 層次聚類實例
9.3.3 層次聚類特點
9.4 神經網路聚類
9.4.1 神經網路聚類原理和步驟
9.4.2 神經網路聚類實例
9.4.3 神經網路聚類特點
9.5 模糊C-均值方法
9.5.1FCM原理和步驟
8.5.2 FCM套用實例
9.5.3 FCM算法特點
9.6 高斯混合聚類方法
9.6.1 高斯混合聚類原理和步驟
9.6.2 高斯混合聚類實例
9.6.3 高斯混合聚類特點
9.7 類別數的確定方法
9.7.1 原理
9.7.2 實例
9.8 套用實例:股票聚類分池
9.8.1 聚類目標和數據描述
9.8.2 實現過程
9.8.3 結果及分析
9.9 延伸閱讀
9.9.1 目前聚類分析研究的主要內容
9.9.2 SOM智慧型聚類算法
9.10 小結
參考文獻
第10章 預測方法
10.1 預測方法概要
10.1.1 預測的概念
10.1.2 預測的基本原理
10.1.3 預測的準確度評價及影響因素
10.1.4 常用的預測方法
10.2 灰色預測
10.2.1 灰色預測原理
10.2.2 灰色預測的實例
10.3 馬爾科夫預測
10.3.1 馬爾科夫預測原理
10.3.2 馬爾科夫過程的特性
10.3.3 馬爾科夫預測實例
10.4 套用實例:大盤走勢預測
10.4.1 數據的選取及模型的建立
10.4.2 預測過程
10.4.3 預測結果與分析
10.5 小結
參考文獻
第11章 診斷方法
11.1離群點診斷概要
11.1.1 離群點診斷的定義
11.1.2 離群點診斷的作用
11.1.3 離群點診斷方法分類
11.2 基於統計的離群點診斷
11.2.1 理論基礎
11.2.2 套用實例
11.2.3 優點與缺點
11.3 基於距離的離群點診斷
11.3.1 理論基礎
11.3.2 套用實例
11.3.3 優點與缺點
11.4 基於密度的離群點挖掘
11.4.1 理論基礎
11.4.2 套用實例
11.4.3 優點與缺點
11.5 基於聚類的離群點挖掘
11.5.1 理論基礎
11.5.2 套用實例
11.5.3 優點與缺點
11.6 套用實例:離群點診斷股票買賣擇時
11.7 延伸閱讀:新興的離群點挖掘方法
11.7.1 基於關聯的離群點挖掘
11.7.2 基於粗糙集的離群點挖掘
11.7.3 基於人工神經網路的離群點挖掘
11.8 小結
參考文獻
第12章時間序列方法
12.1 時間序列基本概念
12.1.1 時間序列的定義
12.1.2 時間序列的組成因素
12.1.3 時間序列的分類
12.1.4 時間序列分析方法
12.2 平穩時間序列分析方法
12.2.1 移動平均法
12.2.2 指數平滑法
12.3 季節指數預測法
12.3.1 季節性水平模型
12.3.2 季節性趨勢模型
12.4 時間序列模型
12.4.1 ARMA模型
12.4.2 ARIMA模型
12.4.3 ARCH模型
12.4.4 GARCH模型
12.5 套用實例:基於時間序列的股票預測
12.6 小結
參考文獻
第13章智慧型最佳化方法
13.1 智慧型最佳化方法概要
13.1.1 智慧型最佳化方法的概念
13.1.2 常用的智慧型最佳化方法
13.2 遺傳算法
13.2.1 遺傳算法的原理
13.2.2 遺傳算法的步驟
13.2.3 遺傳算法實例
13.2.4 遺傳算法的特點
13.3 模擬退火算法
13.3.1 模擬退火算法的原理
13.3.2 模擬退火算法的步驟
13.3.3 模擬退火算法實例
13.3.4 模擬退火算法的特點
13.4 延伸閱讀:其他智慧型方法
13.4.1 粒子群算法
13.4.2 蟻群算法
13.5 小結
參考文獻
第三篇 項目篇
第14章 數據挖掘在銀行信用評分中的套用
14.1 什麼是信用評分
14.1.1 信用評分的概念
14.1.2 信用評分的意義
14.1.3 個人信用評分的影響因素
14.1.4 信用評分的方法
14.2 DM法信用評分實施過程
14.2.1 數據的準備
14.2.2 數據預處理
14.2.3 logistic模型
14.2.4 神經網路模型
14.3 AHP信用評分方法
14.3.1 AHP法簡介
14.3.2 AHP法信用評分實例
14.4 延伸閱讀:企業信用評級
14.5 小結
第15章 數據挖掘在量化選股中的套用
15.1 什麼是量化選股
15.1.1 量化選股定義
15.1.2 量化選股實現過程
15.1.3 量化選股的分類
15.2 數據的處理及探索
15.2.1 獲取股票日交易數據
15.2.2 計算指標
15.2.3 數據標準化
15.2.4 變數篩選
15.3 模型的建立及評估
15.3.1 股票預測的基本思想
15.3.2 模型的訓練及評價
15.4 組合投資的最佳化
15.4.1 組合投資的理論基礎
15.4.2 組合投資的實現
15.5 量化選股的實施
15.6 小結
參考文獻
第16章 數據挖掘在工業故障診斷中的套用
16.1 什麼是故障診斷
16.1.1 故障診斷的概念
16.1.2 故障診斷的方法
16.1.3 數據挖掘技術的故障診斷原理
16.2 DM設備故障診斷實例
16.2.1 載入數據
16.2.2 探索數據
16.2.3 設定訓練樣本的測試樣本
16.2.4 決策樹方法訓練模型
16.2.5 集成決策樹方法訓練模型
16.3 小結
第17章 數據挖掘技術在礦業工程中的套用
17.1 什麼是礦業工程
17.1.1 礦業工程的內容
17.1.2 礦業工程的數據及特徵
17.1.3 數據挖掘技術在礦業工程中的作用
17.2 礦業工程數據挖掘實例:提純預測
17.2.1 數據的集成
17.2.2 採用插值方式處理缺失值
17.2.3 設定建模數據及驗證方式
17.2.4 多元線性回歸模型
17.3 小結
參考文獻
第18章 數據挖掘技術在生命科學中的套用
18.1 什麼是生命科學
18.1.1 生命科學的研究內容
18.1.2 生命科學中大數據的特徵
18.1.3 數據挖掘技術在生命科學中的作用
18.2 生命科學數據挖掘實例:基因表達模式挖掘
18.2.1 載入數據
18.2.2 數據初探
18.2.3數據清洗
18.2.4 層次聚類
18.2.5 K-means聚類
18.3 小結
參考文獻
第19章 數據挖掘在社會科學研究中的套用
19.1 什麼是社會科學研究
19.1.1 社會學研究的內容
19.1.2 社會學研究的方法
19.1.3 數據挖掘在社會科學研究中的套用情況
19.2 社會科學挖掘實例:人類行為研究
19.2.1 載入數據
19.2.2 數據可視化
19.2.3 神經網路
19.2.4 混淆矩陣評價分類器
19.2.5 ROC法評價分類器
19.2.6 變數優選
19.2.7 用優選的變數訓練網路
19.3 小結
第四篇 理念篇
第20章 數據挖掘的藝術
20.1 確定數據挖掘目標的藝術
20.1.2 商業意識到數據挖掘目標
20.1.3 商業意識的培養
20.2 套用技術的藝術
20.2.1 技術服務於業務的藝術
20.2.2 算法選擇的藝術
20.2.3 與機器配合的藝術
20.3 數據挖掘中平衡的藝術
20.3.2 數據量的平衡
20.4 理性對待大數據時代
20.4.1 發展大數據應避免的誤區
20.4.2 正確認識大數據的價值
20.4.3 直面大數據套用面臨的挑戰
20.5 小結
參考文獻
21.1 數據挖掘項目實施之道
21.1.1 確定可行的目標
21.1.2 遵守數據挖掘流程
21.1.3 項目的質量控制
21.1.4 項目效率
21.1.5 成本控制
21.1.6 數據挖掘過程改進
21.2 數據挖掘團隊的組建
21.2.1 數據挖掘項目團隊的構成
21.2.2 團隊負責人
21.3 數據挖掘團隊的管理
21.3.1 團隊管理的目標與策略
21.3.2 規範化的管理
21.4 優秀數據挖掘人才的修煉
21.4.1 專業知識與技術
21.4.2 快速獲取知識的技能
21.4.3 提高表達能力
21.4.4 提高管理能力
21.4.5 培養對數據挖掘的熱情
21.5 小結