阿里巴巴技術專家多年經驗結晶,通過實際數據挖掘項目經驗,深入淺出闡明數據挖掘的本質。 以案例驅動為導向,結合理論分析,內容涵蓋數據挖掘領域的所有關鍵技術,包含基礎知識、聚類、分類、回歸與套用。
基本介紹
- 書名:數據挖掘核心技術揭秘
- 作者:賈雙成 王奇
- ISBN:9787111519249
- 頁數:201
- 出版社:機械工業出版社
- 出版時間:2016 年1月
- 開本:16開
圖書簡介,作者簡介,圖書目錄,圖書前言,
圖書簡介
《數據挖掘核心技術揭秘》包括五部分內容。部分(第1~3章)涉及數據挖掘技術的基礎知識,介紹數據挖掘的定義、數據挖掘工具及套用領域,數據挖掘的數學基礎內容,以及海量數據挖掘處理技術。第二部分(第4~5章)分別從聚類技術和離群點挖掘技術闡述聚類在語音區分、新聞分組、銷售策略制定、交通事故預測、欺詐檢測、入侵檢測、異常氣候檢測等方面的套用。第三部分(第6~11章)分別從決策樹、基於實例的學習、支持向量機、貝葉斯學習、人工神經網路、遺傳算法在病情診斷、信用卡欺詐、機械裝備設計、法律案件審理、動物分類、垃圾郵件過濾、手寫文字識別、股票價格預測、人臉識別、音樂生成等方面闡述分類的套用。第四部分(第12章)闡述回歸數據挖掘技術的套用,涉及卡爾曼算法在股票價格預測、GPS定位方面的套用。第五部分(第13章)介紹推薦系統這個典型的數據挖掘套用。附錄總結本書內容,闡述數據挖掘技術的數學本質。
作者簡介
賈雙成,江南大學碩士,現為阿里巴巴高級工程師,擅長於數據編譯、數據挖掘的系統分析和架構設計,研究方向包括幾何算法、數據編譯、數據挖掘算法及套用。
曾發表專利、論文三十餘篇。在研究算法之餘,也喜歡涉獵管理學、哲學、心理學、歷史等領域的知識。
王奇,阿里巴巴工程師,北京航空航天大學碩士,擅長於智慧型交通數據處理、數據挖掘,研究方向包括導航定位、浮動車處理、數據挖掘算法及套用。
曾發表發明專利、論文10餘項或篇,喜歡旅遊,愛好閱讀,廣泛涉獵文學、小說、經濟類書籍。
曾發表專利、論文三十餘篇。在研究算法之餘,也喜歡涉獵管理學、哲學、心理學、歷史等領域的知識。
王奇,阿里巴巴工程師,北京航空航天大學碩士,擅長於智慧型交通數據處理、數據挖掘,研究方向包括導航定位、浮動車處理、數據挖掘算法及套用。
曾發表發明專利、論文10餘項或篇,喜歡旅遊,愛好閱讀,廣泛涉獵文學、小說、經濟類書籍。
圖書目錄
前 言
第一部分 基 礎 知 識
第一部分 基 礎 知 識
第1章 引言2
1.1 數據挖掘的含義2
1.2 數據挖掘的演變過程3
1.3 數據工具簡介4
1.3.1 Hadoop與MapReduce5
1.3.2 Pig語言8
1.3.3 MATLAB編程9
1.3.4 SAS9
1.3.5 WEKA12
1.3.6 R語言編程12
1.4 數據挖掘套用領域13
1.5 小結14
第2章 數學基礎15
2.1 機率統計16
2.1.1 基本概念16
2.1.2 隨機變數及其分布19
2.2 相似度24
2.2.1 期望與方差25
1.1 數據挖掘的含義2
1.2 數據挖掘的演變過程3
1.3 數據工具簡介4
1.3.1 Hadoop與MapReduce5
1.3.2 Pig語言8
1.3.3 MATLAB編程9
1.3.4 SAS9
1.3.5 WEKA12
1.3.6 R語言編程12
1.4 數據挖掘套用領域13
1.5 小結14
第2章 數學基礎15
2.1 機率統計16
2.1.1 基本概念16
2.1.2 隨機變數及其分布19
2.2 相似度24
2.2.1 期望與方差25
2.2.2 距離27
2.2.3 相關係數31
2.3 矩陣計算34
2.4 最小二乘法39
2.4.1 最小二乘法定義39
2.4.2 回歸40
2.4.3 參數的最小二乘法估計42
第3章 海量數據處理技術46
3.1 索引技術46
3.1.1 資料庫索引46
3.1.2 文本索引49
3.2 海量數據處理技術52
3.2.1 外排序53
3.2.2 分散式處理53
3.2.3 Bloom filter54
3.2.4 常用技巧55
第二部分 聚 類
第4章 聚類58
4.1 套用場景58
4.1.1 語音區分58
4.1.2 新聞分組59
4.1.3 選定銷售策略59
4.1.4 交通事件預測59
4.2 聚類技術60
4.2.1 劃分聚類61
4.2.2 層次聚類67
4.2.3 基於密度的聚類70
4.2.4 基於格線的聚類72
4.3 多元分析72
4.3.1 主成分分析法73
4.3.2 因子分析83
4.3.3 對比分析83
第5章 離群點挖掘技術85
5.1 套用場景85
5.1.1 異常交通事件檢測85
5.1.2 欺詐檢測85
5.1.3 入侵檢測86
5.1.4 異常氣候檢測86
5.2 離群點挖掘技術86
5.2.1 基於統計的離群點挖掘技術87
5.2.2 基於鄰近度的離群點挖掘技術88
5.2.3 基於密度的離群點挖掘技術89
5.2.4 基於聚類的離群點挖掘技術92
5.2.5 高維數據的離群點檢測算法93
第三部分 分 類
第6章 決策樹98
6.1 套用場景98
6.1.1 病情診斷98
6.1.2 信用卡欺詐檢測98
6.2 決策樹技術99
6.2.1 概述99
6.2.2 技術實現100
6.2.3 多分類決策樹104
6.2.4 參考實例106
第7章 基於實例的學習108
7.1 套用場景108
7.1.1 機械裝備的總體設計108
7.1.2 對新的法律案件的推理109
7.1.3 規劃或調度問題109
7.2 K近鄰算法110
7.3 K-D樹111
7.3.1 近鄰的實現:K-D樹111
7.3.2 K-D樹的構建112
7.3.3 K-D樹的最近鄰搜尋算法113
第8章 支持向量機115
8.1 套用場景115
8.1.1 病情分類115
8.1.2 動物分類116
8.2 支持向量機技術116
8.2.1 概述116
8.2.2 技術實現118
8.2.3 核函式122
8.2.4 多類分類器124
第9章 貝葉斯學習126
9.1 套用場景126
9.1.1 垃圾郵件過濾126
9.1.2 手寫文字識別127
9.1.3 拼寫檢查128
9.1.4 分詞128
9.1.5 語音識別129
9.1.6 股票價格預測129
9.1.7 病情診斷129
9.1.8 選定銷售策略130
9.1.9 交通事件預測130
9.2 貝葉斯學習技術131
9.2.1 概述131
9.2.2 技術實現131
9.2.3 參考實例135
第10章 人工神經網路138
10.1 套用場景138
10.1.1 信用卡欺詐檢測138
10.1.2 病情診斷139
10.1.3 足球比賽預測139
10.1.4 圖像姿勢識別139
10.1.5 利用圖像識別的自動駕駛140
10.1.6 人臉識別140
10.1.7 語音分類識別141
10.2 人工神經網路技術142
10.2.1 概述142
10.2.2 技術實現142
10.2.3 參考實例145
第11章 遺傳算法152
11.1 套用場景152
11.1.1 私人定製的電影152
11.1.2 西洋棋學習153
11.1.3 電路設計154
11.1.4 機器人的模擬控制154
11.1.5 函式設計154
11.1.6 唐詩生成器155
11.1.7 音樂生成器155
11.2 遺傳技術155
11.2.1 概述155
11.2.2 技術實現158
11.2.3 參考實例:背包問題166
第四部分 回 歸
第12章 卡爾曼算法170
12.1 套用場景170
12.1.1 股票價格預測170
12.1.2 GPS定位預測171
12.2 卡爾曼技術171
12.2.1 卡爾曼算法定義171
12.2.2 技術實現172
12.2.3 參考實例:GPS定位175
第五部分 應 用
第13章 推薦系統180
13.1 套用場景181
13.1.1 歌曲推薦181
13.1.2 QQ好友圈子的推薦功能182
13.1.3 今日頭條183
13.1.4 淘寶商品推薦184
13.1.5 Netflix電影推薦184
13.1.6 豆瓣FM的推薦185
13.1.7 為用戶定製的廣告185
13.1.8 蘋果APP排名的規則186
13.2 推薦系統技術186
13.2.1 協同過濾187
13.2.2 基於內容的推薦188
13.2.3 推薦系統的缺陷189
13.2.4 潛在因子算法190
13.2.5 參考實例:音樂推薦193
附錄A 數據挖掘技術總結197
2.2.3 相關係數31
2.3 矩陣計算34
2.4 最小二乘法39
2.4.1 最小二乘法定義39
2.4.2 回歸40
2.4.3 參數的最小二乘法估計42
第3章 海量數據處理技術46
3.1 索引技術46
3.1.1 資料庫索引46
3.1.2 文本索引49
3.2 海量數據處理技術52
3.2.1 外排序53
3.2.2 分散式處理53
3.2.3 Bloom filter54
3.2.4 常用技巧55
第二部分 聚 類
第4章 聚類58
4.1 套用場景58
4.1.1 語音區分58
4.1.2 新聞分組59
4.1.3 選定銷售策略59
4.1.4 交通事件預測59
4.2 聚類技術60
4.2.1 劃分聚類61
4.2.2 層次聚類67
4.2.3 基於密度的聚類70
4.2.4 基於格線的聚類72
4.3 多元分析72
4.3.1 主成分分析法73
4.3.2 因子分析83
4.3.3 對比分析83
第5章 離群點挖掘技術85
5.1 套用場景85
5.1.1 異常交通事件檢測85
5.1.2 欺詐檢測85
5.1.3 入侵檢測86
5.1.4 異常氣候檢測86
5.2 離群點挖掘技術86
5.2.1 基於統計的離群點挖掘技術87
5.2.2 基於鄰近度的離群點挖掘技術88
5.2.3 基於密度的離群點挖掘技術89
5.2.4 基於聚類的離群點挖掘技術92
5.2.5 高維數據的離群點檢測算法93
第三部分 分 類
第6章 決策樹98
6.1 套用場景98
6.1.1 病情診斷98
6.1.2 信用卡欺詐檢測98
6.2 決策樹技術99
6.2.1 概述99
6.2.2 技術實現100
6.2.3 多分類決策樹104
6.2.4 參考實例106
第7章 基於實例的學習108
7.1 套用場景108
7.1.1 機械裝備的總體設計108
7.1.2 對新的法律案件的推理109
7.1.3 規劃或調度問題109
7.2 K近鄰算法110
7.3 K-D樹111
7.3.1 近鄰的實現:K-D樹111
7.3.2 K-D樹的構建112
7.3.3 K-D樹的最近鄰搜尋算法113
第8章 支持向量機115
8.1 套用場景115
8.1.1 病情分類115
8.1.2 動物分類116
8.2 支持向量機技術116
8.2.1 概述116
8.2.2 技術實現118
8.2.3 核函式122
8.2.4 多類分類器124
第9章 貝葉斯學習126
9.1 套用場景126
9.1.1 垃圾郵件過濾126
9.1.2 手寫文字識別127
9.1.3 拼寫檢查128
9.1.4 分詞128
9.1.5 語音識別129
9.1.6 股票價格預測129
9.1.7 病情診斷129
9.1.8 選定銷售策略130
9.1.9 交通事件預測130
9.2 貝葉斯學習技術131
9.2.1 概述131
9.2.2 技術實現131
9.2.3 參考實例135
第10章 人工神經網路138
10.1 套用場景138
10.1.1 信用卡欺詐檢測138
10.1.2 病情診斷139
10.1.3 足球比賽預測139
10.1.4 圖像姿勢識別139
10.1.5 利用圖像識別的自動駕駛140
10.1.6 人臉識別140
10.1.7 語音分類識別141
10.2 人工神經網路技術142
10.2.1 概述142
10.2.2 技術實現142
10.2.3 參考實例145
第11章 遺傳算法152
11.1 套用場景152
11.1.1 私人定製的電影152
11.1.2 西洋棋學習153
11.1.3 電路設計154
11.1.4 機器人的模擬控制154
11.1.5 函式設計154
11.1.6 唐詩生成器155
11.1.7 音樂生成器155
11.2 遺傳技術155
11.2.1 概述155
11.2.2 技術實現158
11.2.3 參考實例:背包問題166
第四部分 回 歸
第12章 卡爾曼算法170
12.1 套用場景170
12.1.1 股票價格預測170
12.1.2 GPS定位預測171
12.2 卡爾曼技術171
12.2.1 卡爾曼算法定義171
12.2.2 技術實現172
12.2.3 參考實例:GPS定位175
第五部分 應 用
第13章 推薦系統180
13.1 套用場景181
13.1.1 歌曲推薦181
13.1.2 QQ好友圈子的推薦功能182
13.1.3 今日頭條183
13.1.4 淘寶商品推薦184
13.1.5 Netflix電影推薦184
13.1.6 豆瓣FM的推薦185
13.1.7 為用戶定製的廣告185
13.1.8 蘋果APP排名的規則186
13.2 推薦系統技術186
13.2.1 協同過濾187
13.2.2 基於內容的推薦188
13.2.3 推薦系統的缺陷189
13.2.4 潛在因子算法190
13.2.5 參考實例:音樂推薦193
附錄A 數據挖掘技術總結197
圖書前言
我們暢想一下未來,想像未來社會的樣子。
未來社會每個人都與多台智慧型設備綁定,每個人如同一個數據提供商,不停地向網路上傳送數據:自己的照片、愛好、欲望、蹤跡等。而網路上這些數據也不停地得到反饋:周圍的人(另一些數據提供商)給這些數據加贊、評論。
未來的總統大選是基於數據挖掘而建立的,所講的每一句話都是數據挖掘的結果,數據挖掘就這樣決定了未來政治的形態。
未來的娛樂也是數據挖掘的結果,只要你需要,一切都是數據挖掘自動生成的,包括電影、小說等,它們都是根據需要而生成的。人在按照需求改造外在世界的同時,由於對計算機的強烈依賴,人已經沉溺在一個計算機世界裡,被計算機完全包圍,計算機成為人的第二個大腦。
在這裡,對其他人來說,每個人就是手機或者電視裡的一個影像,這個影像是可以進行保存、複製、貼上等各種數據加工的。
試看捷運上、餐館裡絕大多數的人是不是在低頭看手機?
這是一種不可阻擋的趨勢,這種趨勢只會愈演愈烈。
不久的將來,這種趨勢必將給社會倫理學、社會規範帶來一場真正意義的革命,所有社會性的常識、規範都將重塑,包括社交、娛樂、休閒、購物、分享等群體交際的行為都將得到全新變革。這些群體性行為好像人這個“硬體”上面附屬的作業系統一樣,由於大數據時代的帶來,將會被更換一套全新的作業系統,這套作業系統是由數據組成的。
我們能做什麼呢?
我們能做的只有去適應。
數據挖掘就是能讓未來生活更美好的唯一出路。在未來的社會,不管你想做成什麼,歸根到底都要求助於各種各樣的數據處理。
以開餐館為例。
在什麼地方開餐館取決於周圍客流和周圍人的飲食喜好等情況。
選單的菜品取決於周圍餐館的差異化競爭和就餐人群的飲食喜好。
招聘服務員所給的工資取決於周圍行業的工資。
對服務員的培訓可參考KFC等企業的培訓。
……
數據挖掘是一個如此重要的領域,但是,在目前的市場上,大部分書籍都是外國的翻譯書籍,偶爾有國內的書籍,基本上也是紙上談兵的泛泛之談,書中所講的技術和實現與目前企業界的技術與實現嚴重不符,技術人員獲得的幫助有限。
本書是作者為了解決這個問題的一個嘗試。本書以企業界的實際案例為主,力求揭示數據挖掘技術的本質,不拘泥於文字和名詞。
一本參考書需要經過許多人的使用和反饋之後才能變得更加完善。由於本書作者的經驗和時間有限,書中的錯誤和紕漏難免,敬請讀者不吝指正。
. 賈雙成王奇