輕鬆學大數據挖掘:算法、場景與數據產品
不依賴工具包,結合場景個性化構建業務模型。初學者的入門枕邊書,傳統挖掘者的進階之路。
汪榕 著
ISBN 978-7-121-32926-5
2018年1月出版
定價:59.00元
208頁
16開
基本介紹
- 書名:輕鬆學大數據挖掘:算法、場景與數據產品
- 作者:汪榕
- ISBN:978-7-121-32926-5
- 頁數:208
- 定價:59
- 出版社:電子工業出版社
- 出版時間:2018-1-1
- 開本:16開
內容提要
伴隨著大數據時代的發展,數據價值的挖掘以及產品化逐漸被重視起來。《輕鬆學大數據挖掘:算法、場景與數據產品》作為該領域的入門教程,打破以往的數據工具與技術的介紹模式,憑藉作者在大數據價值探索過程中的所感所悟,以故事的形式和讀者分享一個又一個的數據經歷,引人深思、耐人尋味。《輕鬆學大數據挖掘:算法、場景與數據產品》共9章,第1~2章介紹數據情懷與數據入門;第3~6章討論大數據挖掘相關的一系列學習體系;第7~9章為實踐套用與數據產品的介紹。讓所有學習大數據挖掘的朋友清楚如何落地,以及在整個數據生態圈所需要扮演的角色,全面了解數據的上下游。
《輕鬆學大數據挖掘:算法、場景與數據產品》可作為相關工作經驗在3年以內的數據挖掘工程師、轉型入門做大數據挖掘的人士或者對數據感興趣的追逐者的輕鬆學習教程,引導大家有一個正確的學習方向,也可供對數據產品感興趣的產品經理和數據挖掘工程師閱讀參考。
目錄
第1章 數據情懷篇 1
1.1 數據之禪 1
1.2 數據情懷 1
1.2.1 數據情懷這股勁 2
1.2.2 對數據情懷的理解 2
1.3 大數據時代的我們 4
1.4 成為DT時代的先驅者 6
1.4.1 數據沒有寒冬 6
1.4.2 數據生態問題 7
1.4.3 健康的數據生態 8
1.4.4 結尾 8
第2章 數據入門 9
2.1 快速掌握SQL的基礎語法 9
2.1.1 初識SQL 9
2.1.2 學會部署環境 10
2.1.3 常用的SQL語法(上篇) 13
2.1.4 常用的SQL語法(下篇) 17
2.2 在Windows 7作業系統上搭建IPython Notebook 25
2.2.1 學習Python的初衷 25
2.2.2 搭建IPython Notebook 26
2.2.3 IPython.exe Notebook的使用說明 27
2.2.4 配置IPython Notebook遠程調用 27
2.3 快速掌握Python的基本語法 30
2.4 用Python搭建數據分析體系 38
2.4.1 構建的初衷 38
2.4.2 構建思路 39
2.4.3 開發流程 39
2.5 Python學習總結 44
2.5.1 關於Python 45
2.5.2 Python其他知識點 45
第3章 大數據工具篇 48
3.1 Hadoop偽分散式的安裝配置 48
3.1.1 部署CentOS環境 48
3.1.2 部署Java環境 50
3.1.3 部署Hadoop偽分散式環境 51
3.2 數據挖掘中的MapReduce編程 54
3.2.1 學習MapReduce編程的目的 54
3.2.2 MapReduce的代碼規範 55
3.2.3 簡單的案例 58
3.3 利用MapReduce中的矩陣相乘 60
3.3.1 矩陣的概念 60
3.3.2 不同場景下的矩陣相乘 61
3.4 數據挖掘中的Hive技巧 67
3.4.1 面試心得 67
3.4.2 用Python執行HQL命令 67
3.4.3 必知的HQL知識 69
3.5 數據挖掘中的HBase技巧 75
3.5.1 知曉相關依賴包 75
3.5.2 從HBase中獲取數據 76
3.5.3 往HBase中存儲數據 77
第4章 大數據挖掘基礎篇 81
4.1 MapReduce和Spark做大數據挖掘的差異 81
4.1.1 初識Hadoop生態系統 81
4.1.2 知曉Spark的特點 83
4.1.3 編程的差異性 85
4.1.4 它們之間的靈活轉換 88
4.1.5 選擇合適的工具 89
4.2 搭建大數據挖掘開發環境 90
4.3 動手實現算法工程 99
4.3.1 知曉Spark On Yarn的運作模式 101
4.3.2 創作第一個數據挖掘算法 102
4.3.3 如何理解“樸素”二字 103
4.3.4 如何動手實現樸素貝葉斯算法 103
第5章 大數據挖掘認知篇 107
5.1 理論與實踐的差異 107
5.2 數據挖掘中的數據清洗 110
5.2.1 數據清洗的那些事 110
5.2.2 大數據的必殺技 111
5.2.3 實踐中的數據清洗 112
5.3 數據挖掘中的工具包 120
5.3.1 業務模型是何物 120
5.3.2 想做一個好的模型 121
第6章 大數據挖掘算法篇 123
6.1 時間衰變算法 123
6.1.1 何為時間衰變 123
6.1.2 如何理解興趣和偏好 124
6.1.3 時間衰變算法的抽象 124
6.1.4 採用Spark實現模型 126
6.2 熵值法 130
6.2.1 何為信息熵 130
6.2.2 熵值法的實現過程 130
6.2.3 業務場景的介紹 132
6.2.4 算法邏輯的抽象 133
6.3 預測回響算法 136
6.3.1 業務場景的介紹 136
6.3.2 構建模型的前期工作 137
6.3.3 常用的預測模型 138
6.4 層次分析算法 140
6.5 工程能力的培養與實踐 142
6.5.1 工程能力的重要性 142
6.5.2 利用Python實現層次分析法 144
第7章 用戶畫像實踐 148
7.1 用戶畫像的套用場景 148
7.1.1 背景描述 148
7.1.2 需求調研 149
7.2 用戶畫像的標籤體系 150
7.2.1 需求分析 151
7.2.2 標籤的構建 151
7.3 用戶畫像的模組化思維 152
7.3.1 何為模組化思維 152
7.3.2 用戶畫像與模組化思維 153
7.4 用戶畫像的工程開發 154
7.4.1 對於開發框架的選擇 154
7.4.2 模組化功能的設計 156
7.5 用戶畫像的智慧型行銷 158
7.5.1 業務行銷 158
7.5.2 行銷構思 159
7.5.3 技術難點 160
第8章 反欺詐實踐篇 162
8.1 “羊毛黨”監控的業務 162
8.1.1 “羊毛黨”的定義與特點 162
8.1.2 “羊毛”存在的必然性 163
8.1.3 “羊毛黨”的進化 164
8.1.4 “羊毛黨”存在的利與弊 165
8.1.5 “羊毛黨”監控平台的意義 165
8.2 “羊毛黨”監控的設備指紋 166
8.2.1 何為設備指紋 166
8.2.2 底層參數 167
8.2.3 套用場景 168
8.2.4 移動端的數據持久化 169
8.2.5 設備指紋生成算法 169
8.3 “羊毛黨”監控的數據驅動 170
8.3.1 監控的目的 170
8.3.2 數據如何“食用” 172
8.4 “羊毛黨”監控的實踐分享 173
第9章 大數據挖掘踐行篇 178
9.1 如何從0到1轉型到大數據圈子 178
9.2 數據挖掘從業者綜合能力評估 180
9.2.1 度量的初衷 180
9.2.2 綜合能力評估 181
9.2.3 個人指標體系(大數據挖掘) 182
9.3 給想要進入數據挖掘圈子的新人一點建議 183
9.3.1 誠信與包裝 184
9.3.2 籌備能力 185
9.3.3 投好簡歷 186
9.3.4 把握面試 186
9.3.5 結尾 187
後記 數據價值探索與數據產品實踐 188
作者簡介
汪榕,是一個有大數據情懷的小學生,一直在踐行自己對於數據價值的探索,分享自己成長過程中的所感所悟,為數據生態圈的健康發展,貢獻自己的一份力量。
前言
這是一本關於大數據挖掘與數據產品的參考讀物,為了使儘可能多的讀者通過本書對大數據套用有所了解,筆者以個人所感所悟引導初學者正確學習大數據挖掘。但是基礎知識歸納、開發環境部署、算法原理的介紹都是不可避免的。因此,本書更適合於工作經驗在3年以內的數據挖掘工程師,以及轉型入門做數據挖掘的人士,或者是對數據產品感興趣的追逐者閱讀。
全書共9章,第1~2章介紹數據情懷與數據入門;第3~6章討論大數據挖掘相關的一系列學習體系;第7~9章為實踐套用與數據產品的介紹。
本書在內容上儘可能以故事的形式,輕鬆愉快地介紹大數據、數據挖掘與數據產品實踐套用的各方面內容。但作為學習方向性的引導讀物且考慮到本書主題,很多常見的算法、技術知識點未能覆蓋,畢竟相關的內容在網上已經有很多了,但大多數內容只是“術”,而缺乏“神”。所以本書才另尋思路,以筆者的真實經歷告訴讀者在學習過程中可能會遇到的“坑”,以及該如何正確學習。因此,建議有興趣的讀者進一步鑽研探索,結合更多的學習資料實踐套用。
筆者認為,大數據時代的發展,已經逐漸從基礎性的建設、數據的積累,慢慢轉變成對於數據價值的探索以及業務痛點的落地解決。因此,建議更多的數據挖掘學習者要結合業務場景思考,多了解數據生態圈的上下游,認清數據產品價值的重要性,以及知曉自身在整個數據流程中所扮演的角色的重要性。閱讀這些內容的意義遠遠超過對數據分析工具、算法模型的熟練度的意義。
大數據、人工智慧發展極為迅速,但是數據價值的輸出仍然存在瓶頸,極大的原因是由於廣大追逐者在對數據探索時走向了誤區,把更多心思放在了“玩轉數據”,而不是真正地解決業務痛點。所以,希望閱讀本書的每一位讀者都能夠從筆者的過往經歷和所感所悟中感受到數據之禪。參與本書編寫的人員還有王勇老師,在此表示感謝。
筆者自認自己還有許多需要學習的地方,同時時間和精力有限,書中不足之處在所難免,望廣大讀者批評指正,不勝感激。