白話大數據與機器學習

白話大數據與機器學習

《白話大數據與機器學習》是2016年機械工業出版社出版的圖書,作者是高揚。本書共分18章。用通俗易懂的語言,結合大量案例與漫畫,不枯燥,實用、接地氣。第1~5章,這部分是大數據入門所需的系統性知識,剖析大數據產業、數據與信息算法等的關係,妙解數學基礎(排列組合、機率、統計與分布),以及指標化運營及體系構建。

基本介紹

  • 中文名:白話大數據與機器學習
  • 作者:高揚
  • 出版社:機械工業出版社
  • ISBN:9787111538479
內容簡介,圖書目錄,作者簡介,

內容簡介

資深大數據專家多年實戰經驗總結,拒絕晦澀,開啟大數據與機器學習妙趣之旅。以降低學習曲線和閱讀難度為宗旨,系統講解統計學、數據挖掘算法、實際套用案例、數據價值與變現,以及高級拓展技能,並清晰勾勒出大數據技術路線與產業藍圖。本書共分18章。用通俗易懂的語言,結合大量案例與漫畫,不枯燥,實用、接地氣。第1~5章,這部分是大數據入門所需的系統性知識,剖析大數據產業、數據與信息算法等的關係,妙解數學基礎(排列組合、機率、統計與分布),以及指標化運營及體系構建。這部分補足讀者的產業與相關概念認知,以及所需的數學知識。為下面的數據挖掘算法的理解與套用夯實基礎。第6~8章,這部分介紹數據挖掘基礎知識與算法,講解了與數據息息相關的資訊理論,重點講解了:多維向量空間(向量和維度、矩陣及其計算、上卷和下鑽);回歸(線性回歸、殘差分析、擬合相關問題);聚類(K-Means算法、有趣模式、孤立點、層次與密度聚類,聚類的評估等);分類(樸素貝葉斯、決策樹歸納、森林、隱馬爾科夫模型、SVM、遺傳算法)。第11~18章,這部分介紹生產套用與高級擴展。其中第11~15章介紹生產套用實踐,涵蓋關聯分析、用戶畫像、推薦算法、文本挖掘、人工神經網路。這些也是工業界和學術界研究的熱點。第16章講解了著名的大數據框架及其安裝與配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章從速度與穩定性維度介紹了大數據系統的架構與調優。第18章則從數據運營、評估、展現與變現場景層面進行了解讀。附錄部分給出了大數據平台運行可能需要的軟體和庫,以及民眾如何看待炙手可熱的大數據。

圖書目錄

第1章大數據產業1
1.1大數據產業現狀1
1.2對大數據產業的理解2
1.3大數據人才3
1.3.1供需失衡3
1.3.2人才方向3
1.3.3環節和工具5
1.3.4門檻障礙6
1.4小結8
第2章步入數據之門9
2.1什麼是數據9
2.2什麼是信息10
2.3什麼是算法12
2.4統計、機率和數據挖掘13
2.5什麼是商業智慧型13
2.6小結14
第3章排列組合與古典概型15
3.1排列組合的概念16
3.1.1公平的決斷——扔硬幣16
3.1.2非古典概型17
3.2排列組合的套用示例18
3.2.1雙色球彩票18
3.2.2購車搖號20
3.2.3德州撲克21
3.3小結25
第4章統計與分布27
4.1加和值、平均值和標準差27
4.1.1加和值28
4.1.2平均值29
4.1.3標準差30
4.2加權均值32
4.2.1混合物定價32
4.2.2決策權衡34
4.3眾數、中位數35
4.3.1眾數36
4.3.2中位數37
4.4歐氏距離37
4.5曼哈頓距離39
4.6同比和環比41
4.7抽樣43
4.8高斯分布45
4.9泊松分布49
4.10伯努利分布52
4.11小結54
第5章指標55
5.1什麼是指標55
5.2指標化運營58
5.2.1指標的選擇58
5.2.2指標體系的構建62
5.3小結63
第6章資訊理論64
6.1信息的定義64
6.2信息量65
6.2.1信息量的計算65
6.2.2信息量的理解66
6.3香農公式68
6.4熵70
6.4.1熱力熵70
6.4.2信息熵72
6.5小結75
第7章多維向量空間76
7.1向量和維度76
7.1.1信息冗餘77
7.1.2維度79
7.2矩陣和矩陣計算80
7.3數據立方體83
7.4上卷和下鑽85
7.5小結86
第8章回歸87
8.1線性回歸87
8.2擬合88
8.3殘差分析94
8.4過擬合99
8.5欠擬合100
8.6曲線擬合轉化為線性擬合101
8.7小結104
第9章聚類105
9.1K-Means算法106
9.2有趣模式109
9.3孤立點110
9.4層次聚類110
9.5密度聚類113
9.6聚類評估116
9.6.1聚類趨勢117
9.6.2簇數確定119
9.6.3測定聚類質量121
9.7小結124
第10章分類125
10.1樸素貝葉斯126
10.1.1天氣的預測128
10.1.2疾病的預測130
10.1.3小結132
10.2決策樹歸納133
10.2.1樣本收集135
10.2.2信息增益136
10.2.3連續型變數137
10.3隨機森林140
10.4隱馬爾可夫模型141
10.4.1維特比算法144
10.4.2前向算法151
10.5支持向量機SVM154
10.5.1年齡和好壞154
10.5.2“下刀”不容易157
10.5.3距離有多遠158
10.5.4N維度空間中的距離159
10.5.5超平面怎么畫160
10.5.6分不開怎么辦160
10.5.7示例163
10.5.8小結164
10.6遺傳算法164
10.6.1進化過程164
10.6.2算法過程165
10.6.3背包問題165
10.6.4極大值問題173
10.7小結181
第11章關聯分析183
11.1頻繁模式和Apriori算法184
11.1.1頻繁模式184
11.1.2支持度和置信度185
11.1.3經典的Apriori算法187
11.1.4求出所有頻繁模式190
11.2關聯分析與相關性分析192
11.3稀有模式和負模式193
11.4小結194
第12章用戶畫像195
12.1標籤195
12.2畫像的方法196
12.2.1結構化標籤196
12.2.2非結構化標籤198
12.3利用用戶畫像203
12.3.1割裂型用戶畫像203
12.3.2緊密型用戶畫像204
12.3.3到底“像不像”204
12.4小結205
第13章推薦算法206
13.1推薦思路206
13.1.1貝葉斯分類206
13.1.2利用搜尋記錄207
13.2User-basedCF209
13.3Item-basedCF211
13.4最佳化問題215
13.5小結217
第14章文本挖掘218
14.1文本挖掘的領域218
14.2文本分類219
14.2.1Rocchio算法220
14.2.2樸素貝葉斯算法223
14.2.3K-近鄰算法225
14.2.4支持向量機SVM算法226
14.3小結227
第15章人工神經網路228
15.1人的神經網路228
15.1.1神經網路結構229
15.1.2結構模擬230
15.1.3訓練與工作231
15.2FANN庫簡介233
15.3常見的神經網路235
15.4BP神經網路235
15.4.1結構和原理236
15.4.2訓練過程237
15.4.3過程解釋240
15.4.4示例240
15.5玻爾茲曼機244
15.5.1退火模型244
15.5.2玻爾茲曼機245
15.6卷積神經網路247
15.6.1卷積248
15.6.2圖像識別249
15.7深度學習255
15.8小結256
第16章大數據框架簡介257
16.1著名的大數據框架257
16.2Hadoop框架258
16.2.1MapReduce原理259
16.2.2安裝Hadoop261
16.2.3經典的WordCount264
16.3Spark框架269
16.3.1安裝Spark270
16.3.2使用Scala計算WordCount271
16.4分散式列存儲框架272
16.5PrestoDB——神奇的CLI273
16.5.1Presto為什麼那么快273
16.5.2安裝Presto274
16.6小結277
第17章系統架構和調優278
17.1速度——資源的配置278
17.1.1思路一:邏輯層面的最佳化279
17.1.2思路二:容器層面的最佳化279
17.1.3思路三:存儲結構層面的最佳化280
17.1.4思路四:環節層面的最佳化280
17.1.5資源不足281
17.2穩定——資源的可用282
17.2.1藉助雲服務282
17.2.2鎖分散282
17.2.3排隊283
17.2.4謹防“雪崩”283
17.3小結285
第18章數據解讀與數據的價值286
18.1運營指標286
18.1.1網際網路類型公司常用指標287
18.1.2注意事項288
18.2AB測試289
18.2.1網頁測試290
18.2.2方案測試290
18.2.3灰度發布292
18.2.4注意事項293
18.3數據可視化295
18.3.1圖表295
18.3.2表格299
18.4多維度——大數據的靈魂299
18.4.1多大算大299
18.4.2大數據網路300
18.4.3去中心化才能活躍301
18.4.4數據會過剩嗎302
18.5數據變現的場景303
18.5.1數據價值的衡量的討論303
18.5.2場景1:徵信數據307
18.5.3場景2:巨觀數據308
18.5.4場景3:畫像數據309
18.6小結310
附錄AVMwareWorkstation的安裝311
附錄BCentOS虛擬機的安裝方法314
附錄CPython語言簡介318
附錄DScikit-learn庫簡介323
附錄EFANNforPython安裝324
附錄F民眾眼中的大數據325
寫作花絮327
參考文獻329

作者簡介

高揚,金山軟體西山居資深大數據架構師與大數據專家,有多年編程經驗(多年日本和澳洲工作經驗)和多年大數據架構設計與數據分析、處理經驗,目前負責西山居的大數據產品市場戰略與產品戰略。專注於大數據系統架構以及變現研究。擅長數據挖掘、數據建模、關係型資料庫套用以及大數據框架Hadoop、Spark、Cassandra、Prestodb等的套用。負責西山居紫霞系統——大數據日誌處理系統的系統架構與設計工作。衛崢,西山居軟體架構師,多年的軟體開發和架構經驗,精通C/C 、Python、Golang、JavaScript等多門程式語言,近幾年專注於數據處理、機器學算法的研究、套用與服務研發。曾在新浪網平台架構部負責音視頻轉碼平台的架構和研發工作,為新浪微博,新浪微盤,秒拍等提供視頻線上看服務。51CTO講師。尹會生,西山居高級系統工程師。曾任新浪研發中心技術經理、北京尚觀科技高級講師。在新浪廣告、微博廣告、西山居大數據平台架構中擔任關鍵角色。擅長企業集群解決方案和核心調優經驗,並提供高性能和高可用性集群諮詢服務。近4年專注於Hadoop集群、Spark集群在推薦系統和BI相關領域的解決方案。萬娟,星盤科技有限公司UI設計師平面,對VI設計、包裝、海報設計等、商業插畫、App互動、網頁設計等有獨到認識。多次參與智慧型家居和智慧型音箱等項目的UI設計。多次參加國際和國內藝術和工業設計比賽,並獲獎。從小酷愛繪畫,理想是開一個屬於自己的畫室。

相關詞條

熱門詞條

聯絡我們