《探尋數據背後的邏輯:R語言數據挖掘之道》是2018年7月電子工業出版社出版的圖書,作者是宋雲生、張堅洪、黎新年。
基本介紹
- 中文名:探尋數據背後的邏輯:R語言數據挖掘之道
- 作者:宋雲生、張堅洪、黎新年
- 出版社:電子工業出版社
- 出版時間:2018年7月
- 頁數:432 頁
- 定價:89 元
- 開本:16 開
- ISBN:9787121338618
內容簡介,圖書目錄,
內容簡介
數據分析、數據挖掘的本質是探尋數據背後的邏輯,挖掘人們的欲望、需求、態度等。本書不僅僅教會讀者如何掌握數據挖掘相關技能,更教會讀者如何從數據挖掘結果中分析出更深層次的邏輯。本書主要介紹使用R語言進行數據挖掘的過程。具體內容包括R軟體的安裝及R語言基礎知識、數據探索、數據可視化、回歸預測分析、時間序列分析、算法選擇流程及十大算法介紹、數據抓取、社交網路關係分析、情感分析、話題模型、推薦系統,以及數據挖掘在生物信息學中的套用。另外,本書還介紹了R腳本最佳化相關內容,使讀者的數據挖掘技能更上一層樓。本書適合從事數據挖掘、數據分析、市場研究的工作者及學生群體,以及對數據挖掘和數據分析感興趣的初級讀者。
圖書目錄
第1章 萬事不只開頭難 1
1.1 工欲善其事,必先利其器:安裝 1
1.1.1 安裝R和RStudio 1
1.1.2 安裝數據包 3
1.1.3 數據包載入、卸載、升級,查看幫助文檔 5
1.1.4 什麼樣的R包值得相信 7
1.2 了解R的對象 8
1.2.1 如何進行常見的算術運算 8
1.2.2 R語言的三大數據類型 10
1.2.3 向量及其運算 12
1.2.4 因子變數鮮有人知的秘密 15
1.2.5 矩陣相關運算及神奇的特徵值 17
1.2.6 數據框及其篩選、替換、添加、排序、去重 18
1.2.7 與數組(array)相比,表單(list)的用處更加廣泛 22
1.2.8 如何進行數據結構之間的轉化 23
1.3 R語言的重器:函式 26
1.3.1 自編函式 26
1.3.2 有用的R字元串函式 29
1.4 控制流在R語言裡只是一種輔助工具 31
1.4.1 判斷 32
1.4.2 循環 33
1.5 數據的讀入與輸出 35
1.5.1 常見數據格式的輸入/輸出(CSV、TXT、RDATA、XLSX) 35
1.5.2 資料庫連線:Oracle、MySQL及Hive 37
1.5.3 亂碼就像馬賽克一樣讓人討厭 39
第2章 數據探索,招招都是利器 41
2.1 不要在工作後才認識“髒數據” 41
2.1.1 以老闆信服的方式處理缺失數據 42
2.1.2 異常值預警 48
2.1.3 字元處理正則表達式不再是天書 49
2.2 數據透視、數據整形、關聯融合與批量處理 50
2.2.1 還忘不掉Excel的數據透視表嗎 50
2.2.2 你能給數據做整形手術嗎:long型和wide型 52
2.2.3 關聯合併表 54
2.2.4 數據批處理:R語言裡最重要的一個函式家族:*pply 55
2.3 一招完成數據探索報告 58
2.4 拯救你的很多時候是基礎理論 61
2.4.1 參數檢驗及非參檢驗 62
2.4.2 學了很多算法卻忘了方差分析 68
2.4.3 多因素方差分析及協方差作用 70
2.4.4 很多熟悉的數據處理方法已經成笑話,工具箱該換了 73
第3章 從商務氣質的數據可視化說起 84
3.1 說說數據可視化的專業素養 84
3.1.1 數據可視化歷史上有多少背影等你仰望 84
3.1.2 商務圖表應該具有哪些素質 87
3.1.3 那些你不知道的圖表誤導性伎倆 94
3.1.4 如何快速解構著名雜誌的圖表 98
3.2 ggplot2包:一個價值8萬美元的態度 103
3.2.1 一張圖學會ggplot2包的繪圖原理 105
3.2.2 基礎繪圖科學:ggplot2包的主題函式繼承關係圖(關係網路圖) 127
3.2.3 基礎圖表一網打盡 132
3.2.4 古老的地圖煥發新顏 151
3.3 將靜態圖轉為D3互動圖表:plotly 156
3.4 從基礎到進階的變形圖表 157
3.4.1 馬賽克圖(分類變數描述性分析) 157
3.4.2 Sankey圖和chordDiagram圖 158
第4章 分位數回歸模擬股票指數風險通道 163
4.1 用線性回歸預測醫院的藥品銷售額 163
4.2 多項式回歸及常見回歸方程的書寫 168
4.3 Lasso回歸和回歸評價的常見指標 170
4.4 分位數回歸擬合上證指數風險通道 175
第5章 時間序列分析 181
5.1 時間序列分析:分析帶有時間屬性的數列 181
5.2 不是所有序列都叫時間序列 181
5.3 時間序列三件寶:趨勢、周期、隨機波動 183
5.3.1 趨勢 183
5.3.2 周期 184
5.3.3 隨機波動 186
5.4 預測分析 186
5.4.1 指數平滑法 186
5.4.2 ARIMA模型預測 188
第6章 選擇什麼算法也有一套流程 192
6.1 重新審視一下這幾個模型 192
6.1.1 Logistic回歸 192
6.1.2 我要的不是一棵樹,而是整座森林:隨機森林 195
6.1.3 神奇的神經網路 196
6.2 銀行信用卡評估模型之變數篩選 197
6.2.1 變數構建 197
6.2.2 Logistic回歸變數篩選 198
6.2.3 隨機森林變數篩選 203
6.2.4 人工神經網路建模 204
6.3 必須面對的模型評估 204
第7章 深入淺出十大算法 208
7.1 C5.0算法 208
7.1.1 一個重要的概念:信息熵 208
7.1.2 非列變數選擇的實例 209
7.1.3 C5.0算法的R實現 210
7.2 K-means算法 212
7.2.1 K-means算法的R實現 212
7.2.2 怎么確定聚類數 213
7.3 支持向量機(SVM)算法 213
7.3.1 通俗理解SVM 214
7.3.2 SVM的R實現 216
7.4 Apriori算法 216
7.4.1 舉例說明Apriori 217
7.4.2 Apriori算法的R實現 219
7.5 EM算法 220
7.5.1 舉例說明EM算法 221
7.5.2 EM算法的R實現 222
7.6 PageRank算法 223
7.7 AdaBoost算法 224
7.8 KNN算法與K-means算法有什麼不同 226
7.9 Naive Bayes(樸素貝葉斯)算法 227
7.10 CART算法 228
第8章 數據抓取 231
8.1 數據挖掘工程師不可抱怨“巧婦難為無米之炊” 231
8.2 抓取股市龍虎榜數據,碰碰運氣 232
8.2.1 了解XML和Html樹狀結構,才能庖丁解牛 233
8.2.2 了解RCurl包和網頁解析函式 234
8.2.3 抓取股票龍虎榜 235
8.2.4 資金流入分析 237
8.3 抓取某家醫藥信息網站全站藥品銷售數據 240
8.3.1 所有醫藥公司名稱一網打盡 240
8.3.2 為什麼抓取數據時可以使用For循環 242
8.3.3 不要把代碼寫複雜 244
8.3.4 用Sankey數據流描繪醫藥市場份額流動 248
第9章 不可不說的社交網路關係 254
9.1 社交網路圖 254
9.1.1 社交網路圖告訴你和誰交朋友 254
9.1.2 這幾個基本概念你需要抓牢 256
9.1.3 還有比本章任務更有趣的數據挖掘嗎 259
9.2 你還要裝備幾個評價指標 260
9.2.1 社交網路大小 260
9.2.2 社交網路關係的完備性 261
9.2.3 節點實力評價 262
9.3 全球某貨物貿易中的親密關係 263
9.3.1 全球某貨物貿易數據整合清洗 263
9.3.2 分組和社交網路中心 267
9.3.3 全球某貨物交易圈:尋找各自的小夥伴 270
9.4 中國電影演藝圈到底有沒有“圈” 276
9.4.1 數據清洗與整形 276
9.4.2 看看演藝圈長什麼樣 279
9.4.3 誰才是演藝圈的“關係戶” 281
9.4.4 用Apriori算法查查演藝圈合作的“朋友”關係 283
9.4.5 給范冰冰推薦合作夥伴 284
第10章 情感分析:一種準確率高達90%的新方法? 287
10.1 情感分析及其套用:這是老生常談 287
10.1.1 情感分析的用途 287
10.1.2 情感分析的方法論 288
10.1.3 有關情感分析的一些知識和方向 289
10.2 文本分析的基本武器:R 290
10.2.1 RJava包配置 290
10.2.2 Rwordseg包安裝 291
10.2.3 jieba分詞包安裝 291
10.3 基於詞典的情感分析的效果好過瞎猜嗎 292
10.3.1 數據整理及詞典構建 292
10.3.2 分詞整理 297
10.3.3 情感指數計算 299
10.3.4 方法評價:優、缺點分析 300
10.4 監督式情感分析:挑選訓練數據集是所有人心中的痛 301
10.4.1 TFIDF指標 301
10.4.2 構建語料庫 302
10.4.3 隨機森林模型 304
10.4.4 算法評估:隨機森林應該建多少棵樹 308
10.5 一種準確率高達90%的新方法 316
10.5.1 拿來主義的啟示 316
10.5.2 情感詞典和規則構建 317
10.5.4 支持向量機(SVM)、決策樹等情感分析器 330
10.5.5 如何選擇支持SVM的核函式 339
10.5.6 情感分類器方法評價 343
10.6 談談情感分析的下一步思考 344
第11章 話題模型:很多牛人過不去的坎兒 346
11.1 話題模型與文案文本集 346
11.1.1 任務仍然是以處理dirty data 開始 347
11.1.2 數據清洗 348
11.2 話題模型中幾個重要的數據處理步驟 350
11.2.1 中文分詞 350
11.2.2 數據整型 352
11.2.3 怎樣設定“閾值” 353
11.3 上帝有多少個色子:話題數量估計 356
11.3.1 通俗地說一遍話題模型 356
11.3.2 主題數估計與交叉檢驗 357
11.3.3 如何使用複雜度、對數似然值確定主題數 362
11.4 LDA話題模型竟然能輸出這么多關係 368
11.4.1 輸出主題——辭彙及其機率矩陣 368
11.4.2 輸出主題——文檔歸屬及其機率矩陣 369
11.5 話題之間也有社交(衍生)關係嗎 370
11.6 話題模型的幾個強大衍生品 372
11.6.1 話題模型提取特徵詞 372
11.6.2 三種方法確定聚類的類數和文本層次聚類 373
11.6.3 漂亮的文本聚類樹和批量繪製大類詞雲圖 375
第12章 排名就是簡單的推薦系統嗎? 378
12.1 全球宜居城市綜合實力排行 378
12.1.1 綜合實力排行:專家法VS數據驅動法 379
12.1.2 怎么比較兩個排名結果 382
12.2 協同過濾推薦系統 383
12.2.1 基於商品的協同過濾系統(ItemCF) 386
12.2.2 基於用戶的系統過濾系統(UserCF) 388
12.2.3 推薦系統效果評比 390
第13章 生物信息學中的數據挖掘案例 392
13.1 生物信息學與R語言 392
13.2 生物信息學中常用的軟體包 392
13.2.1 軟體包簡介 392
13.2.2 數據表示方式——對象類(class) 393
13.2.3 生物信息學R包簡介:Bioconductor和CRAN 393
13.2.4 ape包 394
13.2.5 讀懂你的對象 404
13.2.6 修改工具包中的函式以適應新情況 407
第14章 產品化:關於記憶體、速度和自動化 411
14.1 不同終端調用、自動化執行R腳本及參數傳遞 411
14.2 與速度、記憶體、並行相關的程式最佳化 414