R語言數據分析項目開發實戰

R語言數據分析項目開發實戰

《R語言數據分析項目開發實戰》是2019年9月清華大學出版社出版的圖書,作者是[印]戈皮·薩博拉曼尼。

基本介紹

  • 中文名:R語言數據分析項目開發實戰
  • 作者:[印]戈皮·薩博拉曼尼
  • 譯者:楊崇珉
  • 出版社:清華大學出版社
  • 出版時間:2019年09月1日 
  • 定價:109 元
  • ISBN:9787302533641
內容簡介,圖書目錄,

內容簡介

本書詳細闡述了與數據分析相關的基本解決方案,主要包括關聯規則挖掘、基於內容的模糊邏輯推薦系統、協同過濾機制、基於深度神經網路的時序數據、Twitter文本情感分類、記錄連結—隨機和機器學習方案、流式數據聚類分析、分析並理解網路等內容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關方案的實現過程。
本書既可作為高等院校計算機及相關專業的教材和教學參考書,也可作為相關開發人員的自學教材和參考手冊。

圖書目錄

第1章 關聯規則挖掘 1
1.1 理解推薦系統 2
1.1.1 事務 2
1.1.2 加權事務 3
1.1.3 Web應用程式 3
1.2 零售商用例和數據 4
1.3 關聯規則挖掘 6
1.4 關聯銷售行銷活動 22
1.4.1 槓桿效應 25
1.4.2 確信度 26
1.5 加權關聯規則挖掘 27
1.6 基於超連結的主題搜尋(HITS) 34
1.7 負關聯規則 41
1.8 規則的可視化 45
1.9 封裝 49
1.10 本章小結 56
第2章 基於內容的模糊邏輯推薦系統 57
2.1 基於內容的推薦系統 58
2.2 新聞聚合器用例和數據 62
2.3 設計基於內容的推薦引擎 67
2.3.1 構建相似度索引 69
2.3.2 搜尋機制 75
2.4 完整的R代碼 94
2.5 本章小結 101
第3章 協同過濾機制 102
3.1 協同過濾 102
3.1.1 基於記憶體的方案 104
3.1.2 基於模型的方案 104
3.1.3 隱因子模型方案 106
3.2 recommenderlab數據包 107
3.3 用例和數據 111
3.4 設計並實現協同過濾機制 120
3.4.1 評級矩陣 120
3.4.2 標準化 121
3.4.3 隨機劃分訓練集和測試集 123
3.4.4 訓練模型 125
3.5 完整的R代碼 136
3.6 本章小結 142
第4章 基於深度神經網路的時序數據 143
4.1 時序數據 144
4.1.1 非季節性時序 145
4.1.2 季節性時序 146
4.1.3 回歸問題 147
4.2 深度神經網路 150
4.2.1 前向循環 152
4.2.2 反向循環 153
4.3 MXNet數據包 153
4.4 MXNet中的符號編程 155
4.4.1 softmax激活函式 159
4.4.2 用例和數據 162
4.4.3 基於時序預測的深度網路 163
4.5 訓練-測試集劃分 165
4.6 完整的R代碼 177
4.7 本章小結 185
第5章 Twitter文本情感分類 186
5.1 核密度估計 187
5.2 Twitter文本 191
5.3 情感分類 192
5.3.1 字典方法 192
5.3.2 機器學習方法 193
5.3.3 當前方案 193
5.4 基於字典的評級機制 194
5.5 文本預處理 197
5.5.1 詞頻逆文檔頻率(TFIDF)方案 199
5.5.2 Delta TDIDF 200
5.6 構建情感分析分類器 202
5.7 整合RShiny應用程式 206
5.8 完整的R代碼 210
5.9 本章小結 215
第6章 記錄連結—隨機和機器學習方案 216
6.1 用例 216
6.2 使用RecordLinkage 217
6.2.1 特徵生成 218
6.2.2 字元串比較 221
6.2.3 語音特徵 222
6.3 隨機記錄連結 223
6.3.1 期望最大化方法 223
6.3.2 基於權重的方法 229
6.4 基於機器學習的記錄連結 232
6.4.1 無監督學習 233
6.4.2 監督學習 234
6.5 構建RShiny應用程式 239
6.6 完整的R代碼 242
6.6.1 特徵生成 242
6.6.2 期望最大化方法 244
6.6.3 基於權重的方法 245
6.6.4 機器學習方法 246
6.6.5 RShiny應用程式 247
6.7 本章小結 249
第7章 流式數據聚類分析 250
7.1 流式數據及其面臨的挑戰 250
7.1.1 邊界問題 251
7.1.2 漂移問題 251
7.1.3 單路處理 252
7.1.4 實行性 252
7.2 流式聚類 252
7.3 流數據包 253
7.3.1 數據流數據 253
7.3.2 作為靜態模擬器的DSD 254
7.3.3 連線至記憶體、檔案或資料庫的DSD 259
7.3.4 in-flight操作 261
7.3.5 將DSD連線至真實的數據流 261
7.3.6 數據流任務 261
7.4 用例和數據 266
7.4.1 速度層 267
7.4.2 批處理層 267
7.4.3 蓄水池採樣 270
7.5 完整的R代碼 272
7.6 本章小結 274
第8章 分析並理解網路 276
8.1 R語言中的圖 277
8.1.1 頂點的度 280
8.1.2 頂點強度 280
8.1.3 鄰接矩陣 280
8.1.4 R中的更多網路 281
8.1.5 頂點的中心度 282
8.1.6 節點的遠度和近度 282
8.1.7 計算節點間的最短路徑 283
8.1.8 圖的隨機遍歷 283
8.2 用例和數據 283
8.3 數據準備 285
8.4 商品網路分析 289
8.5 編寫RShiny應用程式 296
8.6 完整的R代碼 302
8.7 本章小結 307

相關詞條

熱門詞條

聯絡我們