本書利用大量給出必要步驟、代碼和數據的具體案例,詳細描述了數據挖掘的主要過程和技術,廣泛涵蓋數據大小、數據類型、分析目標、分析工具等方面的各種具有挑戰性的問題。 本書的支持網站給出了案例研究的所有代碼、數據集以及R函式包。
基本介紹
- 書名:數據挖掘與R語言
- 作者:(葡)Luis Torgo
- ISBN:978-7-111-40700-3
- 定價:49.00
基本信息,本書特色,作者簡介,目錄,
基本信息
原書名:Data Mining with R: Learning with Case Studies
頁數:214
出版日期:2013年04月17日
譯者:李洪成 陳道輪 吳立明 譯
頁數:214
出版日期:2013年04月17日
譯者:李洪成 陳道輪 吳立明 譯
本書特色
通過仔細選擇的案例涵蓋了主要的數據挖掘技術。
給出的代碼和方法可以方便地複製或者改編後套用於自己的問題。
不要求讀者具有R、數據挖掘或統計技術的基礎知識。
包含R和MySQL基礎知識的簡介。
提供了對數據挖掘技術的特性、缺點和分析目標的基本理解。
給出的代碼和方法可以方便地複製或者改編後套用於自己的問題。
不要求讀者具有R、數據挖掘或統計技術的基礎知識。
包含R和MySQL基礎知識的簡介。
提供了對數據挖掘技術的特性、缺點和分析目標的基本理解。
作者簡介
Luís Torgo
葡萄牙波爾圖大學計算機科學系副教授,現在在LIAAD實驗室從事研究工作。他是APPIA會員,同時還是OBEGEF的創辦會員。
目錄
出版者的話
推薦序
中文版序
譯者序
前言
致謝
第1章簡介
1.1如何閱讀本書
1.2R簡介
1.2.1R起步
1.2.2R對象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7數據子集
1.2.8矩陣和數組
1.2.9列表
1.2.10數據框
1.2.11構建新函式
1.2.12對象、類和方法
1.2.13管理R會話
1.3MySQL簡介
第2章預測海藻數量
2.1問題描述與目標
2.2數據說明
2.3數據載入到R
2.4數據可視化和摘要
2.5數據缺失
2.5.1將缺失部分剔除
2.5.2用最高頻率值來填補缺失值
2.5.3通過變數的相關關係來填補缺失值
2.5.4通過探索案例之間的相似性來填補缺失值
2.6獲取預測模型
2.6.1多元線性回歸
2.6.2回歸樹
2.7模型的評價和選擇
2.8預測7類海藻的頻率
2.9小結
第3章預測股票市場收益
3.1問題描述與目標
3.2可用的數據
3.2.1在R中處理與時間有關的數據
3.2.2從CSV檔案讀取數據
3.2.3從網站上獲取數據
3.2.4從MySQL資料庫讀取數據
3.3定義預測任務
3.3.1預測什麼
3.3.2預測變數是什麼
3.3.3預測任務
3.3.4模型評價準則
3.4預測模型
3.4.1如何套用訓練集數據來建模
3.4.2建模工具
3.5從預測到實踐
3.5.1如何套用預測模型
3.5.2與交易相關的評價準則
3.5.3模型集成:仿真交易
3.6模型評價和選擇
3.6.1蒙特卡羅估計
3.6.2實驗比較
3.6.3結果分析
3.7交易系統
3.7.1評估最終測試數據
3.7.2線上交易系統
3.8小結
第4章偵測欺詐交易
4.1問題描述與目標
4.2可用的數據
4.2.1載入數據至R
4.2.2探索數據集
4.2.3數據問題
4.3定義數據挖掘任務
4.3.1問題的不同解決方法
4.3.2評價準則
4.3.3實驗方法
4.4計算離群值的排序
4.4.1無監督方法
4.4.2有監督方法
4.4.3半監督方法
4.5小結
第5章微陣列樣本分類
5.1問題描述與目標
5.1.1微陣列實驗背景簡介
5.1.2數據集ALL
5.2可用的數據
5.3基因(特徵)選擇
5.3.1基於分布特徵的簡單過濾方法
5.3.2ANOVA過濾
5.3.3用隨機森林進行過濾
5.3.4用特徵聚類的組合進行過濾
5.4遺傳學異常的預測
5.4.1定義預測任務
5.4.2模型評價標準
5.4.3實驗過程
5.4.4建模技術
5.4.5模型比較
5.5小結
參考文獻
主題索引
數據挖掘術語索引
R函式索引