《計算機科學叢書:數據挖掘與R語言》首先簡要介紹了R軟體的基礎知識(安裝、R數據結構、R編程、R的輸入和輸出等)。然後通過四個數據挖掘的實際案例(藻類頻率的預測、證券趨勢預測和交易系統仿真、交易欺詐預測、微陣列數據分類)介紹數據挖掘技術。這四個案例基本覆蓋了常見的數據挖掘技術,從無監督的數據挖掘技術、有監督的數據挖掘技術到半監督的數據挖掘技術。全書以實際問題、解決方案和對解決方案的討論為主線來組織內容,脈絡清晰,並且各章自成體系。讀者可以從頭至尾逐章學習,也可以根據自己的需要進行學習,找到自己實際問題的解決方案。《計算機科學叢書:數據挖掘與R語言》不需要讀者具備R和數據挖掘的基礎知識。不管是R初學者,還是熟練的R用戶都能從書中找到對自己有用的內容。讀者既可以把《計算機科學叢書:數據挖掘與R語言》作為學習如何套用R的一本優秀教材,也可以作為數據挖掘的工具書。
基本介紹
- 書名:計算機科學叢書:數據挖掘與R語言
- 作者:托爾戈 (Luis Torgo)
- 出版社:機械工業出版社
- 頁數:203頁
- 開本:16
- 品牌:機械工業出版社
- 外文名:Data Mining with R
- 譯者:李洪成
- 出版日期:2013年4月1日
- 語種:簡體中文
- ISBN:9787111407003
基本介紹,內容簡介,作者簡介,圖書目錄,序言,名人推薦,
基本介紹
內容簡介
《計算機科學叢書:數據挖掘與R語言》的支持網站給出了案例研究的所有代碼、數據集以及R函式包,不要求讀者具有R、數據挖掘或統計技術的基礎知識。《計算機科學叢書:數據挖掘與R語言》利用大量給出必要步驟、代碼和數據的具體案例,詳細描述了數據挖掘的主要過程和技術。
作者簡介
作者:(葡萄牙)托爾戈(Luís Torgo) 譯者:李洪成 陳道輪 吳立明
托爾戈(Luís Torgo),葡萄牙波爾圖大學計算機科學系副教授,現在在LIAAD實驗室從事研究工作。他是APPIA會員,同時還是OBEGEF的創辦會員。
托爾戈(Luís Torgo),葡萄牙波爾圖大學計算機科學系副教授,現在在LIAAD實驗室從事研究工作。他是APPIA會員,同時還是OBEGEF的創辦會員。
圖書目錄
出版者的話
推薦序
中文版序
譯者序
前言
致謝
第1章 簡介
1.1如何閱讀本書
1.2R簡介
1.2.1R起步
1.2.2R對象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7數據子集
1.2.8矩陣和數組
1.2.9列表
1.2.10數據框
1.2.11構建新函式
1.2.12對象、類和方法
1.2.13管理R會話
1.3MySQL簡介
第2章 預測海藻數量
2.1問題描述與目標
2.2數據說明
2.3數據載入到R
2.4數據可視化和摘要
2.5數據缺失
2.5.1將缺失部分剔除
2.5.2用最高頻率值來填補缺失值
2.5.3通過變數的相關關係來填補缺失值
2.5.4通過探索案例之間的相似性來填補缺失值
2.6獲取預測模型
2.6.1多元線性回歸
2.6.2回歸樹
2.7模型的評價和選擇
2.8預測7類海藻的頻率
2.9小結
第3章 預測股票市場收益
3.1問題描述與目標
3.2可用的數據
3.21在R中處理與時間有關的數據
3.22從CSV檔案讀取數據
3.23從網站上獲取數據
3.24從MySQL資料庫讀取數據
3.3定義預測任務
3.3.1預測什麼
3.3.2預測變數是什麼
3.3.3預測任務
3.3.4模型評價準則
3.4預測模型
3.4.1如何套用訓練集數據來建模
3.4.2建模工具
3.5從預測到實踐
3.5.1如何套用預測模型
3.5.2與交易相關的評價準則
3.5.3模型集成:仿真交易
3.6模型評價和選擇
3.6.1蒙特卡羅估計
3.6.2實驗比較
3.6.3結果分析
3.7交易系統
3.7.1評估最終測試數據
3.7.2線上交易系統
3.8小結
第4章 偵測欺詐交易
4.1問題描述與目標
4.2可用的數據
4.2.1載入數據至R
4.2.2探索數據集
4.2.3數據問題
4.3定義數據挖掘任務
4.3.1問題的不同解決方法
4.3.2評價準則
4.3.3實驗方法
4.4計算離群值的排序
4.4.1無監督方法
4.4.2有監督方法
4.4.3半監督方法
4.5小結
第5章 微陣列樣本分類
5.1問題描述與目標
5.1.1微陣列實驗背景簡介
5.1.2數據集ALL
5.2可用的數據
5.3基因(特徵)選擇
5.3.1基於分布特徵的簡單過濾方法
5.3.2 ANOVA過濾
5.3.3用隨機森林進行過濾
5.3.4用特徵聚類的組合進行過濾
5.4遺傳學異常的預測
5.4.1定義預測任務
5.4.2模型評價標準
5.4.3實驗過程
5.4.4建模技術
5.4.5模型比較
5.5小結
參考文獻
主題索引
數據挖掘術語索引
R函式索引
推薦序
中文版序
譯者序
前言
致謝
第1章 簡介
1.1如何閱讀本書
1.2R簡介
1.2.1R起步
1.2.2R對象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7數據子集
1.2.8矩陣和數組
1.2.9列表
1.2.10數據框
1.2.11構建新函式
1.2.12對象、類和方法
1.2.13管理R會話
1.3MySQL簡介
第2章 預測海藻數量
2.1問題描述與目標
2.2數據說明
2.3數據載入到R
2.4數據可視化和摘要
2.5數據缺失
2.5.1將缺失部分剔除
2.5.2用最高頻率值來填補缺失值
2.5.3通過變數的相關關係來填補缺失值
2.5.4通過探索案例之間的相似性來填補缺失值
2.6獲取預測模型
2.6.1多元線性回歸
2.6.2回歸樹
2.7模型的評價和選擇
2.8預測7類海藻的頻率
2.9小結
第3章 預測股票市場收益
3.1問題描述與目標
3.2可用的數據
3.21在R中處理與時間有關的數據
3.22從CSV檔案讀取數據
3.23從網站上獲取數據
3.24從MySQL資料庫讀取數據
3.3定義預測任務
3.3.1預測什麼
3.3.2預測變數是什麼
3.3.3預測任務
3.3.4模型評價準則
3.4預測模型
3.4.1如何套用訓練集數據來建模
3.4.2建模工具
3.5從預測到實踐
3.5.1如何套用預測模型
3.5.2與交易相關的評價準則
3.5.3模型集成:仿真交易
3.6模型評價和選擇
3.6.1蒙特卡羅估計
3.6.2實驗比較
3.6.3結果分析
3.7交易系統
3.7.1評估最終測試數據
3.7.2線上交易系統
3.8小結
第4章 偵測欺詐交易
4.1問題描述與目標
4.2可用的數據
4.2.1載入數據至R
4.2.2探索數據集
4.2.3數據問題
4.3定義數據挖掘任務
4.3.1問題的不同解決方法
4.3.2評價準則
4.3.3實驗方法
4.4計算離群值的排序
4.4.1無監督方法
4.4.2有監督方法
4.4.3半監督方法
4.5小結
第5章 微陣列樣本分類
5.1問題描述與目標
5.1.1微陣列實驗背景簡介
5.1.2數據集ALL
5.2可用的數據
5.3基因(特徵)選擇
5.3.1基於分布特徵的簡單過濾方法
5.3.2 ANOVA過濾
5.3.3用隨機森林進行過濾
5.3.4用特徵聚類的組合進行過濾
5.4遺傳學異常的預測
5.4.1定義預測任務
5.4.2模型評價標準
5.4.3實驗過程
5.4.4建模技術
5.4.5模型比較
5.5小結
參考文獻
主題索引
數據挖掘術語索引
R函式索引
序言
【前言】
Data Mining with R:Learning with Case Studies
本書的主要目的是向讀者介紹如何用R進行數據挖掘。R是一個可以自由下載的語言,它提供統計計算和繪圖環境,其功能和大量的添加包使它成為一款優秀的、多個已有(昂貴)數據挖掘工具的替代軟體。
數據挖掘的一個關鍵問題是數據量。典型的數據挖掘問題包括一個大的資料庫,需要從中提取有用的信息。在本書中,我們用MySQL作為核心資料庫管理系統。對多個計算機平台,MySQL也是免費的。這意味著,我們可以不用付任何費用就可以進行“重要的”數據挖掘任務。同時,我們希望說明解決方案質量上並沒有任何損失。昂貴的工具並不意味著一定更好!只要你願意花時間來學習如何套用它們,R和MySQL就是一對很難超越的工具。我們認為這是值得的,希望在讀完本書之後,你也相信這點。
本書的目的不是介紹數據挖掘的各個方面。許多已有的書籍覆蓋了數據挖掘領域。我們用幾個案例來向讀者介紹R的數據挖掘能力。顯然,這幾個案例不能代表我們在現實世界中碰到的所有數據挖掘問題。同時,我們給出的解決方案也不是最完全的方案。我們的目的是通過這些實際案例向讀者介紹如何用R進行數據挖掘。因此,我們案例分析的目的是展示用R進行信息提取的例子,而不是提供數據挖掘案例的完整分析報告。它們可以作為任何數據挖掘項目的可能思路,或者作為開發數據挖掘項目解決方案的基礎。儘管如此,我們盡力嘗試覆蓋多方面的問題,展示數據大小、不同數據類型、分析目標和進行分析所必需的工具所帶來的挑戰。然而,這裡的實踐方式也是有代價的。實際上,作為具體案例研究的一種形式,為了讓讀者在自己的計算機上執行我們所描述的步驟,我們也做了某些妥協。也就是說,我們不能處理太大的問題,這些問題要求的計算機資源不是每個人都具備的。儘管這樣,我們認為本書涵蓋的問題也不算小,並對不同的數據類型和維度給出了解決方案。
這裡並不要求讀者具有R的先驗知識。沒有學過R和數據挖掘的讀者應該可以學習書中的案例。書中的各個案例相互獨立,讀者可以從書中任何一個案例開始。在第一個簡單案例中,給出了一些基本的R知識。這意味著,如果你沒有學過R,至少應該從第一個案例開始學習。而且,第1章給出了R和MySQL的簡介,它可以幫助你理解後面的章節。我們也沒有假設你熟悉數據挖掘和統計技術。在每個案例的必要地方,都對不同的數據挖掘技術進行了介紹。本書的目的不是向讀者介紹這些技術的理論細節和全面知識,我們對這些工具的描述包括了它們的基本性質、缺點和分析目標。如果需要進一步了解技術細節,可以參考其他書籍。在某些節的末尾,我們提供了“參考資料”,如果需要,可以參考它們。總之,本書的讀者應該是數據分析工具的用戶,而不是研究人員或者開發人員。同時,我們希望後者把本書作為進入R和數據挖掘“世界”的一種方式,從而發現本書的用途。
本書有一個免費的R代碼集,可以從本書網站下載。其中含有案例研究中的所有代碼,這可以幫助你的實踐學習。我們強烈建議讀者在閱讀本書時安裝R並實驗書中的代碼。而且,我們創建了一個名為DMwR的R添加包,它包含本書用到的多個函式和以R格式保存的案例數據集。你應該按照本書的指示,安裝並載入該添加包(第1章給出了細節)。
Data Mining with R:Learning with Case Studies
本書的主要目的是向讀者介紹如何用R進行數據挖掘。R是一個可以自由下載的語言,它提供統計計算和繪圖環境,其功能和大量的添加包使它成為一款優秀的、多個已有(昂貴)數據挖掘工具的替代軟體。
數據挖掘的一個關鍵問題是數據量。典型的數據挖掘問題包括一個大的資料庫,需要從中提取有用的信息。在本書中,我們用MySQL作為核心資料庫管理系統。對多個計算機平台,MySQL也是免費的。這意味著,我們可以不用付任何費用就可以進行“重要的”數據挖掘任務。同時,我們希望說明解決方案質量上並沒有任何損失。昂貴的工具並不意味著一定更好!只要你願意花時間來學習如何套用它們,R和MySQL就是一對很難超越的工具。我們認為這是值得的,希望在讀完本書之後,你也相信這點。
本書的目的不是介紹數據挖掘的各個方面。許多已有的書籍覆蓋了數據挖掘領域。我們用幾個案例來向讀者介紹R的數據挖掘能力。顯然,這幾個案例不能代表我們在現實世界中碰到的所有數據挖掘問題。同時,我們給出的解決方案也不是最完全的方案。我們的目的是通過這些實際案例向讀者介紹如何用R進行數據挖掘。因此,我們案例分析的目的是展示用R進行信息提取的例子,而不是提供數據挖掘案例的完整分析報告。它們可以作為任何數據挖掘項目的可能思路,或者作為開發數據挖掘項目解決方案的基礎。儘管如此,我們盡力嘗試覆蓋多方面的問題,展示數據大小、不同數據類型、分析目標和進行分析所必需的工具所帶來的挑戰。然而,這裡的實踐方式也是有代價的。實際上,作為具體案例研究的一種形式,為了讓讀者在自己的計算機上執行我們所描述的步驟,我們也做了某些妥協。也就是說,我們不能處理太大的問題,這些問題要求的計算機資源不是每個人都具備的。儘管這樣,我們認為本書涵蓋的問題也不算小,並對不同的數據類型和維度給出了解決方案。
這裡並不要求讀者具有R的先驗知識。沒有學過R和數據挖掘的讀者應該可以學習書中的案例。書中的各個案例相互獨立,讀者可以從書中任何一個案例開始。在第一個簡單案例中,給出了一些基本的R知識。這意味著,如果你沒有學過R,至少應該從第一個案例開始學習。而且,第1章給出了R和MySQL的簡介,它可以幫助你理解後面的章節。我們也沒有假設你熟悉數據挖掘和統計技術。在每個案例的必要地方,都對不同的數據挖掘技術進行了介紹。本書的目的不是向讀者介紹這些技術的理論細節和全面知識,我們對這些工具的描述包括了它們的基本性質、缺點和分析目標。如果需要進一步了解技術細節,可以參考其他書籍。在某些節的末尾,我們提供了“參考資料”,如果需要,可以參考它們。總之,本書的讀者應該是數據分析工具的用戶,而不是研究人員或者開發人員。同時,我們希望後者把本書作為進入R和數據挖掘“世界”的一種方式,從而發現本書的用途。
本書有一個免費的R代碼集,可以從本書網站下載。其中含有案例研究中的所有代碼,這可以幫助你的實踐學習。我們強烈建議讀者在閱讀本書時安裝R並實驗書中的代碼。而且,我們創建了一個名為DMwR的R添加包,它包含本書用到的多個函式和以R格式保存的案例數據集。你應該按照本書的指示,安裝並載入該添加包(第1章給出了細節)。
名人推薦
如果你想學習如何用一款統計專家和數據挖掘專家所開發的免費軟體包,那就選這本書吧。本書包括大量實際案例,它們充分體現了R軟體的廣度和深度。
——Bernhard Pfahringer,紐西蘭懷卡托大學
——Bernhard Pfahringer,紐西蘭懷卡托大學