基本介紹
- 書名:R語言數據挖掘方法及套用
- 作者:薛薇
- ISBN:9787121283277
- 頁數:404頁
- 出版時間:2016-04
- 開本:16開
出版信息,內容簡介,目錄,
出版信息
R語言數據挖掘方法及套用
叢書名 :統計分析系列
作 譯 者:薛薇
出版時間:2016-04 千 字 數:646
版 次:01-01 頁 數:404
開 本:16開
裝 幀:
I S B N :9787121283277
內容簡介
大數據不僅意味著數據的積累、存儲與管理,更意味著大數據的分析。數據挖掘無可爭議地成為當今大數據分析的核心利器。R語言因徹底的開放性策略業已躋身數據挖掘工具之首列。本書以“R語言數據挖掘入門並不難”為開篇,總覽了數據挖掘的理論和套用輪廓,明確了R語言入門的必備知識和學習路線,並展示了數據挖掘的初步成果,旨在使讀者快速起步數據挖掘實踐。後續圍繞數據挖掘套用的四大核心方面,安排了數據預測篇:立足數據預測未知,數據分組篇:發現數據中的自然群組,數據關聯篇:發現數據的內在關聯性,離群數據探索篇:發現數據中的離群點。每篇下各設若干章節,各章節從簡單易懂且具代表性的案例問題入手,剖析理論方法原理,講解R語言實現,並給出案例的R語言數據挖掘代碼和結果解釋。本書內容覆蓋之廣泛,原理講解之通俗,R語言實現步驟之詳盡,在國內外同類書籍中尚不多見。
目錄
第一篇 起步篇:R語言數據挖掘入門並不難
第1章 數據挖掘與R語言概述
【本章學習目標】
1.1 為什麼要學習數據挖掘和R語言
1.2 什麼是數據挖掘
1.3數據挖掘能給出什麼
1.3.1數據挖掘結果有哪些呈現方式
1.3.2 數據挖掘結果有哪些基本特徵
1.4 數據挖掘能解決什麼問題
1.4.1 數據預測
1.4.2 發現數據的內在結構
1.4.3 發現關聯性
1.4.4 模式診斷
1.5 數據挖掘解決問題的思路
1.6數據挖掘有哪些典型的商業套用
1.6.1 數據挖掘在客戶細分中的套用
1.6.2 數據挖掘在客戶流失分析中的套用
1.6.3 數據挖掘在行銷回響分析中的套用
1.6.4 數據挖掘在交叉銷售中的套用
1.6.5 數據挖掘在欺詐甄別中的套用
1.7 R語言入門需要知道什麼
1.7.1 什麼是R的包
1.7.2 如何獲得 R
1.7.3 R如何起步
1.7.4 R的基本操作和其他
【本章附錄】
第2章 R語言數據挖掘起步:R對象和數據組織
【本章學習目標】
2.1 什麼是R的數據對象
2.1.1 R的數據對象有哪些類型
2.1.2 如何創建和訪問R的數據對象
2.2 如何用R的向量組織數據
2.2.1 創建只包含一個元素的向量
2.2.2 創建包含多個元素的向量
2.2.3 訪問向量中的元素
2.3 如何用R的矩陣組織數據
2.3.1 創建矩陣
2.3.2 訪問矩陣中的元素
2.4 如何用R的數據框組織數據
2.4.1 創建數據框
2.4.2 訪問數據框
2.5 如何用R的數組、列表組織數據
2.5.1 創建和訪問數組
2.5.2 創建和訪問列表
2.6 R數據對象的相互轉換
2.6.1 不同存儲類型之間的轉換
2.6.2 不同結構類型之間的轉換
2.7 如何將外部數據組織到R數據對象中
2.7.1 將文本數據組織到R對象中
2.7.2 將SPSS數據組織到R對象中
2.7.3 將資料庫和Excel表數據組織到R對象中
2.7.4 將網頁表格數據組織到R對象中
2.7.5 R有哪些自帶的數據包
2.7.6 如何將R對象中的數據保存起來
2.8 R程式設計需哪些必備知識
2.8.1 R程式設計涉及哪些基本概念
2.8.2 R有哪些常用的系統函式
2.8.3 用戶自定義函式提升編程水平
2.8.4 如何提高R程式處理的能力
2.9 R程式設計與數據整理綜合套用
2.9.1 綜合套用一:數據的基本處理
2.9.2 綜合套用二:如何將匯總數據還原為原始數據
【本章附錄】
第3章 R語言數據挖掘初體驗:對數據的直觀印象
【本章學習目標】
【案例與思考】
3.1 數據的直觀印象
3.1.1 R的數據可視化平台是什麼?
3.1.3 R的圖形邊界和布局
3.1.2 R的圖形組成和圖形參數
3.1.4 如何修改R的圖形參數?
3.2如何獲得單變數分布特徵的直觀印象
3.2.1核密度圖:車險理賠次數的分布特點是什麼?
3.2.2 小提琴圖:不同車型車險理賠次數的分布有差異嗎?
3.2.3克利夫蘭點圖:車險理賠次數存在異常嗎?
3.3如何獲得多變數聯合分布的直觀印象
3.3.1 曲面圖和等高線圖
3.3.2 二元核密度曲面圖:投保人年齡和車險理賠次數的聯合分布特點是什麼?
3.3.3 雷達圖:不同區域氣候特點有差異嗎?
3.4如何獲得變數間相關性的直觀印象
3.4.1 馬賽克圖:車型和車齡有相關性嗎?
3.4.2 散點圖:這些因素會影響空氣濕度嗎?
3.4.3 相關係數圖:淘寶各行業商品成交指數有相關性嗎?
3.5如何獲得GIS數據的直觀印象
3.5.1 繪製世界地圖和美國地圖
3.5.2 繪製中國行政區劃地圖
3.5.3 依據地圖繪製熱力圖:不同省市的淘寶女裝成交指數有差異嗎?
3.7如何獲得文本詞頻數據的直觀印象:政府工作報告中有哪些高頻詞?
【本章附錄】
第二篇 數據預測篇:立足數據預測未知
第4章 基於近鄰的分類預測:與近鄰有趨同的選擇!
【本章學習目標】
【案例與思考】
4.1近鄰分析: K-近鄰法
4.1.1 K-近鄰法中的距離
4.1.2 K-近鄰法中的近鄰個數
4.1.3 R的K-近鄰法和模擬分析
4.1.4 K-近鄰法套用:天貓成交顧客的分類預測
4.2 K-近鄰法的適用性及特徵選擇
4.2.1 K-近鄰法的適用性
4.2.2 特徵選擇:找到重要變數
4.3基於變數重要性的加權K-近鄰法
4.3.1 基於變數重要性的加權K-近鄰法的基本原理
4.3.2 變數重要性判斷套用:天貓成交顧客預測中的重要變數
4.4基於觀測相似性的加權K-近鄰法
4.4.1 加權K-近鄰法的權重設計
4.4.2 加權K-近鄰法的距離和相似性變換
4.4.3 加權K-近鄰法的R實現
4.4.4加權K-近鄰法套用:天貓成交顧客的分類預測
【本章附錄】
第5章 基於規則的分類和組合預測:給出易懂且穩健的預測!
【本章學習目標】
【案例與思考】
5.1決策樹概述
5.1.1 什麼是決策樹?
5.1.2 決策樹的幾何意義是什麼?
5.1.3 決策樹的核心問題
5.2 分類回歸樹的生長過程
5.2.1 分類樹的生長過程
5.2.2 回歸樹的生長過程
5.2.3損失矩陣對分類樹的影響
5.3 分類回歸樹的剪枝
5.3.1 最小代價複雜度的測度
5.3.2 分類回歸樹後剪枝過程
5.3.3 分類回歸樹的交叉驗證剪枝
5.4 分類回歸樹的R實現和套用
5.4.1 分類回歸樹的R實現
5.4.2 分類回歸樹的套用:提煉不同消費行為顧客的主要特徵
5.5 建立分類回歸樹的組合預測模型:給出穩健的預測
5.5.1 袋裝技術
5.5.2 袋裝技術的R實現
5.5.3 袋裝技術的套用:穩健定位目標客戶
5.5.4 推進技術
5.5.5 推進技術的R實現
5.5.6 推進技術的套用:穩健定位目標客戶
5.6 隨機森林:具有隨機性的組合預測
5.6.1 什麼是隨機森林?
5.6.2 隨機森林的R實現
5.6.3 隨機森林的套用:穩健定位目標客戶
【本章附錄】
第6章 基於神經網路的分類預測:給出高精確的預測!
【本章學習目標】
【案例與思考】
6.1 人工神經網路概述
6.1.1 人工神經網路和種類
6.1.2 節點:人工神經網路的核心處理器
6.1.3 建立人工神經網路的一般步驟
6.1.4感知機模型:確定連線權重的基本策略
6.2 B-P反向傳播網路:最常見的人工神經網路
6.2.1 B-P反向傳播網路的三大特點
6.2.2 B-P反向傳播算法:確定連線權重
6.2.3 學習率:影響連線權重調整的重要因素
6.3 B-P反向傳播網路的R實現和套用
6.3.1 neuralnet包中的neuralnet函式
6.3.2 neuralnet函式的套用:精準預測顧客的消費行為
6.3.3 利用ROC曲線確定機率分割值
6.3.4 nnet包中的nnet函式
【本章附錄】
第7章 基於支持向量的分類預測:給出最大把握的預測!
【本章學習目標】
【案例與思考】
7.1 支持向量分類概述
7.1.1支持向量分類的基本思路:確保把握程度
7.1.2支持向量分類的三種情況
7.2理想條件下的分類:線性可分時的支持向量分類
7.2.1如何求解超平面
7.2.1如何利用超平面進行分類預測
7.3 一般條件下的分類:廣義線性可分時的支持向量分類
7.3.1如何求解超平面
7.3.2 可調參數的意義:把握程度和精度的權衡
7.4 複雜條件下的分類:線性不可分時支持向量分類
7.4.1 線性不可分的一般解決途徑和維災難問題
7.4.2 支持向量分類克服維災難的途徑
7.5 多分類的支持向量分類:二分類的拓展
7.6 支持向量回歸:解決數值預測問題
7.6.1 支持向量回歸與一般線性回歸:目標和策略
7.6.2 支持向量回歸的基本思路
7.7 支持向量機的R實現及套用
7.7.1支持向量機的R實現
7.7.2 利用R模擬線性可分下的支持向量分類
7.7.3 利用R模擬線性不可分下的支持向量分類
7.7.4 利用R模擬多分類的支持向量分類
7.7.5 支持向量分類套用:天貓成交顧客的預測
【本章附錄】
第三篇 數據分組篇:發現數據中的自然群組
第8章 常規聚類:直觀的數據全方位自動分組
【本章學習目標】
【案例與思考】
8.1 聚類分析概述
8.1.1聚類分析目標:發現數據中的“自然小類”
8.1.2 有哪些主流的聚類算法?
8.2基於質心的聚類:K-Means聚類
8.2.1 K-Means聚類中的距離測度:體現全方位性
8.2.2 K-Means聚類過程:多次自動分組
8.2.3 K-Means聚類的R實現和模擬分析
8.2.4 K-Means聚類的套用:環境污染的區域劃分
8.3 PAM聚類:改進的K- Means聚類
8.3.1 PAM聚類過程
8.3.2 PAM聚類的R實現和模擬分析
8.3基於聯通性的聚類:層次聚類
8.3.1 層次聚類的基本過程:循序漸進的自動分組
8.3.2 層次聚類的R實現和套用:環境污染的區域劃分
8.4基於統計分布的聚類:EM聚類
8.4.1 基於統計分布的聚類出發點:有限混合分布
8.4.2 EM聚類:如何估計類參數和聚類解
8.4.3 EM聚類的R實現和模擬分析
8.4.4 EM聚類的套用:環境污染的區域劃分
【本章附錄】
第9章 特色聚類:數據分組還可以這樣做!
【本章學習目標】
【案例與思考】
9.1 BIRCH聚類概述
9.1.1 BRICH聚類有哪些特點?
9.1.2 聚類特徵和聚類特徵樹:BIRCH聚類的重要策略
9.1.3 BIRCH的聚類過程:由存儲空間決定的動態聚類
9.1.4 BRICH聚類的R實現
9.1.5 BRICH聚類套用:兩期崗位培訓的比較
9.2 SOM網路聚類概述
9.2.1 SOM網路聚類設計出發點
9.2.2 SOM網路的拓撲結構和聚類原理
9.2.3 SOM網路聚類的R實現
9.2.4 SOM網路聚類套用:手寫郵政編碼識別
9.2.5 拓展SOM網路:紅酒品質預測
9.3基於密度的聚類模型:DBSCAN聚類
9.3.1 DBSCAN聚類原理:密度可達性是核心
9.3.2 DBSCAN聚類的R實現
9.3.3 DBSCAN聚類的模擬分析
【本章附錄】
第四篇 數據關聯篇:發現數據的內在關聯性
第10章 發現數據中的關聯特徵:關聯是推薦的依據!
【本章學習目標】
【案例與思考】
10.1 簡單關聯規則及其測度
10.1.1 什麼是簡單關聯規則?
10.1.2 如何評價簡單關聯規則的有效性?
10.1.3如何評價簡單關聯規則的實用性?
10.2 Apriori算法:發現簡單關聯規則的高效算法
10.2.1 搜尋頻繁項集:Apriori算法的重中之重
10.2.2依頻繁項集產生簡單關聯規則:水到渠成
10.2.3 Apriori算法的R實現和套用示例
10.2.4 簡單關聯的可視化R實現和套用示例
10.3 Eclat算法:更快速地發現頻繁項集
10.3.1 Eclat算法原理:對等類是核心
10.3.2 Eclat算法的R實現和套用示例
10.4 簡單關聯分析套用:商品推薦
10.4.1 發現連帶銷售商品
10.4.2 顧客選擇性傾向對比
10.5 序列關聯分析及SPADE算法:發現數據中的時序關聯性
10.5.1 序列關聯中有哪些基本概念?
10.5.2 SPADE算法:發現序列關聯規則的高效算法
10.5.3 序列關聯分析的R實現及套用示例
10.6 序列關聯分析套用:發現網民的瀏覽習慣
第11章 複雜網路分析初步:基於關係的研究!
【本章學習目標】
【案例與思考】
11.1 網路的定義表示及構建:複雜網路分析的第一步!
11.1.1 網路的圖論定義及R實現
11.1.2 網路的矩陣表示方式及R實現
11.1.3 R的網路數據檔案和建立網路對象
11.1.4 R的網路可視化
11.2 網路節點重要性的測度:誰是網路的“主導”?
11.2.1度和測地線距離
11.2.2點度中心度和接近中心度:節點“中心”作用的測度
11.2.3中間中心度:節點“樞紐”作用的測度
11.2.4節點重要性的其他方面:結構洞和關節點、特徵向量中心度和PageRank得分
11.3 網路子群構成特徵研究:找到網路中的“小團體”!
11.3.1二元關係和三元關係及R實現
11.3.2 派系和k-核及R實現
11.3.3 社區和組件及R實現
11.4 網路整體特徵刻畫:整體關係是這樣的!
11.4.1 網路整體特徵的測度
11.4.2 網路特徵的各種分布和度量
11.5 主要網路類型及特點:多姿多彩的網路世界!
11.5.1 規則網路及特點
11.5.2 隨機網路及特點
11.5.3 小世界網路及特點
11.5.4 無標度網路及特點
【本章附錄】
第五篇 離群數據探索篇:發現數據中的離群點
第12章模式甄別:診斷異常數據!
【本章學習目標】
【案例與思考】
12.1 模式甄別方法和評價概述
12.1.1 模式甄別方法
12.1.2 模式甄別結果及評價:風險評分
12.2 模式甄別的無監督偵測方法及套用示例
12.2.1 依機率偵測模式及R套用示例
12.2.2 依距離偵測模式:DB方法及R套用示例
12.2.3 依密度偵測模式:LOF方法及R套用示例
12.3 模式甄別的有監督偵測方法及套用示例
12.3.1 樸素貝葉斯分類法及示例
12.3.2 Logistic回歸及示例
12.3.3 非平衡數據集的SMOTE處理
12.4 模式甄別的半監督偵測方法及套用示例
12.4.1 半監督分類:自訓練分類模型
12.4.2 自訓練分類模型的R實現及套用示例
【本章附錄】