大數據挖掘與統計機器學習

內容簡介

大數據時代的到來，使我們的生活在政治、經濟、社會、文化各個領域都產生了很大改變。“數據科學”一詞應運而生。如何更好地對海量數據進行分析、得出結論並做出智慧型決策是統計工作者面臨的機遇與挑戰。

本書介紹數據挖掘與統計機器學習領域*常用的模型和算法，包括*基礎的線性回歸和線性分類方法，以及模型選擇和模型評價的概念和方法，進而介紹非線性的回歸和分類方法（包括決策樹與組合方法、支持向量機、神經網路以及在此基礎上發展的深度學習方法）。*後介紹無監督的學習中的聚類方法和業界廣泛使用的推薦系統方法。除了方法的理論講解之外，我們給出了每種方法的R語言實現，以及套用Python語言實現深度學習和支持向量機兩種方法。本書的一個亮點是*後一章給出的兩個大數據案例，數據量均在10G左右。我們同時給出了單機版（Python、資料庫、R）和分散式（Hadoop、Hive、Spark）兩種實現方案。原始數據和程式代碼均可在出版社提供的網址下載。

本書面向的主要讀者是套用統計專業碩士，希望能夠拓展到統計專業高年級的本科生以及其他各個領域有數據分析需求的學生和從業人員。

圖書目錄

第1章概述

1．1名詞演化

1．2基本內容

1．3數據智慧

第2章線性回歸方法

2．1多元線性回歸

2．2壓縮方法：嶺回歸與Lasso

2．3*Lasso 模型的求解與理論性質

2．4損失函式加罰的建模框架

2．5上機實踐

第3章線性分類方法

3．1分類問題綜述與評價準則

3．2Logistic回歸

3．3線性判別

3．4上機實踐

第4章模型評價與選擇

4．1基本概念

4．2*理論方法

4．3數據重利用方法

4．4上機實踐

第5章決策樹與組合方法

5．1決策樹

5．2Bagging

5．3Boosting

5．4隨機森林

5．5上機實踐

第6章神經網路與深度學習

6．1神經網路

6．2深度學習

6．3上機實踐

第7章支持向量機

7．1線性可分支持向量機

7．2軟間隔支持向量機

7．3一些拓展

7．4上機實踐

第8章聚類分析

8．1基於距離的聚類

8．2基於模型和密度的聚類

8．3稀疏聚類

8．4雙向聚類

8．5上機實踐

第9章推薦系統

9．1基於鄰居的推薦

9．2潛在因子與矩陣分解算法

9．3上機實踐

第10章大數據案例分析

大數據挖掘與統計機器學習

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條