大數據挖掘與統計機器學習

大數據挖掘與統計機器學習

《大數據挖掘與統計機器學習》是2016年中國人民大學出版社出版的圖書,作者是呂曉玲、宋捷。

基本介紹

  • 書名:大數據挖掘與統計機器學習
  • 作者:呂曉玲
    宋捷
  • 出版社:中國人民大學出版社
  • ISBN:9787300231013
內容簡介,圖書目錄,作者簡介,

內容簡介

大數據時代的到來,使我們的生活在政治、經濟、社會、文化各個領域都產生了很大改變。“數據科學”一詞應運而生。如何更好地對海量數據進行分析、得出結論並做出智慧型決策是統計工作者面臨的機遇與挑戰。
本書介紹數據挖掘與統計機器學習領域*常用的模型和算法,包括*基礎的線性回歸和線性分類方法,以及模型選擇和模型評價的概念和方法,進而介紹非線性的回歸和分類方法(包括決策樹與組合方法、支持向量機、神經網路以及在此基礎上發展的深度學習方法)。*後介紹無監督的學習中的聚類方法和業界廣泛使用的推薦系統方法。除了方法的理論講解之外,我們給出了每種方法的R語言實現,以及套用Python語言實現深度學習和支持向量機兩種方法。本書的一個亮點是*後一章給出的兩個大數據案例,數據量均在10G左右。我們同時給出了單機版(Python、資料庫、R)和分散式(Hadoop、Hive、Spark)兩種實現方案。原始數據和程式代碼均可在出版社提供的網址下載。
本書面向的主要讀者是套用統計專業碩士,希望能夠拓展到統計專業高年級的本科生以及其他各個領域有數據分析需求的學生和從業人員。

圖書目錄

第1章概述
1.1名詞演化
1.2基本內容
1.3數據智慧
第2章線性回歸方法
2.1多元線性回歸
2.2壓縮方法:嶺回歸與Lasso
2.3*Lasso 模型的求解與理論性質
2.4損失函式加罰的建模框架
2.5上機實踐
第3章線性分類方法
3.1分類問題綜述與評價準則
3.2Logistic回歸
3.3線性判別
3.4上機實踐
第4章模型評價與選擇
4.1基本概念
4.2*理論方法
4.3數據重利用方法
4.4上機實踐
第5章決策樹與組合方法
5.1決策樹
5.2Bagging
5.3Boosting
5.4隨機森林
5.5上機實踐
第6章神經網路與深度學習
6.1神經網路
6.2深度學習
6.3上機實踐
第7章支持向量機
7.1線性可分支持向量機
7.2軟間隔支持向量機
7.3一些拓展
7.4上機實踐
第8章聚類分析
8.1基於距離的聚類
8.2基於模型和密度的聚類
8.3稀疏聚類
8.4雙向聚類
8.5上機實踐
第9章推薦系統
9.1基於鄰居的推薦
9.2潛在因子與矩陣分解算法
9.3上機實踐
第10章大數據案例分析
10.1智慧型手機用戶監測數據案例分析
10.2美國航空數據案例分析
參考文獻
大數據挖掘與統計機器學習

作者簡介

呂曉玲,吉林省吉林市人。現任中國人民大學統計學院副教授,北京五校聯合大數據分析碩士培養協同創新平台總協調人。本科與碩士畢業於南開大學數學系機率統計專業,博士畢業於香港城市大學管理科學系。曾經是奧地利約翰克卜勒大學套用統計系以及美國加州大學伯克利分校統計系訪問學者。一直從事數據挖掘和統計機器學習領域的理論研究,及其在消費者行為方面的套用研究。在數據挖掘以及市場行銷方面的項目涉及的領域包括銀行、電子商務、交通、教育、廣播電視、移動網際網路等。
宋捷,四川眉山人。現任首都經濟貿易大學統計學院副教授。本科與碩士畢業於四川大學數學系機率統計專業,博士畢業於中國人民大學統計學院。一直從事機器學習與數據挖掘相關領域的理論研究。

相關詞條

熱門詞條

聯絡我們