R語言數據挖掘(2017年機械工業出版社出版的圖書)

內容簡介

Preface隨著數據規模和種類的增長，套用數據挖掘技術從大數據中提取有效信息變得至關重要。這是因為企業認為有必要從大規模數據的實施中獲得相應的投資回報。實施數據挖掘的根本性原因是要從大型資料庫中發現隱藏的商機，以便利益相關者能針對未來業務做出決策。數據挖掘不僅能夠幫助企業降低成本以及提高收益，還能幫助他們發現新的發展途徑。

本書將介紹使用R語言（一種開源工具）進行數據挖掘的基本原理。R是一門免費的程式語言，同時也是一個提供統計計算、圖形數據可視化和預測建模的軟體環境，並且可以與其他工具和平台相集成。本書將結合R語言在示例數據集中的套用來闡釋數據挖掘原理。

本書將闡述數據挖掘的一些主題，如數學表述、在軟體環境中的實現，以及如何據此來解決商業問題。本書的設計理念是，讀者可以從數據管理技術、探索性數據分析、數據可視化等內容著手學習，循序漸進，直至建立高級預測模型（如推薦系統、神經網路模型）。本書也從數據科學、分析學、統計建模以及可視化等角度對數據挖掘這一概念進行了綜述。

本書內容第1章帶領讀者初識R編程基礎，藉助真實的案例幫助讀者了解如何讀寫數據，了解編程符號和語法指令。這一章還給出了供讀者動手實踐的R腳本，以更好地理解書中的原理、術語以及執行特定任務的深層原因。之所以這樣設計，是為了讓沒有太多編程基礎的讀者也能使用R來執行各種數據挖掘任務。這一章將簡述數據挖掘的意義以及它與其他領域（諸如數據科學、分析學和統計建模）的關係，除此之外，還將展開使用R進行數據管理的討論。

第2章幫助讀者理解探索性數據分析。探索數據包括數據集中變數的數值描述和可視化，這將使得數據集變得直觀，並使我們能對其快速定論。對數據集有一個初步的理解很重要，比如選擇怎樣的變數進行分析、不同變數之間的關聯，等等。創建交叉二維表有助於理解分類變數之間的關係，對數據集實施經典統計檢驗來驗證對數據的種種假設。

第3章涵蓋從基礎的數據可視化到調用R語言中的庫實現高級的數據可視化。觀察數字和統計能從多個側面“告訴”我們關於變數的“故事”，而當圖形化地了解變數和因子之間的關係時，它將展示另一個“故事”。可見，數據可視化將揭示數值分析和統計無法展現的信息。

第4章幫助讀者學習利用回歸方法的預測分析基礎，包括線性和非線性回歸方法在R中的實現。讀者不僅可以掌握所有回歸方法的理論基礎，也將通過R實踐獲得實際動手操作的經驗。

第5章介紹了一種產品推薦方法——購物籃分析（MBA）。這種方法主要是將交易級的商品信息關聯，從中找出購買了相似商品的客戶分類，據此推薦產品。MBA還可以套用於向上銷售和交叉銷售中。

R語言數據挖掘(2017年機械工業出版社出版的圖書)

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條