r語言數據挖掘(2016年機械工業出版社出版的圖書)

r語言數據挖掘(2016年機械工業出版社出版的圖書)

本詞條是多義詞,共3個義項
更多義項 ▼ 收起列表 ▲

《r語言數據挖掘》是2016年10月機械工業出版社出版的圖書,作者是(哈薩克斯坦)貝特·麥克哈貝爾,本書介紹了關聯規則、分類、聚類分析、異常值探測、數據流挖掘、時間序列、圖形挖掘、網路分析、文本挖掘和網路分析等流行的數據挖掘算法。

基本介紹

  • 中文名:r語言數據挖掘
  • 作者:(哈薩克斯坦)貝特·麥克哈貝爾
  • 出版社:機械工業出版社
  • ISBN:9787111547693
內容簡介,圖書目錄,作者簡介,

內容簡介

本書介紹了關聯規則、分類、聚類分析、異常值探測、數據流挖掘、時間序列、圖形挖掘、網路分承擔體市析、文本項催匙挖掘和網路分析等流行的數據挖掘算法,給出了具體算法以及這些算法的偽代碼和R語言實現。本書可以作為統計學、計算機等相關專業高年級本科生或研究生的教材,也可以作為數據分析和挖掘等相關研究人員的參考資料。

圖書目錄

目錄 Contents譯者序作者簡介審校者簡介前言致謝第1章 預備知識 11.1 大數據 21.2 數據源 31.3 數據挖掘 41.3.1 特徵提取 41.3.2 總結 41.3.3 數據挖掘過程 51.4 社交網路挖掘 71.5 文本挖掘 91.5.1 信息檢索和文本挖掘 101.5.2 文本挖掘預測 101.6 網路數據挖掘 101.7 為什麼選擇R 121.8 統計學 121.8.1 統計學與數據挖掘 131.8.2 統計學與機器學習 131.8.3 統計學與R語言 131.8.4 數據挖掘中統計學的局限性 131.9 機器學習 131.9.1 機器學習和備謎方法 141.9.2 機器學習架構 141.10 數據屬性與描述 151.10.1 數值屬性 161.10.2 分類屬性 161.10.3 數據描述 161.10.4 數據測量 171.11 數據清洗 181.11.1 缺失值 181.11.2 垃圾數據、噪聲數據或異常值 191.12 數據集成 191.13 數據降維 201.13.1 特徵值和特徵向量 201.13.2 主成分分析 201.13.3 奇異值分解 201.13.4 CUR分解 211.14 數據變換與離散化 211.14.1 數據變換 211.14.2 標準化數據的變換方法 221.14.3 數據離散化 221.15 結果可視化 231.16 練習 241.17 總結 24第2章 頻繁模式、關聯規則和相關規則挖掘 252.1 關聯規則和關聯模式概述 262.1.1 模式和模式發現 262.1.2 關係或規則發現 292.2 購物籃分析 302.2.1 購物籃模型 312.2.2 Apriori算法 312.2.3 Eclat算法 352.2.4 FP-growth算法 372.2.5 基於頻繁項集的GenMax算法 412.2.6 基於頻繁閉項集的Charm算法 432.2.7 關聯規則生成算法 442.3 混合關聯規則挖掘 462.3.1 多層次和多維度關聯規則挖掘 462.3.2 基於約束的頻繁模式挖掘 472.4 序列數據集挖掘 482.4.1 序列數據集 482.4.2 GSP算法 482.5 R語言實現 502.5.1 SPADE算法 512.5.2 從序列模式中生成規則 522.6 高性能算法 522.7 練習 532.8 總結 53第3章 分類 543.1 分類 553.2 通用決策樹歸納法 563.2.1 屬戀獄性選擇度量 583.2.2 決策樹剪枝 593.2.3 決策樹生成的一般算法 593.2.4 R語言實現 613.3 使用ID3算法對高額度信用卡用戶分類 613.3.1 ID3算法 623.3.2 R語言實現 643.3.3 網路攻擊檢測 643.3.4 高額度信用卡用戶分類 663.4 使用C4.5算法進行網路垃圾頁面檢測 663.4.1 C4.5算法 673.4.2 R語言實現 683.4.3 基於MapReduce的並行版本 693.4.4 網路垃圾頁面檢測 703.5 使用CART算法判斷網路關鍵資源估灶龍頁面 723.5.1 CART算法 733.5.2 R語言實現 743.5.3 網路關鍵資源頁面判斷 743.6 木馬程式流量識別方法和貝葉斯分類 753.6.1 估計 753.6.2 貝葉斯分類 763.6.3 R語言實現 773.6.4 木馬流量識別方法 773.7 垃圾郵件識別和樸素貝葉斯分類 793.7.1 樸素貝葉斯分類 793.7.2 R語言實現 803.7.3 垃圾郵件識別 803.8 基於規則的計算機遊戲玩家類型分類和基於規則的分類 813.8.1 從決策樹變換為決策規則 823.8.2 基於規則的分類 823.8.3 序列覆蓋算法 833.8.4 RIPPER算法 833.8.5 計算機遊戲玩家類型的基於規舟己勸則的分類 853.9 練習習槓端提 863.10 總結 86第4章 高級分類算法 874.1 集成方法 874.1.1 Bagging算法 884.1.2 Boosting和AdaBoost算法 894.1.3 隨機森林算法 914.1.4 R語言實現 914.1.5 基於MapReduce的並行版本 924.2 生物學特徵和貝葉斯信念網路 924.2.1 貝葉斯信念網路算法 934.2.2 R語言實現 944.2.3 生物學特徵 944.3 蛋白質分類和k近鄰算法 944.3.1 kNN算法 954.3.2 R語言實現 954.4 文檔檢索和支持向量機 954.4.1 支持向量機算法 974.4.2 R語言實現 994.4.3 基於MapReduce的並行版本 994.4.4 文檔檢索 1004.5 基於頻繁模式的分類 1004.5.1 關聯分類 1004.5.2 基於判別頻繁模式的分類 1014.5.3 R語言實現 1014.5.4 基於序列頻繁項集的文本分類 1024.6 基於反向傳播算法的分類 1024.6.1 BP算法 1044.6.2 R語言實現 1054.6.3 基於MapReduce的並行版本 1054.7 練習 1064.8 總結 107第5章 聚類分析 1085.1 搜尋引擎和k均值算法 1105.1.1 k均值聚類算法 1115.1.2 核k均值聚類算法 1125.1.3 k模式聚類算法 1125.1.4 R語言實現 1135.1.5 基於MapReduce的並行版本 1135.1.6 搜尋引擎和網頁聚類 1145.2 自動提取文檔文本和k中心點算法 1165.2.1 PAM算法 1175.2.2 R語言實現 1175.2.3 自動提取和總結文檔文本 1175.3 CLARA算法及實現 1185.3.1 CLARA算法 1195.3.2 R語言實現 1195.4 CLARANS算法及實現 1195.4.1 CLARANS算法 1205.4.2 R語言實現 1205.5 無監督的圖像分類和仿射傳播聚

作者簡介

作者簡介 About the AuthorBater Makhabel(LinkedIn: BATERMJ和GitHub: BATERMJ)為系統構架師,生活在中國北京、上海和烏魯木齊等地。他於1995至2002年之間在清華大學學習,並獲得計算機科學和技術的學士和博士學位。他在機器學習、數據挖掘、自然語言處理(NLP)、分布系統、嵌入系統、網路、移動平台、算法、套用數學和統計領域有豐富的經驗。他服務過的客戶包括CA Technologies、META4ALL和EDA(DFR的一家子公司)。同時,他也擁有在中國創辦公司的經歷。 Bater的生活開創性地在計算機科學和人文科學之間取得了平衡。在過去的12年中,他在套用多種先進計算機技術於文化創作方面獲得了經驗,其中一項是人機界面,通過哈薩克語與計算機系統進行互動。他一直和他工作領域中的其他作家有合作,但是本書是他的正式作品。 About the Reviewers 審校者簡介Jason H.D. Cho在伊利諾伊大學香檳分校獲得計算機碩士學位,現在在攻讀博士。他對套用自然語言處理和大數據解決醫學信息問題特別感興趣。尤其是,他希望能在社交媒體上找到病人關心的健康需求。他曾帶領一個學員小組在美國一項主要的保健競賽(CIMIT)中躋身前10名。Jason也為自然語言處理和大數據研究領域的文章進行審稿。 Gururaghav Gopal現在在Paterson證券公司工作,其職位是量化分析員、開發人員、交易員和分析師。以前,他是一個和電商行業相關的數據科學諮詢師。他曾經在印度韋洛爾的韋洛爾理工大學教授大學生和研究生模式識別課程。他曾經在一些研究機構做過研究助理,包括IFMR和NAL。 Gururaghav獲得了電子工程的學士學位、計算機科學和工程的碩士學位,並在IFMR輔修金融工程和風險管理方面的課程。之後,他便在金融相關領域工作。他獲得過多個獎項並以他的名字發表過多篇文章。他對編程、教學和諮詢感興趣。在閒暇時間,他會聽音樂。 Vibhav Kamath獲得了位於孟買的印度理工學院工業工程和運籌學的碩士學位,並具有位於浦那的工學院的電子工程學士學位。大四期間,他對算法和數學模型產生了興趣,從此便進入分析領域。Vibhav現在在班加羅爾的一家IT服務公司工作,其工作的一部分內容是套用R程式語言基於最佳化和線性回歸技術來開發統計和數學模型。他曾經審閱過Packt出版社出版的兩本R語言圖書:R Graphs Cookbook, Second Edition和Social Media Mining with R,他曾經套用SAS、SQL和Excel/VBA做過數據可視化,為一家銀行開發過儀錶盤程式。 過去,Vibhav從事過離散時間仿真和語言處理(均基於MATLAB)等方面的學術工作。他涉獵過機器人領域,建立了一個瀏覽魔方的機器人Micromouse。除了分析和編程之外,Vibhav喜歡閱讀小說類讀物。空閒時,他打桌球、板球和網球,實在無聊時就玩田字格遊戲(數獨和數謎)。可以通過郵件[email protected]或者領英in.linkedin.com/in/vibhavkamath與他聯繫。 Hasan Kurban於2012年在布盧明頓的印度大學獲得計算機碩士學位,現在在該校的信息與計算機學院攻讀博士學位,專業為計算機科學同時輔修統計學。他的研究方向為數據挖掘、機器學習和統計學。

作者簡介

作者簡介 About the AuthorBater Makhabel(LinkedIn: BATERMJ和GitHub: BATERMJ)為系統構架師,生活在中國北京、上海和烏魯木齊等地。他於1995至2002年之間在清華大學學習,並獲得計算機科學和技術的學士和博士學位。他在機器學習、數據挖掘、自然語言處理(NLP)、分布系統、嵌入系統、網路、移動平台、算法、套用數學和統計領域有豐富的經驗。他服務過的客戶包括CA Technologies、META4ALL和EDA(DFR的一家子公司)。同時,他也擁有在中國創辦公司的經歷。 Bater的生活開創性地在計算機科學和人文科學之間取得了平衡。在過去的12年中,他在套用多種先進計算機技術於文化創作方面獲得了經驗,其中一項是人機界面,通過哈薩克語與計算機系統進行互動。他一直和他工作領域中的其他作家有合作,但是本書是他的正式作品。 About the Reviewers 審校者簡介Jason H.D. Cho在伊利諾伊大學香檳分校獲得計算機碩士學位,現在在攻讀博士。他對套用自然語言處理和大數據解決醫學信息問題特別感興趣。尤其是,他希望能在社交媒體上找到病人關心的健康需求。他曾帶領一個學員小組在美國一項主要的保健競賽(CIMIT)中躋身前10名。Jason也為自然語言處理和大數據研究領域的文章進行審稿。 Gururaghav Gopal現在在Paterson證券公司工作,其職位是量化分析員、開發人員、交易員和分析師。以前,他是一個和電商行業相關的數據科學諮詢師。他曾經在印度韋洛爾的韋洛爾理工大學教授大學生和研究生模式識別課程。他曾經在一些研究機構做過研究助理,包括IFMR和NAL。 Gururaghav獲得了電子工程的學士學位、計算機科學和工程的碩士學位,並在IFMR輔修金融工程和風險管理方面的課程。之後,他便在金融相關領域工作。他獲得過多個獎項並以他的名字發表過多篇文章。他對編程、教學和諮詢感興趣。在閒暇時間,他會聽音樂。 Vibhav Kamath獲得了位於孟買的印度理工學院工業工程和運籌學的碩士學位,並具有位於浦那的工學院的電子工程學士學位。大四期間,他對算法和數學模型產生了興趣,從此便進入分析領域。Vibhav現在在班加羅爾的一家IT服務公司工作,其工作的一部分內容是套用R程式語言基於最佳化和線性回歸技術來開發統計和數學模型。他曾經審閱過Packt出版社出版的兩本R語言圖書:R Graphs Cookbook, Second Edition和Social Media Mining with R,他曾經套用SAS、SQL和Excel/VBA做過數據可視化,為一家銀行開發過儀錶盤程式。 過去,Vibhav從事過離散時間仿真和語言處理(均基於MATLAB)等方面的學術工作。他涉獵過機器人領域,建立了一個瀏覽魔方的機器人Micromouse。除了分析和編程之外,Vibhav喜歡閱讀小說類讀物。空閒時,他打桌球、板球和網球,實在無聊時就玩田字格遊戲(數獨和數謎)。可以通過郵件[email protected]或者領英in.linkedin.com/in/vibhavkamath與他聯繫。 Hasan Kurban於2012年在布盧明頓的印度大學獲得計算機碩士學位,現在在該校的信息與計算機學院攻讀博士學位,專業為計算機科學同時輔修統計學。他的研究方向為數據挖掘、機器學習和統計學。

相關詞條

熱門詞條

聯絡我們