大數據挖掘與套用(第二版)

《大數據挖掘與套用(第二版)》是2023年清華大學出版社出版的圖書,作者是王振武。

基本介紹

  • 中文名:大數據挖掘與套用(第二版)
  • 作者:王振武
  • 出版社:清華大學出版社
  • 出版時間:2023年3月1日
  • 定價:59 元
  • ISBN:9787302628323
內容簡介,圖書目錄,

內容簡介

本書對大數據挖掘與套用的基本算法進行了系統的介紹,每種算法不僅包括對算法基本原理的介紹,而且配有大量的例題以及基於阿里雲大數據平台(數加平台)的演示,這種理論與實踐相結合的方式極大地方便了讀者對抽象的數據挖掘算法的理解和掌握。 本書共11章,內容覆蓋了數據預處理、分類算法、聚類算法及常見的數據挖掘套用,具體章節包括大數據簡介、數據預處理技術、邏輯回歸方法、KNN算法、樸素貝葉斯分類算法、隨機森林分類算法、支持向量機、 Kmeans聚類算法,以及社交網路分析方法及套用、文本分析方法及套用和推薦系統方法及套用等內容。 本書可作為高等院校數據挖掘課程的教材,也可作為數據挖掘及相關工程技術工作人員的參考書。

圖書目錄

第一篇基礎篇
第1章大數據簡介
1.1大數據
1.1.1大數據的定義
1.1.2大數據的特點
1.1.3大數據處理的挑戰
1.2大數據挖掘
1.2.1大數據挖掘的定義
1.2.2大數據挖掘的特點
1.3大數據挖掘的相關方法
1.3.1數據預處理技術
1.3.2關聯規則挖掘
1.3.3分類
1.3.4聚類
1.3.5孤立點挖掘
1.3.6演變分析
1.3.7特異群組分析
1.4大數據挖掘類型
1.4.1Web數據挖掘
1.4.2空間數據挖掘
1.4.3流數據挖掘
1.5大數據挖掘的常見套用
1.5.1社交網路分析
1.5.2文本分析
1.5.3推薦系統
1.6常用的大數據統計分析方法
1.6.1百分位
1.6.2皮爾森相關係數
1.6.3直方圖
1.6.4T檢驗
1.6.5卡方檢驗
1.7常用的大數據挖掘評估方法
1.8大數據平台相關技術
1.8.1分散式存儲技術
1.8.2分散式任務調度技術
1.8.3並行計算技術
1.8.4其他技術
1.9大數據平台實例——阿里雲數加平台
1.9.1數加平台簡介
1.9.2數加平台產品簡介
1.9.3數加平台優勢特色
1.9.4機器學習平台簡介
1.9.5機器學習平台功能
1.9.6機器學習平台操作流程
1.10小結
思考題
第二篇技術篇
第2章數據預處理技術
2.1數據預處理的目的
2.2數據採樣
2.2.1加權採樣
2.2.2隨機採樣
2.2.3分層採樣
2.3數據清理
2.3.1填充缺失值
2.3.2光滑噪聲數據
2.3.3數據清理過程
2.4數據集成
2.4.1數據集成簡介
2.4.2常用數據集成方法
2.5數據變換
2.5.1數據變換簡介
2.5.2數據規範化
2.6數據歸約
2.6.1數據立方體聚集
2.6.2維歸約
2.6.3數據壓縮
2.6.4數值歸約
2.6.5數據離散化與概念分層
2.7特徵選擇
2.7.1特徵選擇簡介
2.7.2Relief算法
2.7.3Fisher判別法
2.7.4基於GBDT的過濾式特徵選擇
2.8特徵提取
2.8.1特徵提取簡介
2.8.2DKLT特徵提取方法
2.8.3主成分分析法
2.9基於阿里雲數加平台的數據採樣與特徵選擇實例
2.10小結
思考題
第3章邏輯回歸方法
3.1基本概念
3.1.1回歸概述
3.1.2線性回歸簡介
3.2邏輯回歸
3.2.1二分類邏輯回歸
3.2.2多分類邏輯回歸
3.2.3邏輯回歸套用舉例
3.2.4邏輯回歸方法的特點
3.2.5邏輯回歸方法的套用
3.3邏輯回歸原始碼結果分析
3.3.1線性回歸
3.3.2多分類邏輯回歸
3.4基於阿里雲數加平台的邏輯回歸實例
3.4.1二分類邏輯回歸套用實例
3.4.2多分類邏輯回歸套用實例
3.5小結
思考題
第4章KNN算法
4.1KNN算法簡介
4.1.1KNN算法原理
4.1.2KNN算法套用舉例
4.2KNN算法的特點及改進
4.2.1KNN算法的特點
4.2.2KNN算法的改進策略
4.3KNN原始碼結果分析
4.4基於阿里雲數加平台的KNN算法套用實例
4.5小結
思考題
第5章樸素貝葉斯分類算法
5.1基本概念
5.1.1主觀機率
5.1.2貝葉斯定理
5.1.3樸素貝葉斯分類模型
5.1.4樸素貝葉斯分類器實例分析
5.2樸素貝葉斯算法的特點及套用
5.2.1樸素貝葉斯算法的特點
5.2.2樸素貝葉斯算法的套用場景
5.3樸素貝葉斯原始碼結果分析
5.4基於阿里雲數加平台的樸素貝葉斯實例
5.5小結
思考題
第6章隨機森林分類算法
6.1隨機森林算法簡介
6.1.1隨機森林算法原理
6.1.2隨機森林算法套用舉例
6.2隨機森林算法的特點及套用
6.2.1隨機森林算法的特點
6.2.2隨機森林算法的套用
6.3隨機森林算法源程式結果分析
6.4基於阿里雲數加平台的隨機森林分類實例
6.5小結
思考題
第7章支持向量機
7.1基本概念
7.1.1支持向量機理論基礎
7.1.2統計學習核心理論
7.1.3學習過程的一致性條件
7.1.4函式集的VC維
7.1.5泛化誤差界
7.1.6結構風險最小化歸納原理
7.2支持向量機原理
7.2.1支持向量機核心理論
7.2.2最大間隔分類超平面
7.2.3支持向量機
7.2.4核函式分類
7.3支持向量機的特點及套用
7.3.1支持向量機的特點
7.3.2支持向量機的套用
7.4支持向量機分類實例分析
7.5基於阿里雲數加平台的支持向量機分類實例
7.6小結
思考題
第8章Kmeans聚類算法
8.1Kmeans聚類算法原理
8.1.1Kmeans聚類算法原理解析
8.1.2Kmeans聚類算法套用舉例
8.2Kmeans聚類算法的特點及套用
8.2.1Kmeans聚類算法的特點
8.2.2Kmeans聚類算法的套用
8.3K均值聚類算法源程式結果分析
8.4基於阿里雲數加平台的K均值聚類算法實例
8.5基於MaxCompute Graph模型的Kmeans算法源程式分析
8.6小結
思考題
第三篇綜合套用篇
第9章社交網路分析方法及套用
9.1社交網路簡介
9.2K核方法
9.2.1K核方法原理
9.2.2基於阿里雲數加平台的K核方法實例
9.3單源最短路徑方法
9.3.1單源最短路徑方法原理
9.3.2基於阿里雲數加平台的單源最短路徑方法實例
9.4PageRank算法
9.4.1PageRank算法原理
9.4.2PageRank算法的特點及套用
9.4.3基於阿里雲數加平台的PageRank算法實例
9.5標籤傳播算法
9.5.1標籤傳播算法原理
9.5.2基於阿里雲數加平台的標籤傳播聚類套用實例
9.6最大聯通子圖算法
9.7聚類係數算法
9.7.1聚類係數算法原理
9.7.2基於阿里雲數加平台的聚類係數算法套用實例
9.8基於阿里雲數加平台的社交網路分析實例
9.9小結
思考題
第10章文本分析方法及套用
10.1文本分析簡介
10.2TFIDF方法
10.3中文分詞方法
10.3.1基於字典或詞庫匹配的分詞方法
10.3.2基於詞的頻度統計的分詞方法
10.3.3其他中文分詞方法
10.4PLDA方法
10.4.1主題模型
10.4.2PLDA方法原理
10.5Word2Vec基本原理
10.5.1詞向量的表示方式
10.5.2統計語言模型
10.5.3霍夫曼編碼
10.5.4Word2Vec原理簡介
10.6基於阿里雲數加平台的文本分析實例
10.7小結
思考題
第11章推薦系統方法及套用
11.1推薦系統簡介
11.2基於內容的推薦算法
11.2.1基於內容的推薦算法原理
11.2.2基於內容的推薦算法的特點
11.3協同過濾推薦算法
11.3.1協同過濾推薦算法簡介
11.3.2協同過濾推薦算法的特點
11.4混合推薦算法
11.5基於阿里雲數加平台的推薦算法實例
11.6小結
思考題
參考文獻

熱門詞條

聯絡我們