基本介紹
- 書名:PySpark機器學習、自然語言處理與推薦系統
- 作者:[印]普拉莫德·辛格(Pramod Singh)
- 譯者:蒲成
- ISBN:9787302540908
- 定價:59元
- 出版社:清華大學出版社
- 出版時間:2020.01.01
基本信息,圖書簡介,圖書內容,圖書目錄,
基本信息
定價:59元
ISBN:9787302540908
出版日期:2020.01.01
出版社:清華大學出版社
圖書簡介
《PySpark機器學習、自然語言處理與推薦系統》是清華大學出版社於2020年1月出版的一本圖書,作者[印]普拉莫德·辛格(Pramod Singh),翻譯蒲成。
圖書內容
構建一系列有監督和無監督機器學習算法 使用Spark MLlib庫實現機器學習算法 使用Spark MLlib庫開發推薦系統 處理與特徵工程、分類平衡、偏差和方差以及交叉驗證有關的問題,以便構建最優的擬合模型
圖書目錄
第1章數據革命1
1.1數據生成1
1.2Spark2
1.2.1SparkCore3
1.2.2Spark組件4
1.3設定環境5
1.3.1Windows5
1.3.2iOS6
1.4小結7
第2章機器學習簡介9
2.1有監督機器學習10
2.2無監督機器學習12
2.3半監督機器學習14
2.4強化學習14
2.5小結15
第3章數據處理17
3.1載入和讀取數據17
3.2添加一個新列20
3.3篩選數據21
3.3.1條件121
3.3.2條件222
3.4列中的非重複值23
3.5數據分組23
3.6聚合25
3.7用戶自定義函式(UDF)26
3.7.1傳統的Python函式26
3.7.2使用lambda函式27
3.7.3PandasUDF(向量化的UDF)28
3.7.4PandasUDF(多列)29
3.8去掉重複值29
3.9刪除列30
3.10寫入數據30
3.10.1csv31
3.10.2嵌套結構31
3.11小結31
第4章線性回歸33
4.1變數33
4.2理論34
4.3說明41
4.4評估42
4.5代碼43
4.5.1數據信息43
4.5.2步驟1:創建
SparkSession對象44
4.5.3步驟2:讀取數據集44
4.5.4步驟3:探究式數據分析44
4.5.5步驟4:特徵工程化45
4.5.6步驟5:劃分數據集47
4.5.7步驟6:構建和訓練線性回歸模型47
4.5.8步驟7:在測試數據上評估線性回歸模型48
4.6小結48
第5章邏輯回歸49
5.1機率49
5.1.1使用線性回歸50
5.1.2使用Logit53
5.2截距(回歸係數)54
5.3虛變數55
5.4模型評估56
5.4.1正確的正面預測56
5.4.2正確的負面預測57
5.4.3錯誤的正面預測57
5.4.4錯誤的負面預測57
5.4.5準確率57
5.4.6召回率57
5.4.7精度58
5.4.8F1分數58
5.4.9截斷/閾值機率58
5.4.10ROC曲線58
5.5邏輯回歸代碼59
5.5.1數據信息59
5.5.2步驟1:創建Spark會話對象60
5.5.3步驟2:讀取數據集60
5.5.4步驟3:探究式數據分析60
5.5.5步驟4:特徵工程63
5.5.6步驟5:劃分數據集68
5.5.7步驟6:構建和訓練邏輯回歸模型69
5.5.8訓練結果69
5.5.9步驟7:在測試數據上評估線性回歸模型70
5.5.10混淆矩陣71
5.6小結72
第6章隨機森林73
6.1決策樹73
6.1.1熵75
6.1.2信息增益76
6.2隨機森林78
6.3代碼80
6.3.1數據信息80
6.3.2步驟1:創建SparkSession對象81
6.3.3步驟2:讀取數據集81
6.3.4步驟3:探究式數據分析81
6.3.5步驟4:特徵工程85
6.3.6步驟5:劃分數據集86
6.3.7步驟6:構建和訓練隨機森林模型87
6.3.8步驟7:基於測試數據進行評估87
6.3.9準確率89
6.3.10精度89
6.3.11AUC曲線下的面積89
6.3.12步驟8:保存模型90
6.4小結90
第7章推薦系統91
7.1推薦91
7.1.1基於流行度的RS92
7.1.2基於內容的RS93
7.1.3基於協同過濾的RS95
7.1.4混合推薦系統103
7.2代碼104
7.2.1數據信息105
7.2.2步驟1:創建SparkSession對象105
7.2.3步驟2:讀取數據集105
7.2.4步驟3:探究式數據分析105
7.2.5步驟4:特徵工程108
7.2.6步驟5:劃分數據集109
7.2.7步驟6:構建和訓練推薦系統模型110
7.2.8步驟7:基於測試數據進行預測和評估110
7.2.9步驟8:推薦活動用戶可能會喜歡的排名靠前的電影111
7.3小結114
第8章聚類115
8.1初識聚類115
8.2用途117
8.2.1K-均值117
8.2.2層次聚類127
8.3代碼131
8.3.1數據信息131
8.3.2步驟1:創建SparkSession對象131
8.3.3步驟2:讀取數據集131
8.3.4步驟3:探究式數據分析131
8.3.5步驟4:特徵工程133
8.3.6步驟5:構建K均值聚類模型133
8.3.7步驟6:聚類的可視化136
8.4小結137
第9章自然語言處理139
9.1引言139
9.2NLP涉及的處理步驟139
9.3語料140
9.4標記化140
9.5移除停用詞141
9.6詞袋142
9.7計數向量器143
9.8TF-IDF144
9.9使用機器學習進行文本分類145
9.10序列嵌入151
9.11嵌入151
9.12小結160