預測分析:Python語言實現

預測分析:Python語言實現

《預測分析:Python語言實現》是2017年機械工業出版社出版的圖書,作者是[美] 約瑟夫·巴布科克。

基本介紹

  • 書名:預測分析:Python語言實現
  • 作者:[美] 約瑟夫·巴布科克
  • 出版社:機械工業出版社
  • ISBN:9787111573890
內容簡介,圖書目錄,

內容簡介

本書著重介紹預測性分析技術,先概述了數據分析系統的基本架構和主要處再檔循鑽理流程,然後從分類和無監督學習開始,逐一講解每種機器學習算法的工作原理,並在每一章的後給出了詳細的案例討論。高質量的數據是能夠進行正確分析的前提,為了便於後期分析模型的構建,本書還會介紹對於不同類型數據的清洗和過濾等內容。通過學習本書的內容,讀者將了解將原始數據轉化為重要結論的過程,並掌握快速將其中涉及的模型套用到自有數據中的方法。

圖書目錄

譯者序
關於審稿人
前言
第1章數據轉換成決策——從分析套用著手
1.1設計高級分析方案
1.1.1數據層:數據倉庫、數據湖和數據流
1.1.2模型層
1.1.3部署層
1.1.4報告層
1.2案例學習:社交媒體數據的情感分析
1.2.1數據輸入和轉換
1.2.2合理性檢查
1.2.3模型開發
1.2.4評分
1.2.5可視化和報告
1.3案例學習:針對性電子郵件活動
1.3.1數據輸入和轉換
1.3.2合理性檢查
1.3.3模型開發
1.3.4評分
1.3.5可視化和報告
1.4總結
第2章Python數據分析和可視化初探
2.1在IPython中探索分類和數值型數據
2.1.1安裝IPython notebook
2.1.2notebook的界面
2.1.3載入和檢視數據
2.1.4基本操作——分組、過濾、說乘淋映射以及透視
2.1.5用Matplotlib繪製圖表
2.2時間序列分析
2.2.1清洗和轉換
2.2.2時間序列診斷
2.2.3連線信號和相關性
2.3操作地理數據
2.3.1載入地理數據
2.3.2工作在雲上
2.4PySpark簡介
2.4.1創建SparkContext
2.4.2創建RDD
2.4.3創建Spark DataFrame
2.4總結
第3章在噪聲中探求模式——聚類和無監督學習
3.1相似性和距離度量
3.1.1數值距離度量
3.1.2相關相似性度量和時間序列
3.1.3分類數據的相似性度量
3.1.4k均值聚類
3.2近鄰傳播算法——自動選擇聚類數量
3.3k中心點算法
3.4凝聚聚類算法
3.5Spark中的數據流聚類
3.6總結
第4章從點到模型——回歸方法
4.1線性回歸
4.1.1數據準備
4.1.2模型擬合和評價
4.1.3回歸輸出的顯著性差異
4.1.4廣義估計方程
4.1.5混合效應模型
4.1.6時間序列數據
4.1.7廣義線性模型
4.1.8線性模型的正則化
4.2樹方法
4.2.1決策樹
4.2.2隨機森林
4.3利用PySpark進一步擴展——預測歌曲的發行年份
4.4總結
第5章數據分類——分類方法和分析
5.1邏輯回歸
5.1.1多分類邏輯分類器:多元回歸
5.1.2分類問題中的數據格式化
5.1.3基於隨機梯度下降法的學習逐點更新
5.1.4使用二階方法聯合最佳化所有參數
5.2擬合模型
5.3評估分類模型
5.4通過支持向量機分離非線性邊界
5.4.1人口普查數據的擬合和SVM
5.4.2Boosting:組合小模型以改善準確度
5.4.3梯度說去凳提升決策樹
5.5分類方法比較
5.6案例學習:在PySpark中擬合分類器模型
5.7總結
第6章詞語和像素——射堡設非全催結構化數據分析
6.1文本數據分析
6.1.1文本數據清洗
6.1.2從文本數據中提取特徵
6.1.3利用降維來簡化數據集
6.2主分量分析
6.2.1隱含狄利克雷分布
6.2.2在預測模型中使用降維
6.3圖像
6.3.1圖像數據清洗
6.3.2利用圖像閾值來突出顯示對象
6.3.3圖像分析中的降維
6.4案例學習:在PySpark中訓練一個推薦系統
6.5總結
第7章自底向上學習——深度網路和無監督特徵
7.1使用神經網路學習模式
7.1.1單一感知器構成的網路
7.1.2感知器組合——一個單層神經網路
7.1.3反向傳播的參數擬煮朽櫃轎合
7.1.4判別式模型與生成式模型
7.1.5梯度消失及“解去”
7.1.6預訓練信念網路(貝葉斯網路)
7.1.7使用dropout來正則化網路
7.1.8卷積網路和糾正單元
7.1.9利用自編碼網路壓縮數據
7.1.10最佳化學習速率
7.2TensorFlow庫與數字識別
7.2.1MNIST數據
7.2.2構建網路
7.3總結
第8章利用預測服務共享模型
8.1預測服務的架構
8.2客戶端和發出請求
8.2.1GET請求
8.2.2POST請求
8.2.3HEAD請求
8.2.4PUT請求
8.2.5DELETE請求
8.3伺服器——Web流量控制器
8.4利用資料庫系統持久化存儲信息
8.5案例學戒判籃習——邏輯回歸服務
8.5.1建立資料庫
8.5.2Web伺服器
8.5.3Web套用
8.6總結
第9章報告和測試——分析型系統疊代
9.1利用診斷檢查模型的健康度
9.1.1評估模型性能的變化
9.1.2特徵重要性的變化
9.1.3無監督模型性能的變化
9.2通過A/B測試對模型進行疊代
9.2.1實驗分配——將客戶分配給實驗
9.2.2決定樣本大小
9.2.3多重假設檢驗
9.3溝通指南
9.3.1將術語轉換為業務價值
9.3.2可視化結果
9.3.3報告伺服器
9.3.4報告套用
9.3.5可視化層
9.4總結
3.6總結
第4章從點到模型——回歸方法
4.1線性回歸
4.1.1數據準備
4.1.2模型擬合和評價
4.1.3回歸輸出的顯著性差異
4.1.4廣義估計方程
4.1.5混合效應模型
4.1.6時間序列數據
4.1.7廣義線性模型
4.1.8線性模型的正則化
4.2樹方法
4.2.1決策樹
4.2.2隨機森林
4.3利用PySpark進一步擴展——預測歌曲的發行年份
4.4總結
第5章數據分類——分類方法和分析
5.1邏輯回歸
5.1.1多分類邏輯分類器:多元回歸
5.1.2分類問題中的數據格式化
5.1.3基於隨機梯度下降法的學習逐點更新
5.1.4使用二階方法聯合最佳化所有參數
5.2擬合模型
5.3評估分類模型
5.4通過支持向量機分離非線性邊界
5.4.1人口普查數據的擬合和SVM
5.4.2Boosting:組合小模型以改善準確度
5.4.3梯度提升決策樹
5.5分類方法比較
5.6案例學習:在PySpark中擬合分類器模型
5.7總結
第6章詞語和像素——非結構化數據分析
6.1文本數據分析
6.1.1文本數據清洗
6.1.2從文本數據中提取特徵
6.1.3利用降維來簡化數據集
6.2主分量分析
6.2.1隱含狄利克雷分布
6.2.2在預測模型中使用降維
6.3圖像
6.3.1圖像數據清洗
6.3.2利用圖像閾值來突出顯示對象
6.3.3圖像分析中的降維
6.4案例學習:在PySpark中訓練一個推薦系統
6.5總結
第7章自底向上學習——深度網路和無監督特徵
7.1使用神經網路學習模式
7.1.1單一感知器構成的網路
7.1.2感知器組合——一個單層神經網路
7.1.3反向傳播的參數擬合
7.1.4判別式模型與生成式模型
7.1.5梯度消失及“解去”
7.1.6預訓練信念網路(貝葉斯網路)
7.1.7使用dropout來正則化網路
7.1.8卷積網路和糾正單元
7.1.9利用自編碼網路壓縮數據
7.1.10最佳化學習速率
7.2TensorFlow庫與數字識別
7.2.1MNIST數據
7.2.2構建網路
7.3總結
第8章利用預測服務共享模型
8.1預測服務的架構
8.2客戶端和發出請求
8.2.1GET請求
8.2.2POST請求
8.2.3HEAD請求
8.2.4PUT請求
8.2.5DELETE請求
8.3伺服器——Web流量控制器
8.4利用資料庫系統持久化存儲信息
8.5案例學習——邏輯回歸服務
8.5.1建立資料庫
8.5.2Web伺服器
8.5.3Web套用
8.6總結
第9章報告和測試——分析型系統疊代
9.1利用診斷檢查模型的健康度
9.1.1評估模型性能的變化
9.1.2特徵重要性的變化
9.1.3無監督模型性能的變化
9.2通過A/B測試對模型進行疊代
9.2.1實驗分配——將客戶分配給實驗
9.2.2決定樣本大小
9.2.3多重假設檢驗
9.3溝通指南
9.3.1將術語轉換為業務價值
9.3.2可視化結果
9.3.3報告伺服器
9.3.4報告套用
9.3.5可視化層
9.4總結

相關詞條

熱門詞條

聯絡我們