大數據分析與計算

大數據分析與計算

《大數據分析與計算》是2018年3月清華大學出版社出版的圖書,作者是湯羽、林迪、范愛華、吳薇薇。

基本介紹

  • 書名:大數據分析與計算
  • 作者:湯羽、林迪、范愛華、吳薇薇
  • ISBN:9787302485865
  • 定價:89元
  • 出版社:清華大學出版社
  • 出版時間:2018年3月
內容簡介,圖書目錄,

內容簡介

大數據套用已成為行業熱點和產業發展新增長點,數據科學與計算技術也是最新的前沿領域,其中,大數據計算分析提供了核心的技術支撐。本書從大數據計算系統的三個層次對數據模型、處理算法、計算模型與架構、開發技術標準等內容進行了綜合性的介紹,重點闡述了各類數據分析算法和MapReduce,圖並行計算,互動式處理,流計算,記憶體計算等計算架構。本書適合作為數據科學與大數據計算技術、計算機科學與技術、網際網路套用系統、物聯網工程等專業相關課程的教材。

圖書目錄

第1章緒論
1.1數據與數據科學
1.2大數據概念
1.3大數據技術特徵
參考文獻
習題
第2章大數據計算體系
2.1大數據計算架構
2.2數據存儲系統
2.2.1數據清洗與建模
2.2.2分散式檔案系統
2.2.3NoSQL資料庫
2.2.4統一數據訪問接口
2.3數據處理平台
2.3.1數據分析算法
2.3.2計算處理模型
2.3.3計算平台與引擎
2.4數據套用系統
2.4.1大數據套用領域
2.4.2大數據解決方案
參考文獻
習題
第3章大數據標準與模式
3.1大數據標準體系
3.2大數據計算模式
參考文獻
習題
第4章數據採集方法
4.1系統日誌採集
4.1.1日誌採集的目的
4.1.2日誌採集過程
4.2網路數據採集
4.2.1網路爬蟲工作原理
4.2.2網頁搜尋策略
4.2.3網頁分析算法
4.2.4網路爬蟲框架
4.3數據採集接口
參考文獻
習題
第5章數據清洗與規約方法
5.1數據預處理研究現狀
5.1.1數據清洗的研究現狀
5.1.2數據規約的研究現狀
5.2數據質量問題分類
5.2.1單數據源的問題
5.2.2多數據源的問題
5.3數據清洗技術
5.3.1重複記錄清洗
5.3.2消除噪聲數據
5.3.3缺失值清洗
5.4數據歸約
5.4.1維歸約
5.4.2屬性選擇
5.4.3離散化方法
5.5數據清洗工具
參考文獻
習題
第6章數據分析算法
6.1C4.5算法
6.1.1算法描述
6.1.2屬性選擇度量
6.1.3其他特徵
6.2k均值算法
6.3支持向量機
6.4Apriori算法
6.5EM算法
6.5.1案例: 估計k個高斯分布的均值
6.5.2EM算法步驟
6.6PageRank算法
6.6.1PageRank的核心思想
6.6.2PageRank的計算過程
6.7AdaBoost算法
6.7.1Boosting算法的發展歷史
6.7.2AdaBoost算法及其分析
6.8k鄰近算法
6.9樸素貝葉斯
6.9.1樸素貝葉斯分類器
6.9.2貝葉斯網路
6.10分類回歸樹算法
6.10.1建立回歸樹
6.10.2剪枝過程
參考文獻
習題
第7章文本讀寫技術
7.1讀取文本檔案
7.1.1讀取txt檔案
7.1.2讀取csv檔案
7.2寫入文本檔案
7.3處理二進制數據
7.4資料庫的使用
7.4.1資料庫的連線
7.4.2執行SQL語句
7.4.3選擇和列印
7.4.4動態插入
7.4.5update操作
參考文獻
習題
第8章數據處理技術
8.1合併數據集
8.1.1索引上的合併
8.1.2軸向連線
8.1.3合併重疊數據
8.2數據轉換
8.2.1移除重複數據
8.2.2利用函式進行數據轉換
8.2.3替換值
8.2.4重命名軸索引
8.2.5離散化數據
8.2.6檢測異常值
8.2.7排列和隨機採樣
8.2.8啞變數
8.3字元串操作
8.3.1內置字元串方法
8.3.2正則表達式
8.3.3Pandas中矢量化的字元串函式
參考文獻
習題
第9章數據分析技術
9.1NumPy工具包
9.1.1創建數組
9.1.2列印數組
9.1.3基本運算
9.1.4索引、切片和疊代
9.1.5形狀操作
9.1.6複製和視圖
9.1.7NumPy實用技巧
9.2Pandas工具包
9.2.1Series
9.2.2DataFrame
9.3ScikitLearn工具包
9.3.1邏輯回歸
9.3.2樸素貝葉斯
9.3.3k最近鄰
9.3.4決策樹
9.3.5支持向量機
9.3.6最佳化算法參數
參考文獻
習題
第10章數據可視化技術
10.1Matplotlib繪圖
10.1.1Matplotlib API入門
10.1.2Figure和Subplot的畫圖方法
10.1.3調整Subplot周圍的間距
10.1.4顏色、標記和線型的設定
10.1.5刻度、標籤和圖例
10.2Mayavi2繪圖
10.2.1使用mlab快速繪圖
10.2.2Mayavi嵌入到界面中
10.3其他圖形化工具
參考文獻
習題
第11章Hadoop生態系統
11.1Hadoop系統架構
11.2HDFS分散式檔案系統
11.2.1HDFS體系結構
11.2.2HDFS存儲結構
11.2.3數據容錯與恢復
11.2.4Hadoop/HDFS安裝
11.3分散式存儲架構
11.3.1HBase系統架構
11.3.2數據模型與存儲模式
11.3.3HBase數據讀寫
11.3.4數據倉庫工具Hive
11.3.5HBase安裝與配置
11.4HBase索引與檢索
11.4.1二次索引表機制
11.4.2二次索引技術方案
11.5資源管理與作業調度
11.5.1分散式協同管理組件ZooKeeper
11.5.2作業調度與工作流引擎Oozie
11.5.3集群資源管理框架YARN
參考文獻
習題
第12章MapReduce計算模型
12.1分散式並行計算系統
12.2MapReduce計算架構
12.3鍵值對與輸入格式
12.4映射與化簡
12.5套用編程接口
參考文獻
習題
第13章圖並行計算框架
13.1圖基本概念
13.2BSP模型
13.3Pregel圖計算引擎
13.4Hama開源框架
13.5套用編程接口
參考文獻
習題
第14章互動式計算模式
14.1數據模型
14.2存儲結構
14.3並行查詢
14.4開源實現
參考文獻
習題
第15章流計算系統
15.1流計算模型
15.2Storm計算架構
15.3工作機制實現
15.4Storm編程接口
參考文獻
習題
第16章記憶體計算模式
16.1分散式快取體系
16.2記憶體資料庫
16.3記憶體雲MemCloud
16.4Spark記憶體計算
參考文獻
習題
第17章基於醫療數據的臨床決策分析套用
17.1國內外研究現狀及發展動態分析
17.2技術路線和方案
參考文獻
習題
第18章基於醫保數據的預測分析套用
18.1數據準備階段
18.2模型變數選擇和轉換
18.2.1模型變數的選擇
18.2.2模型變數的轉換
18.2.3篩選模型變數
18.3建模過程
18.4模型效果
參考文獻
習題
第19章網際網路電商數據的分析套用
19.1電商流程管理分析
19.1.1行業背景與業務問題
19.1.2分析方法與過程
19.2用戶消費行為分析
19.2.1業務問題
19.2.2分析方法與過程
19.3送貨速度相關性分析
19.3.1業務問題
19.3.2分析方法與過程
19.4總結
參考文獻
習題
第20章金融和經濟數據的分析套用
20.1企業對創新經濟活動推動的影響分析
20.1.1案例背景
20.1.2分析方法與過程
20.2信貸風險模型評估
20.3中小能源型企業的信用評價分析
20.3.1案例背景
20.3.2分析方法與過程
20.3.3分析結果
參考文獻
習題

相關詞條

熱門詞條

聯絡我們