數據科學與大數據技術導論(2021年清華大學出版社出版的圖書)

數據科學與大數據技術導論(2021年清華大學出版社出版的圖書)

本詞條是多義詞,共3個義項
更多義項 ▼ 收起列表 ▲

《數據科學與大數據技術導論》是2021年清華大學出版社出版的圖書,作者是陳明。

基本介紹

  • 中文名:數據科學與大數據技術導論
  • 作者:陳明
  • 出版時間:2021年6月
  • 出版社:清華大學出版社
  • ISBN:9787302566762
  • 類別:高職高專教材
  • 開本:16 開
  • 裝幀:平裝-膠訂
內容簡介,作者簡介,圖書目錄,

內容簡介

大數據技術凝集了多學科的研究成果,是一門多學科的交叉融合技術。隨著科學技術的發展,大數據技術發展更為迅速,套用更為深入與廣泛,並凸顯其巨大潛力和套用價值。 “數據科學與大數據技術導論”是數據科學與大數據技術專業的門專業基礎課程。這門課程可以引導數據科學與大數據技術專業的學生走進大數據技術的大門。 本書主要介紹數據科學與大數據技術的基本知識。全書共分11章,包括數據科學與大數據技術概述、Hadoop大數據處理平台、大數據採集與存儲管理、大數據抽取、大數據清洗、數據轉換、大數據約簡、大數據集成、大數據分析、大數據挖掘、數據可視化與可視分析等內容。 本書語言精練,內容完整,案例豐富,可作為高等院校“數據科學與大數據技術導論”課程的教材,也可作為學習數據科學與大數據技術人員的參考書。

作者簡介

教授,博士生導師 。研究領域為分布計算、計算智慧型、大數據技術等。中國石油大學(北京)計算機科學與技術系創始系主任。獲北京市教學名師獎。中國工程教育認證專家。

圖書目錄

第1章數據科學與大數據技術概述/1
知識結構1
1.1數據科學簡介1
1.1.1數據科學的產生與發展1
1.1.2數據科學的定義與方法2
1.1.3數據科學的知識體系6
1.1.4數據科學、數據技術與數據工程7
1.2大數據的生態環境與概念8
1.2.1大數據的生態環境8
1.2.2大數據的概念9
1.3大數據處理周期12
1.3.1大數據處理的全過程12
1.3.2大數據技術的特徵13
1.4大數據處理模式13
1.4.1離線處理模式14
1.4.2線上處理模式14
1.4.3互動處理模式19
1.5科學研究第四範式19
1.5.1科學研究範式產生與發展19
1.5.2數據密集型科學研究第四範式20
1.6大數據套用25
1.6.1大數據套用趨勢25
1.6.2大數據套用評價與套用實例26
本章小結28
第2章Hadoop大數據處理ping台/29
知識結構29
2.1MapReduce分布編程模型29
2.1.1MapReduce計算過程30
2.1.2基於MapReduce的計算舉例30數據科學與大數據技術導論目錄2.2基於Hadoop的分布計算30
2.2.1作業伺服器31
2.2.2計算流程31
2.2.3MapReduce程式的執行過程33
2.3MapReduce程式設計分析35
2.3.1MapReduce模型編程方法35
2.3.2單詞計數程式設計36
2.4YARN大數據處理ping台40
2.4.1Hadoop 1.0版本的缺點40
2.4.2輕量級彈性計算ping台41
2.4.3基本概念與術語42
2.4.4MapReduce框架43
2.4.5編程模型44
2.4.6YARN基本架構與工作流程45
2.5Spark大數據處理框架48
2.5.1Spark的主要特點48
2.5.2軟體棧48
2.5.3核心概念50
2.5.4RDD51
本章小結58
第3章大數據採集與存儲管理/59
知識結構59
3.1大數據採集概述59
3.1.1大數據採集的定義與特點60
3.1.2大數據採集的挑戰60
3.1.3傳統數據採集與大數據採集的比較61
3.2大數據採集的方法61
3.2.1感測器採集數據61
3.2.2系統日誌採集62
3.2.3資料庫採集系統62
3.2.4網頁數據採集62
3.3大數據存儲架構與系統79
3.3.1數據層79
3.3.2分散式檔案系統80
3.4基於大數據的資料庫系統82
3.4.1大數據存儲管理技術82
3.4.2大資料庫83
3.4.3大數據存儲管理的核心算法88
3.5HBase資料庫94
3.5.1HBase概述94
3.5.2HBase的數據模型97
3.5.3HBase的邏輯實體98
3.5.4HBase的工作原理100
3.6Hive數據倉庫100
3.6.1Hive主要功能101
3.6.2Hive的數據單元與數據類型101
3.6.3Hive的特性102
3.6.4Hive套用舉例102
3.6.5HBase與Hive的比較102
本章小結103
第4章大數據抽取/104
知識結構104
4.1大數據抽取概述105
4.1.1數據抽取的定義105
4.1.2數據抽取程式105
4.1.3數據抽取方式106
4.2增量數據抽取技術106
4.2.1增量數據抽取的特點與策略106
4.2.2基於時間戳的增量數據抽取方式107
4.2.3全表比對抽取方法107
4.3數據源109
4.3.1公開資料庫109
4.3.2利用網路爬蟲獲得數據110
4.3.3數據交易ping台110
4.3.4網路指數110
4.4基於Hadoopping台的大數據抽取110
4.4.1將數據導入Hadoopping台110
4.4.2將數據從CSV檔案導入Hive表111
4.4.3將關係數據導入HDFS的方法114
4.4.4CSV檔案的讀取和寫入119
4.4.5Flume獲取日誌檔案123
4.5大數據抽取的套用126
4.5.1套用實例126
4.5.2非關係資料庫中的數據抽取軟體簡介126
本章小結128
第5章大數據清洗/129
知識結構129
5.1數據質量與數據清洗129
5.1.1數據質量129
5.1.2數據質量提高技術132
5.1.3數據清洗算法的標準135
5.1.4數據清洗的過程與模型136
5.2不完整數據清洗136
5.2.1基本方法136
5.2.2基於kNN近鄰缺失數據的填充算法138
5.3異常數據清洗140
5.3.1異常值的檢測141
5.3.2統計學方法141
5.3.3基於鄰近度的離群點檢測145
5.4重複數據清洗146
5.4.1使用欄位相似度識別重複值算法146
5.4.2快速去重算法147
5.5文本清洗149
5.5.1字元串匹配算法149
5.5.2文本相似度度量方法153
5.6數據清洗的實現157
5.6.1數據清洗的步驟157
5.6.2數據清洗程式158
本章小結160
第6章數據轉換/161
知識結構161
6.1基本的數據轉換161
6.1.1對數轉換161
6.1.2ping方根轉換163
6.1.3ping方轉換163
6.1.4倒數變換163
6.2數據ping滑163
6.2.1移動ping均法164
6.2.2指數ping滑法166
6.2.3分箱ping滑法171
6.3數據規範化172
6.3.1#小#大規範化方法173
6.3.2z分數規範化方法173
6.3.3小數定標規範化方法174
6.3.4數據規範化程式174
本章小結176
第7章大數據約簡/177
知識結構177
7.1特徵約簡178
7.1.1特徵構造178
7.1.2特徵提取179
7.1.3特徵選擇180
7.2樣本約簡187
7.2.1隨機抽樣187
7.2.2系統抽樣187
7.2.3分層抽樣187
7.3數據立方體188
7.3.1多維數據模型188
7.3.2多維數據模型的模式190
7.3.3數據立方體聚集191
7.4屬性子集選擇算法192
7.4.1逐步向前選擇屬性193
7.4.2逐步向後刪除屬性193
7.4.3混合式選擇193
7.4.4判定樹歸納193
7.5數值約簡194
7.5.1有參數值約簡194
7.5.2無參數值約簡195
7.6概念分層與數值離散化196
7.6.1概念分層196
7.6.2數值離散化方法198
本章小結202
第8章大數據集成/203
知識結構203
8.1數據集成技術概述203
8.1.1數據集成的概念與相關問題204
8.1.2數據集成的核心問題206
8.1.3數據集成的分類207
8.2數據遷移209
8.2.1在組織內部移動數據210
8.2.2非結構化數據集成211
8.2.3將處理移動到數據端212
8.3數據集成模式213
8.3.1聯邦資料庫集成模式213
8.3.2中間件集成模式214
8.3.3數據倉庫集成模式215
8.4數據集成系統216
8.4.1全局模式217
8.4.2語義映射217
8.4.3查詢重寫218
8.5數據集成系統的構建218
8.5.1模式之間映射關係的生成218
8.5.2適應性查詢219
8.5.3XML219
8.5.4P2P數據管理219
本章小結220
第9章大數據分析/221
知識結構221
9.1大數據分析概述221
9.1.1幾種常用的大數據分析方法222
9.1.2數字特徵223
9.1.3統計方法229
9.1.4常用的抽樣組織形式230
9.2相關分析230
9.2.1相關係數231
9.2.2相關分析的任務231
9.2.3相關分析的過程232
9.3回歸分析233
9.3.1回歸分析過程233
9.3.2回歸分析類型233
9.3.3回歸模型與套用中的問題233
9.4判別分析234
9.4.1判別函式234
9.4.2判別分析方法235
9.5顯著性檢驗238
9.5.1顯著性檢驗的基本思想238
9.5.2檢驗步驟與檢驗方法239
9.6主成分分析240
9.6.1主成分分析原理240
9.6.2主成分分析方法舉例240
9.6.3主成分分析Python程式243
本章小結246
第10章大數據挖掘/247
知識結構247
10.1大數據挖掘概述247
10.1.1數據統計分析與數據挖掘的主要區別248
10.1.2數據挖掘的定義與相關概念248
10.1.3數據挖掘的理論基礎248
10.1.4基於數據存儲方式的數據挖掘249
10.2關聯規則251
10.2.1關聯規則生成描述251
10.2.2頻繁項目集生成算法252
10.3分類256
10.3.1分類的定義與典型的分類算法256
10.3.2分類的基本步驟258
10.3.3k近鄰分類算法258
10.4聚類方法260
10.4.1聚類的概念260
10.4.2聚類算法的特點261
10.4.3聚類算法分類262
10.4.4距離與相似性的度量263
10.4.5劃分聚類方法264
10.4.6層次聚類方法267
10.5序列模式268
10.5.1時間序列268
10.5.2時間序列挖掘的常用方法268
10.5.3序列模式挖掘269
10.6非結構化文本數據挖掘271
10.6.1用戶反饋文本271
10.6.2用戶反饋文本挖掘過程272
10.6.3文本的自然語言處理274
本章小結275
第11章數據可視化與可視分析/276
知識結構276
11.1數據可視化概述276
11.1.1數據可視化概念277
11.1.2感知與認知277
11.1.3可視化突出點與設計原則279
11.2大數據可視化工具與軟體280
11.2.1Matplotlib簡介281
11.2.2多圖形和多坐標系284
11.2.3創建子圖285
11.3繪製圖形286
11.3.1折線繪製286
11.3.2散點圖289
11.3.3泡泡圖繪製290
11.3.4條形圖繪製293
11.3.5直方圖繪製295
11.3.6餅圖繪製297
11.3.7輪廓圖繪製300
11.3.8雷達圖300
11.4大數據可視化302
11.4.1文本可視化302
11.4.2網路(圖)可視化303
11.4.3時空數據可視化305
11.4.4多維數據可視化306
11.5大數據可視分析307
11.5.1可視分析的理論基礎308
11.5.2大數據可視分析技術312
本章小結315
參考文獻/316

相關詞條

熱門詞條

聯絡我們