物聯網大數據分析實戰

《物聯網大數據分析實戰》是2022年清華大學出版社出版的圖書,作者是安德烈·敏特爾。

基本介紹

  • 中文名:物聯網大數據分析實戰
  • 作者:[美]安德烈·敏特爾
  • 譯者:吳驊
  • 出版社:清華大學出版社
  • 出版時間:2022年11月1日
  • 定價:109 元
  • ISBN:9787302617532
內容簡介,圖書目錄,

內容簡介

《物聯網大數據分析實戰 》詳細闡述了與物聯網大數據分析相關的基本解決方案,主要包括物聯網分析和挑戰、物聯網設備和網路協定、雲和物聯網分析、創建AWS雲分析環境、收集所有數據的策略和技術、探索物聯網數據、增強數據價值、可視化和儀錶板、對物聯網數據套用地理空間分析、物聯網分析和數據科學、組織數據的策略、物聯網分析的經濟意義等內容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關方案的實現過程。 本書適合作為高等院校計算機及相關專業的教材和教學參考書,也可作為相關開發人員的自學用書和參考手冊。

圖書目錄

第1章 物聯網分析和挑戰 1
1.1 虛擬情境 1
1.2 物聯網分析的定義 4
1.2.1 分析的定義 4
1.2.2 物聯網的定義 6
1.2.3 受限的概念 8
1.3 物聯網數據分析的挑戰 8
1.3.1 大數據量 8
1.3.2 與時間相關的問題 10
1.3.3 與空間相關的問題 12
1.3.4 數據質量問題 13
1.3.5 分析方面的挑戰 14
1.4 和商業價值發現相關的考慮因素 15
1.5 小結 15
第2章 物聯網設備和網路協定 17
2.1 物聯網設備 17
2.1.1 物聯網設備的繽紛世界 18
2.1.2 醫療保健 18
2.1.3 製造業 18
2.1.4 運輸和物流 19
2.1.5 零售業 19
2.1.6 石油和天然氣 19
2.1.7 家庭自動化和監控 20
2.1.8 可穿戴設備 20
2.1.9 感測器類型 20
2.2 有關網路的基礎知識 21
2.3 物聯網網路連線協定 23
2.3.1 電源受限時的連線協定 23
2.3.2 電源不受限時的連線協定 33
2.4 物聯網網路數據訊息傳遞協定 36
2.4.1 MQTT 36
2.4.2 超文本傳輸協定 44
2.4.3 CoAP 46
2.4.4 DDS 49
2.4.5 DDS的常見用例 51
2.5 分析數據以推斷協定和設備特徵 52
2.6 小結 54
第3章 雲和物聯網分析 55
3.1 構建彈性數據分析 56
3.1.1 關於雲基礎設施 56
3.1.2 彈性分析的概念 58
3.1.3 設計時要考慮最終結果 60
3.2 可擴展設計 60
3.2.1 解耦關鍵組件 60
3.2.2 封裝分析 60
3.2.3 與訊息佇列解耦 61
3.2.4 分散式計算 63
3.2.5 避免將分析局限在一台伺服器上 63
3.2.6 使用一台伺服器的恰當時機 63
3.2.7 假設變化一直發生 63
3.2.8 利用託管服務 64
3.2.9 使用應用程式編程接口 64
3.3 雲安全和數據分析 66
3.3.1 公鑰/私鑰 66
3.3.2 公共子網與私有子網 66
3.3.3 訪問限制 66
3.3.4 保護客戶數據的安全 67
3.4 AWS概述 67
3.4.1 AWS關鍵概念 69
3.4.2 AWS關鍵核心服務 70
3.4.3 用於物聯網分析的AWS關鍵服務 74
3.5 Microsoft Azure概述 76
3.5.1 Azure數據湖存儲 76
3.5.2 Azure分析服務 77
3.5.3 HDInsight 78
3.5.4 R伺服器選項 78
3.6 ThingWorx概述 79
3.6.1 ThingWorx Core 80
3.6.2 ThingWorx Connection Services 80
3.6.3 ThingWorx Edge 81
3.6.4 ThingWorx概念 82
3.7 小結 84
第4章 創建AWS雲分析環境 85
4.1 AWS CloudFormation概述 85
4.2 AWS虛擬私有雲設定 87
4.2.1 為NAT和Bastion實例創建密鑰對 88
4.2.2 創建S3存儲桶來存儲數據 90
4.3 為物聯網分析創建VPC 91
4.3.1 關於NAT網關 92
4.3.2 關於Bastion主機 92
4.3.3 關於VPC架構 93
4.3.4 VPC創建演練 94
4.4 如何終止和清理環境 102
4.5 小結 105
第5章 收集所有數據的策略和技術 107
5.1 數據處理 108
5.1.1 Amazon Kinesis 108
5.1.2 AWS Lambda 108
5.1.3 AWS Athena 109
5.1.4 AWS物聯網平台 110
5.1.5 Microsoft Azure IoT Hub 111
5.2 將大數據技術套用於存儲 113
5.2.1 關於Hadoop 113
5.2.2 Hadoop集群架構 116
5.2.3 關於節點 117
5.2.4 節點類型 117
5.2.5 Hadoop分散式檔案系統 117
5.2.6 Apache Parquet 119
5.2.7 Avro 122
5.2.8 Hive 123
5.2.9 序列化/反序列化 126
5.2.10 Hadoop MapReduce 126
5.2.11 YARN 127
5.2.12 HBase 128
5.2.13 Amazon DynamoDB 128
5.2.14 Amazon S3 129
5.3 數據處理和Apache Spark 129
5.3.1 關於Apache Spark 129
5.3.2 Apache Spark和大數據分析 130
5.3.3 單機和機器集群的比較 131
5.3.4 使用Apache Spark進行物聯網數據處理 132
5.4 數據流 134
5.4.1 流數據分析 134
5.4.2 Lambda架構 135
5.5 處理更改 136
5.6 小結 137
第6章 了解數據—探索物聯網數據 139
6.1 探索和可視化數據 140
6.1.1 Tableau概述 140
6.1.2 了解數據質量 142
6.1.3 查看數據 142
6.1.4 數據的完整性 144
6.1.5 數據的有效性 149
6.1.6 評估信息滯後情況 151
6.1.7 代表性 152
6.1.8 基本時間序列分析 152
6.1.9 關於時間序列 152
6.1.10 套用時間序列分析 152
6.1.11 了解數據中的分類 156
6.1.12 引入地理信息分析 156
6.2 尋找可能具有預測價值的特性 157
6.3 使用R語言 158
6.3.1 安裝R和RStudio 158
6.3.2 使用R進行統計分析 158
6.4 數據探索初步結果 162
6.5 解決特定行業的分析問題 162
6.5.1 製造業 162
6.5.2 醫療保健 163
6.5.3 零售業 164
6.6 小結 164
第7章 增強數據價值—添加內部和外部數據集 165
7.1 添加內部數據集 166
7.2 添加外部數據集 168
7.2.1 外部數據集—地理 168
7.2.2 外部數據集—人口統計 175
7.2.3 外部數據集—經濟 178
7.3 小結 181
第8章 與他人交流—可視化和儀錶板 183
8.1 可視化設計中的常見錯誤 184
8.1.1 避免可視化錯誤的技巧 185
8.1.2 可視化錯誤示例 186
8.2 問題分層方法 187
8.2.1 問題分層方法概述 188
8.2.2 開發問題樹 189
8.2.3 將所需的數據匯總在一起 192
8.2.4 使視圖與問題流保持一致 192
8.3 物聯網數據分析的可視化設計 192
8.3.1 使用位置來傳達重要性 193
8.3.2 使用顏色突出顯示重要數據 193
8.3.3 單一顏色對傳達重要信息的影響 193
8.3.4 在視覺效果上保持一致 194
8.3.5 使圖表易於解釋 195
8.4 使用Tableau創建儀錶板 195
8.4.1 儀錶板創建演練 195
8.4.2 問題層次結構示例 196
8.4.3 使視圖與思維過程保持一致 197
8.4.4 創建單獨的視圖 198
8.4.5 將視圖組裝到儀錶板中 201
8.5 創建和可視化警報 203
8.5.1 警報設計原則 203
8.5.2 使用Tableau儀錶板組織警報 203
8.6 小結 206
第9章 對物聯網數據套用地理空間分析 209
9.1 對物聯網數據套用地理空間分析的優點 210
9.2 地理空間分析的基礎知識 212
9.2.1 歡迎來到空島 212
9.2.2 坐標參考系統 213
9.2.3 地球並非完美球體 213
9.3 基於向量的方法 216
9.3.1 邊界框 217
9.3.2 包含 218
9.3.3 緩衝 219
9.3.4 膨脹和侵蝕 219
9.3.5 簡化 221
9.3.6 研究更多基於向量的方法 221
9.4 基於柵格的方法 221
9.5 存儲地理空間數據 223
9.5.1 檔案格式 223
9.5.2 關係資料庫的空間數據擴展 224
9.5.3 在HDFS中存儲地理空間數據 225
9.5.4 空間數據索引 225
9.5.5 R樹 226
9.6 處理地理空間數據 227
9.6.1 地理空間分析軟體 227
9.6.2 PostGIS空間數據函式 230
9.6.3 大數據世界中的地理空間分析 231
9.7 解決污染報告問題 231
9.8 小結 232
第10章 物聯網分析和數據科學 235
10.1 機器學習 236
10.1.1 關於機器學習 236
10.1.2 表示 238
10.1.3 評估 238
10.1.4 最佳化 238
10.1.5 泛化 240
10.2 使用物聯網數據進行特徵工程 241
10.2.1 處理缺失值 241
10.2.2 居中和縮放 247
10.2.3 時間序列處理 248
10.3 驗證方法 249
10.3.1 交叉驗證 249
10.3.2 測試集 250
10.3.3 精確率、召回率和特異性 251
10.4 理解偏差-方差權衡 253
10.4.1 偏差 253
10.4.2 方差 254
10.4.3 權衡和複雜性 255
10.5 使用R比較不同的模型 256
10.5.1 ROC曲線 256
10.5.2 曲線下面積 260
10.6 使用R構建隨機森林模型 261
10.6.1 隨機森林關鍵概念 261
10.6.2 隨機森林R示例 262
10.7 使用R構建梯度提升機模型 264
10.7.1 GBM的關鍵概念 265
10.7.2 梯度提升機R示例 266
10.7.3 集成方法 267
10.8 使用R進行異常檢測 268
10.9 使用ARIMA進行預測 269
10.9.1 關於ARIMA 269
10.9.2 使用R預測時間序列物聯網數據 270
10.10 深度學習 271
10.10.1 使用物聯網數據進行深度學習的用例 272
10.10.2 深度學習縱覽 272
10.10.3 在AWS上設定TensorFlow 274
10.11 小結 274
第11章 組織數據的策略 275
11.1 連結分析數據集 276
11.1.1 分析數據集 276
11.1.2 構建分析數據集 276
11.1.3 將數據集連結在一起 278
11.2 管理數據湖 281
11.2.1 防止數據湖變成數據沼澤 281
11.2.2 數據提煉 281
11.2.3 數據開發過程 282
11.3 數據保留策略 283
11.3.1 目標 284
11.3.2 物聯網數據的保留策略 284
11.3.3 保留策略示例 286
11.4 小結 287
第12章 物聯網分析的經濟意義 289
12.1 雲計算的經濟意義 290
12.1.1 可變成本與固定成本 290
12.1.2 退出選項 291
12.1.3 雲成本可能會迅速上升 292
12.1.4 密切監控雲計費 292
12.2 開源軟體的經濟意義 292
12.2.1 智慧財產權考慮 292
12.2.2 可擴展性 293
12.2.3 技術支持 294
12.3 物聯網分析的成本考慮 294
12.3.1 雲服務成本 294
12.3.2 考慮未來使用需求 294
12.4 考慮增加收入的機會 294
12.4.1 對當前業務的拓展 295
12.4.2 新的收入機會 295
12.5 預測性維護的經濟意義示例 297
12.5.1 預測性維護的現實情境 297
12.5.2 價值公式 297
12.5.3 價值決策示例 298
12.6 小結 305
第13章 總結和建議 307
13.1 本書關鍵主題回顧 307
13.1.1 物聯網數據流 308
13.1.2 物聯網探索性分析 309
13.1.3 物聯網數據科學 310
13.1.4 通過物聯網分析增加收入 311
13.2 示例挑戰項目 312
13.3 小結 313

相關詞條

熱門詞條

聯絡我們