大數據分析:從理論到實踐

《大數據分析:從理論到實踐》一書採用了可視化輔助分析的辦法,通俗易懂,不拘泥於數學公式。 另外,還採用了可視化輔助分析的辦法,通俗易懂,不拘泥於數學公式。 本書不僅可作為數據分析初學者的入門手冊,也可作為數據分析學者進行數據研究和案例分析的參考指南。

基本介紹

  • 中文名:大數據分析:從理論到實踐
  • 作者:成生輝
  • 類別:統計
  • 出版社電子工業出版社
  • 出版時間:2021年7月1日
  • 頁數:172 頁
  • 定價:49 元
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787121412615
內容簡介,圖書目錄,作者簡介,

內容簡介

《大數據分析:從理論到實踐一書》包含10章,分為:第1章,闡述數據分析的基礎理論;第2章,介紹數據清洗和數據獲取的知識和方法;第3章至第9章,覆蓋了基礎統計分析、多維數據分析、時序數據分析、地理數據分析、圖數據分析、文本數據分析和多媒體數據分析,包括每種分析方法的基礎定義、分析方法和工具使用到具體領域的可視化實用案例;第10章,以中國社會發展數據演示分析方法的使用。書中提到的基礎理論知識都有配套的線上實踐工具,能夠讓用戶在學習基礎理論知識之後和實踐進行連線,真正達到學以致用的效果。通過實踐工具,用戶可以實現獨自完成數據可視化分析案例的產出。本書採用了可視化輔助分析的辦法,通俗易懂,不拘泥於數學公式。

圖書目錄

第1章 引言 11.1 大數據的發展歷程 11.2 大數據的概念和定義 31.2.1 大量(Volume) 41.2.2 多樣(Variety) 51.2.3 價值密度低(Value) 51.2.4 高速(Velocity) 51.2.5 真實性(Veracity) 61.3 大數據對社會的影響 61.3.1 大數據促進經濟發展 61.3.2 大數據提升社會保障 71.3.3 數據治國 81.4 大數據的分析方法 91.4.1 統計 91.4.2 數據挖掘 101.4.3 人工智慧 111.5 數據可視化技術 111.5.1 可視化歷史 111.5.2 可視化概述 121.5.3 可視化套用 15第2章 數據預處理 172.1 什麼是網路爬蟲 172.2 網路爬蟲的實現 182.2.1 Python程式語言 182.2.2 正則表達式 192.2.3 超文本標記語言 212.2.4 超文本傳輸協定 232.3 數據清洗 242.3.1 處理缺失值 242.3.2 處理異常值 252.3.3 處理噪聲 26第3章 基礎統計分析 293.1 統計學的基本概念 293.2 連續變數的統計描述 303.2.1 頻數 303.2.2 集中趨勢描述指標 323.2.3 離散趨勢描述指標 333.3 分類變數的統計描述 333.4 常用統計圖 343.4.1 餅圖 353.4.2 柱狀圖 363.4.3 散點圖 383.4.4 折線圖 393.5 統計分析套用示例 413.5.1 人口變化總趨勢 413.5.2 人口結構變化 423.5.3 二胎與生育率 43第4章 多維數據分析 454.1 多維數據概述 454.2 多維數據過濾分析 464.3 相關性分析 504.3.1 一般性相關性分析 504.3.2 多維數據可視化相關性分析 514.4 聚類分析 524.5 降維分析 544.5.1 主成分分析 544.5.2 多維尺度變換 564.5.3 T分布隨機鄰域嵌入 574.6 多維特徵提取 584.6.1 雷達圖 594.6.2 用戶畫像 594.6.3 Radviz特徵提取 604.7 多維數據分析套用示例 614.7.1 郡縣特徵的關聯度 614.7.2 多維度分析得票率的關鍵因素 63第5章 時序數據分析 655.1 時序數據概述 655.2 多維時序數據呈現——折線 675.3 多維時序數據呈現——柱狀 695.4 預測分析 725.4.1 移動平均 725.4.2 指數平滑 735.4.3 三次指數平滑 745.5 周期性檢測 755.6 時序分析套用示例 775.6.1 美國各州新冠病毒肺炎確診病例數的動態變化 775.6.2 美國紐約州、加州疫情發展變化 795.6.3 美國疫情總體態勢 805.6.4 美國疫情預測 81第6章 地理數據分析 836.1 地理熱度分析 836.2 地理空間分析 866.3 連線地圖 876.4 地理分析套用示例 886.4.1 美國疫情確診情況 886.4.2 美國疫情死亡情況 906.4.3 美國疫情傳播分析 916.4.4 宅在家裡還是出門旅行 93第7章 圖數據分析 957.1 圖數據概述 957.2 樹圖 967.3 圖數據的量化可視化分析 987.3.1 矩形樹圖 987.3.2 旭日圖 987.4 圖數據嵌套關係分析 997.4.1 矩形堆積圖 997.4.2 圓堆積圖 1007.5 圖數據中的關聯數據 1017.5.1 弧線圖 1017.5.2 極坐標弧線圖 1017.5.3 弦圖 1027.5.4 沖積圖 1037.6 力導向布局分析 1047.6.1 力導向設計思路 1047.6.2 力導向布局優點 1047.6.3 力導向布局缺點 1057.7 搜尋算法 1057.7.1 廣度優先搜尋算法 1067.7.2 深度優先搜尋算法 1087.8 最短路徑算法 1097.9 圖分析套用示例 1097.9.1 美國人口普查分區 1107.9.2 美國新冠病毒肺炎確診病例按人口普查分區分布 110第8章 文本數據分析 1158.1 文本數據概述 1158.2 文本向量化 1168.2.1 詞袋模型 1168.2.2 Word2Vec模型 1168.3 分詞 1188.4 關鍵字提取 1208.5 知識圖譜 1218.6 其他文本處理技術簡介 1228.7 文本分析套用示例 1248.7.1 特朗普和拜登社交媒體回復——輿情分析 1248.7.2 特朗普和拜登在社交媒體上的宣傳策略 1258.7.3 小結 127第9章 多媒體數據分析 1299.1 數字圖像處理 1299.1.1 亮度調整 1309.1.2 直方圖均衡化 1329.1.3 高斯平滑 1339.1.4 邊緣檢測 1359.2 數字音頻處理 1359.3 數字視頻處理 1379.4 多媒體分析套用示例 137第10章 綜合套用示例:中國社會發展調研 13910.1 經濟總體指標分析 13910.2 城鎮化發展分析 14210.3 國際影響力分析 14510.4 科技發展分析 14710.5 教育發展分析 14910.6 文化發展分析 15110.7 醫療衛生髮展分析 15310.8 環境治理狀況分析 15410.9 居民收入變化分析 156參考資料

作者簡介

成生輝,香港中文大學深圳和深圳市大數據研究院研究科學家,大數據可視化實驗室負責人,Dagoo平台創始人。博士畢業於石溪紐約州立大學計算系,曾在德國弗里德里希·席勒大學,德國萊比錫大學醫學研究所,美國布魯克海文國家實驗室和哈佛大學進行訪問研究。先後在2015 和2016 國際可視化年會上獲得最佳海報提名獎,並受邀在大會上擔任授課導師。他擔任2019年國際可視化年會(短文)程式委員會委員,中國可視化與可視分析專委會委員,CSIG-VIS 2019高峰論壇(深圳)執行主席,入選深圳市海外高層次人才。近期,他被世界銀行聘為顧問。

相關詞條

熱門詞條

聯絡我們