大數據是這樣計算的

大數據是這樣計算的

《大數據是這樣計算的》是楊旭編著的圖書,由電子工業出版社出版。

基本介紹

  • 中文名:大數據是這樣計算的
  • 作者:楊旭 
  • 出版社:電子工業出版社 
  • 字數:78,000
  • ISBN:9787121282317 
內容簡介,圖書目錄,

內容簡介

隨著大數據分析方法的發展、分析工具的改進,大數據分析的門檻降低了。基於大數據算法平台,數據分析師們已經不再被數據的“大”所困擾,他們可以輕鬆地探索大數據,挖掘大數據的價值。
《大數據是這樣計算的:XLab實例入門》側重介紹大數據分析方法和算法的套用,選取了10個不同領域的真實數據集,針對每個數據的特點,選擇適合的方法和算法,和讀者一起體驗數據探索、數據分析、建模預測的過程;通過實例計算的結果,讀者會更加了解各種方法和算法的長處和局限。《大數據是這樣計算的:XLab實例入門》的實例都運行在大數據算法平台XLab上。

圖書目錄

  1. 推薦序一
  2. 推薦序二
  3. 前言
  4. 第1章 入門
  5. 1.1 打開大數據之門
  6. 1.2 接觸大數據
  7. 1.3 數據初探索
  8. 1.4 進一步分析
  9. 1.5 訓練和預測
  10. 第2章 簡介
  11. 2.1 主界面介紹
  12. 2.1.1 工具列
  13. 2.1.2 數據列表
  14. 2.1.3 視窗管理器
  15. 2.1.4 工作界面
  16. 2.2 數據查看、運行
  17. 2.2.1 文本顯示
  18. 2.2.2 複製部分數據
  19. 2.2.3 顯示/隱藏列
  20. 2.3 腳本編輯、運行
  21. 2.4 如何獲得幫助信息
  22. 2.4.1 查看幫助手冊
  23. 2.4.2 界面上的幫助信息
  24. 2.4.3 腳本函式的幫助信息
  25. 2.5 執行SQL語句
  26. 第3章 全球機場信息
  27. 3.1 數據可視化
  28. 3.2 統計分析
  29. 3.3 大中型機場的分析
  30. 3.4 海拔高度排行
  31. 3.5 數據的關聯關係
  32. 第4章 股票價格
  33. 4.1 數據處理
  34. 4.2 數據探索
  35. 4.3 數據展開
  36. 4.3.1 組合使用基本函式進行變換
  37. 4.3.2 利用專門函式一步到位
  38. 4.4 各股趨勢比較
  39. 4.5 總體趨勢
  40. 第5章 標準普爾500指數
  41. 5.1 數據類型轉換
  42. 5.2 各指標間的線性關係
  43. 5.3 按時間變化趨勢
  44. 5.4 數據對比
  45. 第6章 鳶尾花數據集
  46. 6.1 屬性間的關係
  47. 6.2 聚類
  48. 6.2.1 K-Means聚類
  49. 6.2.2 EM聚類
  50. 6.3 二分類數據子集
  51. 6.3.1 使用訓練、預測窗體
  52. 6.3.2 調用訓練、預測腳本
  53. 第7章 MovieLens數據集
  54. 7.1 數據變換
  55. 7.2 統計
  56. 7.3 排行榜
  57. 7.4 分類排行榜
  58. 7.5 影片關聯分析
  59. 7.6 屬性擴展
  60. 第8章 汽車評價數據集
  61. 8.1 數據圖示化
  62. 8.2 對比分析
  63. 8.3 決策樹
  64. 第9章 Twitter數據
  65. 9.1 用戶信息分析
  66. 9.2 用戶冬粉數量的情況
  67. 9.3 冬粉的情況
  68. 9.4 “粉”與“被粉”
  69. 9.5 信息傳播速度
  70. 9.6 哪些用戶更重要
  71. 9.6.1 冬粉最多的用戶
  72. 9.6.2 用戶排名
  73. 第10章 隨機數據
  74. 10.1 數據生成
  75. 10.2 計算值
  76. 10.3 中心極限定理
  77. 第11章 新浪網頁數據
  78. 11.1 分詞
  79. 11.2 有區分度的單詞
  80. 11.3 選擇特徵
  81. 11.3.1 卡方檢驗
  82. 11.3.2 信息增益
  83. 11.4 主題模型
  84. 11.4.1 潛在語義分析
  85. 11.4.2 機率潛在語義分析
  86. 11.4.3 LDA模型
  87. 11.5 單詞映射為向量
  88. 第12章 2014年阿里巴巴大數據競賽
  89. 12.1 試題介紹
  90. 12.2 數據
  91. 12.3 思路
  92. 12.3.1 用戶和品牌的各種特徵
  93. 12.3.2 二分類模型訓練
  94. 12.3.3 比賽考核目標
  95. 12.4 計算訓練數據集
  96. 12.4.1 原始數據劃分
  97. 12.4.2 計算特徵
  98. 12.4.3 數據預處理標識
  99. 12.4.4 用戶-品牌聯合特徵
  100. 12.4.5 用戶特徵
  101. 12.4.6 品牌特徵
  102. 12.4.7 整合訓練數據的特徵
  103. 12.4.8 計算標籤
  104. 12.5 二分類模型訓練
  105. 12.5.1 正負樣本配比
  106. 12.5.2 樸素貝葉斯算法
  107. 12.5.3 邏輯回歸算法
  108. 12.5.4 隨機森林算法
  109. 12.6 提交預測結果

相關詞條

熱門詞條

聯絡我們