《大數據是這樣計算的》是楊旭編著的圖書,由電子工業出版社出版。
基本介紹
- 中文名:大數據是這樣計算的
- 作者:楊旭
- 出版社:電子工業出版社
- 字數:78,000
- ISBN:9787121282317
內容簡介
圖書目錄
- 推薦序一
- 推薦序二
- 前言
- 第1章 入門
- 1.1 打開大數據之門
- 1.2 接觸大數據
- 1.3 數據初探索
- 1.4 進一步分析
- 1.5 訓練和預測
- 第2章 簡介
- 2.1 主界面介紹
- 2.1.1 工具列
- 2.1.2 數據列表
- 2.1.3 視窗管理器
- 2.1.4 工作界面
- 2.2 數據查看、運行
- 2.2.1 文本顯示
- 2.2.2 複製部分數據
- 2.2.3 顯示/隱藏列
- 2.3 腳本編輯、運行
- 2.4 如何獲得幫助信息
- 2.4.1 查看幫助手冊
- 2.4.2 界面上的幫助信息
- 2.4.3 腳本函式的幫助信息
- 2.5 執行SQL語句
- 第3章 全球機場信息
- 3.1 數據可視化
- 3.2 統計分析
- 3.3 大中型機場的分析
- 3.4 海拔高度排行
- 3.5 數據的關聯關係
- 第4章 股票價格
- 4.1 數據處理
- 4.2 數據探索
- 4.3 數據展開
- 4.3.1 組合使用基本函式進行變換
- 4.3.2 利用專門函式一步到位
- 4.4 各股趨勢比較
- 4.5 總體趨勢
- 第5章 標準普爾500指數
- 5.1 數據類型轉換
- 5.2 各指標間的線性關係
- 5.3 按時間變化趨勢
- 5.4 數據對比
- 第6章 鳶尾花數據集
- 6.1 屬性間的關係
- 6.2 聚類
- 6.2.1 K-Means聚類
- 6.2.2 EM聚類
- 6.3 二分類數據子集
- 6.3.1 使用訓練、預測窗體
- 6.3.2 調用訓練、預測腳本
- 第7章 MovieLens數據集
- 7.1 數據變換
- 7.2 統計
- 7.3 排行榜
- 7.4 分類排行榜
- 7.5 影片關聯分析
- 7.6 屬性擴展
- 第8章 汽車評價數據集
- 8.1 數據圖示化
- 8.2 對比分析
- 8.3 決策樹
- 第9章 Twitter數據
- 9.1 用戶信息分析
- 9.2 用戶冬粉數量的情況
- 9.3 冬粉的情況
- 9.4 “粉”與“被粉”
- 9.5 信息傳播速度
- 9.6 哪些用戶更重要
- 9.6.1 冬粉最多的用戶
- 9.6.2 用戶排名
- 第10章 隨機數據
- 10.1 數據生成
- 10.2 計算值
- 10.3 中心極限定理
- 第11章 新浪網頁數據
- 11.1 分詞
- 11.2 有區分度的單詞
- 11.3 選擇特徵
- 11.3.1 卡方檢驗
- 11.3.2 信息增益
- 11.4 主題模型
- 11.4.1 潛在語義分析
- 11.4.2 機率潛在語義分析
- 11.4.3 LDA模型
- 11.5 單詞映射為向量
- 第12章 2014年阿里巴巴大數據競賽
- 12.1 試題介紹
- 12.2 數據
- 12.3 思路
- 12.3.1 用戶和品牌的各種特徵
- 12.3.2 二分類模型訓練
- 12.3.3 比賽考核目標
- 12.4 計算訓練數據集
- 12.4.1 原始數據劃分
- 12.4.2 計算特徵
- 12.4.3 數據預處理標識
- 12.4.4 用戶-品牌聯合特徵
- 12.4.5 用戶特徵
- 12.4.6 品牌特徵
- 12.4.7 整合訓練數據的特徵
- 12.4.8 計算標籤
- 12.5 二分類模型訓練
- 12.5.1 正負樣本配比
- 12.5.2 樸素貝葉斯算法
- 12.5.3 邏輯回歸算法
- 12.5.4 隨機森林算法
- 12.6 提交預測結果