基本介紹
- 中文名:新媒體數據挖掘——基於R語言
- 作者:王小峰、方捷
- 出版社:清華大學出版社
- 出版時間:2018年2月
- 定價:58 元
- ISBN:9787302493228
內容簡介,圖書目錄,
內容簡介
計算傳播領域尤其是新媒體數據挖掘方向一直缺乏系統的教材,《新媒體數據挖掘——基於R語言》旨在為計算傳播和計算社會科學領域的讀者提供學習R程式語言和開發平台的捷徑,希望能夠填補這方面的空白。“讓學習層次變得更巨觀,讓學習過程變得更輕鬆,讓學習所獲變得更通用”是《新媒體數據挖掘——基於R語言》的編寫理念與特色。《新媒體數據挖掘——基於R語言》首先剖析了社會科學研究範式的革新,介紹了R語言的作用和特點;然後系統講解了程式語言的通用學習方法和R語言的基本組成;最後展開實戰套用,包括網路數據採集、文本挖掘和情感分析、社會網路分析、社交編程平台協作等非常有趣且有意義的內容。
《新媒體數據挖掘——基於R語言》適合作為計算傳播和計算社會科學領域相關專業本科和研究生教材。高職高專學校也可以選用部分內容開展教學。《新媒體數據挖掘——基於R語言》還適合作為計算傳播學和計算社會科學科研人員的自學書籍。
圖書目錄
第1章 為什麼學習R語言 1
1.1 R是什麼 2
1.1.1 R是一款優秀的現代科研軟體 2
1.1.2 R的優勢與不足 3
1.1.3 R和Python的區別 3
1.2 計算社會科學的興起——以計算傳播學為例 4
1.2.1 什麼是計算社會科學 4
1.2.2 計算傳播學的起源和概念 7
1.3 R在計算傳播學中的典型套用 9
1.3.1 用R進行文本分析初探 9
1.3.2 網際網路線上數據收集 10
1.3.3 社會網路分析 12
1.4 總結與提高 13
1.5 習題 14
第2章 R語言開發環境 15
2.1 R的獲取、安裝和基本使用 16
2.1.1 RGui的下載與安裝 16
2.1.2 RGui的使用介紹 19
2.1.3 示例:使用R Commander實現統計功能 21
2.1.4 R的內置數據集和擴展功能包 26
2.1.5 R的幫助系統 27
2.1.6 R的工作空間和工作 27
2.2 R的IDE開發環境——RStudio 27
2.2.1 RStudio的下載和安裝 28
2.2.2 RStudio的最簡標準操作 28
2.2.3 RStudio的工作界面 31
2.2.4 RStudio的用戶自定義配置 32
2.3 示例:我的第一個R項目“網頁爬蟲” 32
2.3.1 組織項目需求 33
2.3.2 新建項目環境 33
2.3.3 編寫應用程式代碼並運行 34
2.3.4 執行代碼並根據實際結果修改和再次運行 35
2.4 總結與提高 37
2.5 習題 38
第3章 R語言基礎——數據 39
3.1 無障礙學習程式語言的兩個訣竅 40
3.1.1 從“哲學”的角度了解程式語言 40
3.1.2 從“語言學”的角度學習程式語言語法 41
3.2 R的基本數據類型(數值、字元、邏輯) 42
3.2.1 基本數據類型 42
3.2.2 數據類型的兩個屬性:模式和長度 43
3.2.3 兩個特殊常量 44
3.3 R的複合數據類型 45
3.3.1 向量 46
3.3.2 矩陣 46
3.3.3 數組 47
3.3.4 數據框 48
3.3.5 列表 49
3.3.6 因子 51
3.3.7 時間序列 52
3.4 數據的導入和導出 54
3.4.1 數據的導入 55
3.4.2 數據的導出 59
3.5 總結與提高 59
3.6 習題 59
第4章 R語言基礎——代碼 61
4.1 R代碼的基本單位:語句=數據+運算符; 62
4.1.1 基本運算符 62
4.1.2 表達式、語句、語句塊 65
4.2 R的流程控制 66
4.2.1 順序結構 66
4.2.2 選擇/分支結構 67
4.2.3 循環結構 70
4.3 R代碼復用——函式和過程 73
4.3.1 “模組化”編程思想與函式 73
4.3.2 函式的定義與調用 75
4.3.3 過程的定義與調用 76
4.4 總結與提高 77
4.5 習題 77
第5章 R繪圖——數據可視化呈現 79
5.1 概述 80
5.2 R的繪圖函式 81
5.2.1 圖形視窗繪圖操作函式(圖形的創建和保存) 82
5.2.2 R圖形參數 83
5.2.3 高級繪圖函式 86
5.2.4 低級繪圖函式 89
5.3 常用的R可視化功能包 91
5.3.1 ggplot2功能包 91
5.3.2 rCharts功能包 93
5.3.3 plotly功能包 95
5.3.4 map功能包 96
5.4 總結與提高 97
5.5 習題 98
第6章 網路數據程式化採集 99
6.1 網路數據的獲取途徑及相關基礎知識 100
6.1.1 Web數據的獲取途徑 100
6.1.2 Web的結構與原理 101
6.2 使用R收集Web數據 106
6.2.1 獲取靜態Web內容 107
6.2.2 網路數據的套用級API採集(以豆瓣為例) 109
6.2.3 獲取動態Web內容 111
6.3 總結與提高 114
6.4 習題 114
第7章 文本挖掘和情感分析 115
7.1 R環境下的文本挖掘 116
7.1.1 中文分詞 117
7.1.2 分詞包jiebaR的使用 118
7.1.3 詞雲包wordcloud2的使用 127
7.2 情感分析 129
7.2.1 情感分析概述 129
7.2.2 情感分析的簡單實現 131
7.3 總結與提高 133
7.4 習題 133
第8章 社會網路分析 135
8.1 網路社會與社會網路分析 136
8.1.1 社會的構成 136
8.1.2 網路社會與社會網路分析 137
8.1.3 現代網路社會與社會網路分析 140
8.1.4 網路與關係的描述 142
8.2 社會網路分析的發展、意義和步驟 143
8.2.1 社會網路分析的三個方向 143
8.2.2 社會網路分析的幾個主要步驟 144
8.2.3 社會網路分析的幾個重要指標 144
8.3 社會網路分析的常用工具 146
8.3.1 NodeXL的使用 146
8.3.2 R的iGraph功能包 147
8.3.3 UCINET 149
8.4 總結與提高 149
8.5 習題 150
第9章 社交編程平台:GitHub 151
9.1 自己架設PHP實驗站點並深入探索RCurl功能包 152
9.1.1 基於PHP網頁伺服器端技術架設網站實驗環境 152
9.1.2 深入探索RCurl包 157
9.2 挖掘和分析社交編程平台GitHub的信息 162
9.2.1 GitHub的基本使用 162
9.2.2 探索GitHub API 165
9.3 總結與提高 175
9.4 習題 175
附錄 177
附錄1 計算社會科學宣言 177
附錄2 計算傳播學:宣言與版圖 182
附錄3 伺服器版RStudio的安裝與配置(基於Ubuntu14.04) 191
附錄4 RStudio的常用快捷鍵 192
附錄5 使用devtools包從GitHub中安裝R包 196
附錄6 使用Rtools自製R擴展軟體包 197
參考文獻 203