內容簡介
“匡時·方法研究系列”之一。本書開篇使用種族歧視和呼籲投票運動作為例子,從實驗和觀察性研究兩個角度討論了因果性,接著講解了度量和預測這兩個社會科學研究數據分析中的主要目標。本書對數據分析和統計學理論進行了實踐性介紹,主要針對的讀者群體是本科生以及對社會科學和相關領域開展系統深入研究的研究生。本書涵蓋領域包括經濟學、社會學、公共政策以及數據科學,通過直接明了的實證分析,幫助讀者學習用R項目語言分析數據,並闡釋相關成果。
圖書目錄
目錄
中文版序言 1
英文版序言 1
譯校者序 11引言 1
1.1本書概述 3
1.2如何使用本書 6
1.3R的簡介 9
1.3.1算術運算 10
1.3.2對象 11
1.3.3向量 14
1.3.4函式 16
1.3.5數據檔案 19
1.3.6保存對象 22
1.3.7軟體包 23
1.3.8編程及學習技巧 24
1.4總結 26
1.5練習 26
1.5.1自我匯報是否參加投票的偏差 26
1.5.2了解世界人口動態 282因果關係 31
2.1勞動力市場的種族歧視 31
2.2用R取得的數據子集 35
2.2.1邏輯值和運算符號 36
2.2.2關係運算符 38
2.2.3生成子集 39
2.2.4簡單的條件語句 42
2.2.5因子變數 43
2.3因果效應與反事實 45
2.4隨機對照試驗 47
2.4.1隨機化的作用 47
2.4.2社會壓力和投票率 49
2.5觀察性研究 53
2.5.1最低工資和失業 53
2.5.2混淆偏誤 56
2.5.3前後設計和倍差設計 59
2.6單變數的描述性統計量 62
2.6.1分位數 62
2.6.2標準差 65
2.7總結 66
2.8習題 67
2.8.1早教小班化的有效性 67
2.8.2改變對同性戀婚姻的看法 69
2.8.3刺殺領導人成功率的自然實驗 703度量 73
3.1戰爭時期平民受傷情況的度量 73
3.2處理R中缺失的數據 76
3.3可視化單變數分布 78
3.3.1條形圖 78
3.3.2直方圖 80
3.3.3箱形圖 83
3.3.4列印及保存圖表 85
3.4調查抽樣 86
3.4.1隨機化的作用 87
3.4.2拒訪和其他偏誤來源 91
3.5度量政治極化 93
3.6概括雙變數關係 95
3.6.1散點圖 95
3.6.2相關性 98
3.6.3分位數—分位數圖 102
3.7聚類 104
3.7.1R中的矩陣 105
3.7.2R中的列表 107
3.7.3k均值算法 108
3.8總結 112
3.9練習 113
3.9.1改變對待同性戀婚姻的看法(再探) 113
3.9.2中國和墨西哥的政治效力 114
3.9.3聯合國大會投票表決 1164預測 119
4.1預測選舉結果 119
4.1.1R的循環語句 120
4.1.2R中的一般條件語句 123
4.1.3基於民意調查的預測 126
4.2線性回歸 134
4.2.1面部長相與選舉結果的聯繫 134
4.2.2相關性與散點圖 136
4.2.3最小二乘法 138
4.2.4趨中回歸 143
4.2.5R中的合併數據集 144
4.2.6模型擬合 151
4.3回歸與因果關係 156
4.3.1隨機化的實驗 156
4.3.2多元預測回歸 159
4.3.3異質性干預效應 164
4.3.4斷點回歸設計 169
4.4總結 174
4.5練習 174
4.5.1基於博彩市場的預測 174
4.5.2墨西哥的選舉和條件現金轉移計畫 176
4.5.3巴西政府轉移和減少貧困率 1795數據探索 181
5.1文本數據 181
5.1.1《聯邦黨人文集》懸而未決的作者問題 181
5.1.2文本—項矩陣 185
5.1.3挖掘主題 186
5.1.4作者預測 191
5.1.5交叉驗證 193
5.2網路數據 196
5.2.1文藝復興時期佛羅倫斯的婚姻網路 197
5.2.2無方向的繪圖和中心性度量 198
5.2.3推特關注網路 202
5.2.4有方向的圖和中心性 204
5.3空間數據 210
5.3.11854年倫敦暴發霍亂 210
5.3.2R中的空間數據 213
5.3.3R中的色彩 216
5.3.4美國總統選舉 219
5.3.5沃爾瑪的擴張 221
5.3.6R中的動畫 223
5.4總結 225
5.5練習 226
5.5.1分析憲法的序言 226
5.5.2國際貿易網路 228
5.5.3製作美國總統選舉跨時間的地圖 2296機率 232
6.1機率 232
6.1.1頻率統計與貝葉斯統計 232
6.1.2定義和公理 234
6.1.3排列 237
6.1.4有和沒有替換的抽樣 240
6.1.5組合 241
6.2條件機率 244
6.2.1條件、邊際和聯合機率 244
6.2.2獨立性 251
6.2.3貝葉斯法則 255
6.2.4用姓氏和居住地來預測種族 257
6.3隨機變數和機率分布 267
6.3.1隨機變數 267
6.3.2伯努利和均勻分布 268
6.3.3二項分布 272
6.3.4常態分配 276
6.3.5期望和方差 281
6.3.6預測充滿不確定性的選舉結果 285
6.4大樣本定理 288
6.4.1大數定律 288
6.4.2中心極限定理 290
6.5總結 294
6.6練習 295
6.6.1恩格瑪機中的數學 295
6.6.2博彩市場選舉預測的機率模型 296
6.6.3俄羅斯的選舉舞弊 2987不確定性 301
7.1估計 301
7.1.1無偏性和一致性 302
7.1.2標準誤 308
7.1.3置信區間 313
7.1.4誤差邊際和民意調查中的樣本規模計算 318
7.1.5隨機對照試驗分析 322
7.1.6基於學生t分布的分析 325
7.2假設檢驗 328
7.2.1品茶試驗 328
7.2.2總體框架 331
7.2.3單樣本檢驗 335
7.2.4雙樣本檢驗 341
7.2.5假設檢驗的陷阱 346
7.2.6效力分析 348
7.3含不確定性的線性回歸模型 354
7.3.1作為生成模型的線性回歸模型 354
7.3.2估計係數的無偏性 359
7.3.3估計係數的標準誤 362
7.3.4關於參數的推斷 364
7.3.5關於預測的推斷 367
7.4總結 373
7.5練習 373
7.5.1性別比和中國農作物的價格 373
7.5.2學術研究中的抽屜偏誤和發表偏見 375
7.5.31932年德國魏瑪共和國的大選 377
8下一步 380
辭彙表 383