內容簡介
在分析和理解數據時,統計學家總是為數據中的因果問題而煩惱。例如,如何判斷某種疾病預防方案的有效程度,是否可以預估與肥胖相關的醫療費用,美國政府的行為能否阻止2008年的金融危機,僱傭記錄是否能證明僱主存在性別歧視等。 這些問題的獨特之處在於,在傳統的統計語言中,這些問題無法得到回答,甚至無法描述。事實上,直到最近科學家們才獲得了一種數學語言,利用它來描述這些問題,並用相應的工具從數據中獲得這些問題的答案。 這些工具的開發引發了統計學和許多相關學科中因果關係處理方式的革命,特別是在社會和生物醫學科學方面。例如,2003年在舊金山召開的聯合統計學會議的論文集中,只有13篇論文標題中出現“原因”或“因果”這樣的關鍵字,而在2014年的波士頓會議上,相關論文的數量超過了100篇。這些數字變化代表著統計學研究領域令人振奮的革命性轉變,新的問題和挑戰正在向統計分析敞開大門。哈佛大學的政治學教授格雷·金從歷史的角度評價這場變革:“在過去的幾十年中,人們對因果推理的了解比以往歷史上記載的總和都要多。” 然而,幾乎沒有統計學教育工作者關注這些讓人激動的成果。在統計學教科書,尤其是入門級的教科書中,基本上沒有關於因果關係的內容。造成這種現象的原因在於傳統統計學教育中根深蒂固的觀念和大多數統計學家對統計推理的一貫看法。 羅納德·費希爾在其著名的宣言中提出“統計方法的目標是約簡數據”(Fisher,1922)。按照這一目標,通常被稱為“推理”的數據分析可以歸結為,用精練的數學語言描述變數集合聯合分布,或者其中的特定參數。對於這種推理的一般策略,不僅統計研究人員和數據科學家非常熟悉,那些學習過統計學基礎課程的人也非常熟悉。事實上,許多優秀的書籍中都描述了從現有數據中提取最大信息量的、精妙且高效的方法。這些書為初學者介紹了涵蓋試驗設計到參數估計和假設檢驗的詳細內容。這些技術的目標是對數據本身的描述,而不是描述數據在整個過程中所起的作用。大多數統計書籍甚至在索引中沒有“因果”或“因果關係”一詞。 然而,大量有關統計推理的核心問題是因果關係;一個變數的變化會引起另一個變數的變化嗎?如果是,它們會引起多大的變化呢?由於迴避了這些問題,在統計推理的入門級內容里甚至沒有討論所估計的參數之間是否有相關的量化關係,而這正是人們感興趣的因果關係。 大多數人門教材所能做的是,首先,引用經常說的格言:“相關性並不一定蘊含因果性”.簡要地解釋什麼是混雜,“隱含變數”如何導致對兩個感興趣變數之間表面關係的誤解。然後,這些教材用醒目的文字提出主要問題:“X和y之間的因果關係如何建立?”並用隨機試驗中存在已久的“金標準”方法回答這個問題,“金標準”方法至今仍是美國和其他國家藥物審批程式的基石。 然而,由於大多數的因果問題不能通過隨機試驗來實現,學生和教師們都想知道是否可以在沒有隨機試驗的情況下,能夠合理並且可靠地討論因果關係的一些問題。 簡而言之,許多入門的教材只是為沒有統計學基礎的讀者介紹如何使用統計學技術處理因果性問題,而沒有討論因果模型和因果參數,這就留下了一個空白。 這個空白令人感到如芒在背,本書意在填補這個空白,協助具有基礎統計學知識的教師和學生應對幾乎在所有自然科學和社會科學非試驗研究中存在的因果性問題。本書聚焦於用簡單和自然的方法定義因果參數,並且說明在觀察研究中,哪些假設對於估計參數是必要的。我們也證明這些假設可以用顯而易見的數學形式描述出來,也可以用簡單的數學工具將這些假設轉化為量化的因果關係,如治療效果和政策干預,以確定其可檢測的內在關係。 在本書中,我們的目標僅限於此;我們沒有詳細討論最優參數的估計方法,這些方法可通過數據得到有效的統計估計和相應的確信度。這些問題,其中一些還是相當前沿的