FDR(FDR( false discovery rate) 錯誤發現率)

FDR(FDR( false discovery rate) 錯誤發現率)

FDR(false discovery rate),是統計學中常見的一個名詞,翻譯為偽發現率,其意義為是 錯誤拒絕(拒絕真的(原)假設)的個數占所有被拒絕的原假設個數的比例的期望值。

1995年Benjamini和Hochberg首次提出了FDR的概念,並給出了在多重檢驗中對它的控制方法。然而,當時組學海量數據尚未大量出現,開始並未受到重視,甚至因為考慮了64個假設檢驗而受到質疑。數年之後,伴隨著微陣列檢測技術的發展、海量數據的大量出現使得FDR有了套用。

基本介紹

  • 中文名:偽發現率
  • 外文名:false discovery rate
  • 縮寫:FDR
  • 首次提出:1995年
提出定義,控制方法,

提出定義

目前為止,Benjamini和Hochberg的文章引用次數已經達到上萬次,FDR的理論和套用研究也在不斷走向成熟。
FDR( false discovery rate) 的定義如下:
其中 E( ·) 為數學期望 。同理, 我們可以得到假陰性發現率 ( false negative discovery rate , FNDR) 的定義:
FDR 的 含 義 是 錯誤拒絕(拒絕真的(原)假設)的個數占所有被拒絕的原假設個數的比例的期望值。FDR 具有以下優點 : (1)可以靈活調整其取值 ,作為假設檢驗錯誤率的控制指標, 其控制值可以根據需要靈活選取 , 而傳統的假設檢驗( FWER) 的取值則較為固定 ,通常定為 0.05; ( 2 )FDR 的意義明確, 可以作為篩選出的差異變數的評價指標, 而 FWER 則主要是用來控制I類錯誤的。
FDR 與 FWER 兩者的關係: 當所有無效假設為真時, 控制 FDR 和控制 FWER 等價;
當 m0 <m 時( m0 為真實無差異變數的數目 ) , 控制 FDR 相當於弱控制 FWER。

控制方法

控制是指決定一 個顯著性水平的界值 , 從而使FDR 被限制在某一固定水平, 類似於 FWER 的控制,對此可以採用線性向上的控制方法, 分兩步進行: 首先將所有檢驗的 p 值進行排序, 即 p ( 1) ≤ p ( 2) ≤ p ( 3) ≤ ...i≤ p ( m) ; 然後逐步後退比較 p ( i) ≤ q( i = m, m - 1, m -m2, ..., 1) , 取第一個滿足條件的 p ( k) ( k ≥1) , 理論上可以證明在此情況下可以將 FDR 控制在 q( 0 ≤ q ≤ 1) 水平下。上述方法需要滿足各變數假設檢驗間是獨立的條件 。在此基礎上, 1999 年 Yekutieli 和 Benjamini 給出了一種改進的方法, 但其估計的 FDR 值略為保守,其思想是利用重複抽樣的方法來計算 p 值, 可以在變數相關條件下控制 FDR 值 。同年 Benjamini 和 Liu 則提出了一種逐步向下 ( step- dow n) 的控制方法, 過程與BH 基 礎 方 法 相 近, 只 是 對 p ( k) 的 控 制 方 法 不 同 。2000 年 Benjamini 和 Hochberg 提出了兩階段的 FDR控制, 以改進原有方法的保守性 ; 2001 年 Benjamini和 Yekutieli 對算法進行了進一步的改進 , 可用於不同變數檢驗間獨立和相關不同條件下的 FDR 的控制,不足之處是其檢驗效能較低 。Benjamini 和 Hochberg在 2005 年提出了一種自適應線性向上的控制方法( a-daptive linear step- up, ALSU) , 這種方法的特點是在不同的顯著水準下兩次使用上述介紹的基礎過程, 特別是在變數相關條件下得到的 FDR 估計較為穩健 .

相關詞條

熱門詞條

聯絡我們