假髮現率FDR(False Discovery Rate)是在多重假設檢驗中用來控制多重比較的一種方法。在以往的一系列研究中,人們用FDR來防止不正確地拒絕了零假設(null hypotheses)。相比FWER,如Bonferroni correction,FDR要寬鬆一點。
基本介紹
- 中文名:假髮現率
- 外文名:False Discovery Rate
數據分析中常碰見多重檢驗問題 (multipletesting).Benjamini於1995年提出一種方法,通過控制FDR(False DiscoveryRate)來決定P值的域值.假設你挑選了R個差異表達的基因,其中有S個是真正有差異表達的,另外有V個其實是沒有差異表達的,是假陽性的.實踐中希望錯誤比例Q=V/R平均而言不能超過某個預先設定的值(比如0.05),在統計學上,這也就等價於控制FDR不能超過5%.
根據Benjamini在他的文章中所證明的定理,控制fdr的步驟實際上非常簡單。
設總共有m個候選基因,每個基因對應的p值從小到大排列分別是p(1),p(2),...,p(m),則若想控制fdr不能超過q,則只需找到最大的正整數i,使得 p(i)<=(i*q)/m.然後,挑選對應p(1),p(2),...,p(i)的基因做為差異表達基因,這樣就能從統計學上保證fdr不超過q。
根據Benjamini在他的文章中所證明的定理,控制fdr的步驟實際上非常簡單。
設總共有m個候選基因,每個基因對應的p值從小到大排列分別是p(1),p(2),...,p(m),則若想控制fdr不能超過q,則只需找到最大的正整數i,使得 p(i)<=(i*q)/m.然後,挑選對應p(1),p(2),...,p(i)的基因做為差異表達基因,這樣就能從統計學上保證fdr不超過q。