RPKM

RPKM

RPKM是Reads Per Kilobase per Million mapped reads的縮寫,代表每百萬reads中來自於某基因每千鹼基長度的reads數。RPKM是將map到基因的read數除以map到基因組上的所有read數(以million為單位)與RNA的長度(以KB為單位)。

RNA-seq是二代測序技術中用來表示基因表達量或豐度的方法。在衡量基因表達量時,若是單純以map到的read數來計算基因的表達量,在統計上是不合理的。因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高,如此一來,序列長的基因永遠會被認為表達量較高,而錯估基因真正的表現量,所以Ali Mortazavi等人在2008年提出以RPKM在估計基因的表現量。
其公式為:
計算公式計算公式
以下就用一個簡化的例子來說明RPKM的運用方式與概念:
假設一基因體只有兩個基因,一個9 KB,一個1 KB,如今有一sample,其map 到9 KB 的read 有18 million 個,map 到1 KB 的有2 million 個,
對於9 KB 的基因而言,
Total exon reads=18 million
Mapped reads=18+2=20 million
Exon length=9 KB
RPKM =18million/(20*9)=0.1*10^6=10^5
對於1 KB 的基因而言,
Total exon reads=2 million
Mapped reads=18+2=20 million
Exon length=1 KB
RPKM =2million/(20*1)=0.1*10^6=10^5
由此我們可以知道這兩個基因表現量沒有差別。
假設此時我們有另一個sample(該例子中map上的reads數較少,RPKM值作為表達量的衡量指數並不可信),其表現如下圖所示:
RPKM
我們可以發現此sample中9 KB基因的read數明顯比上一個sample少,如果我們計算RPKM可以得到RPKM = 9/((9+1)*10^(-6)*9)=0.1*10^6=10^5,卻與上一個sample相同,這可能是因為cDNA濃度較低或是其他sample備制過程的問題,造成整體read變少,但是對9 KB基因而言,其read數占所有read數的比例並沒有發生改變,所以其表現量會和上一個sample相同。

相關詞條

熱門詞條

聯絡我們