基本介紹
- 中文名:fastQ格式
- 類別:文本格式
- 編碼標準:ASCII
- 使用範圍:生物學
- 釋義:存儲生物序列及質量評價文本格式
概念,FASTQ格式例子,格式轉換,Illumina中套用,
概念
FastQ格式是序列格式中常見的一種,FASTQ格式的序列一般都包含有四行,第一行由'@'開始,後面跟著序列的描述信息,這點跟FASTA格式是一樣的。第二行是序列。第三行由'+'開始,後面也可以跟著序列的描述信息。第四行是第二行序列的質量評價(quality values,註:應該是測序的質量評價),字元數跟第二行的序列是相等的。
FASTQ格式例子
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
例如在NCBI看到的FASTQ格式如下:
@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6
其中第一行以@開頭,後面是reads的ID以及其他信息,例如上例中 HWUSI-EAS100R代表Illumina設備名稱,6代表flowcell中的第六個lane,73代表第六個lane中的第73個tile,941:1973代表該read在該tile中的x:y坐標信息;#0,若為多樣本的混合作為輸入樣本,則該標誌代表樣本的編號,用來區分個樣本中的reads;/1代表paired end中的前一個read。
第二行為read的序列。
緊接著下面兩行代表該read的質量。
第三行以“+”開頭,跟隨著該read的名稱(一般於@後面的內容相同),但有時可以省略,但“+”一定不能省。
第四行代表reads的質量。這一行可以詳細說一下!Illumina測序儀是按照螢光信號來判斷所測序的鹼基是哪一種的,例如紅黃藍綠分別對應ATCG,那么一旦出現一個紫色的信號該怎么判斷呢,因此對每個結果都有一個機率的問題。起初sanger中心用Phred quality score來衡量該read中每個鹼基的質量,既-10lgP ,其中P代表該鹼基被測序錯誤的機率,如果該鹼基測序出錯的機率為0.001,則Q應該為30,那么30+33=63,那么63對應的ASCii碼為“?”,則在第四行中該鹼基對應的質量代表值即為“?”,ASCii參考如圖2。
一般地,鹼基質量從
0-40,既ASCii碼為從 “!”(0+33)到“I”(40+33)。以上是sanger中心採用記錄read測序質量的方法,Illumina起初沒有完全依照sanger中心的方法來定義測序質量,而是把P換成了p/(1-p). 其他完全按照sanger的定義來做。但是他這形式在某些情況下是不準確的,可以看出當測序質量很高的情況下兩種形式幾乎沒區別,但低質量的鹼基則有區別了。
格式轉換
Biopython version 1.51 onwards (interconverts Sanger, Solexa and Illumina 1.3+)
EMBOSS version 6.1.0 patch 1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)
BioPerl version 1.6.1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)
BioRuby version 1.4.0 onwards (interconverts Sanger, Solexa and Illumina 1.3+)
BioJava version 1.7.1 to 1.8.x (interconverts Sanger, Solexa and Illumina 1.3+)
MAQ can convert from Solexa to Sanger (use this patch to support Illumina 1.3+ files).
fastx_toolkit The included fastq_quality_converter program can convert Illumina to Sanger
Illumina中套用
Illmina有多種測序儀,從早期的GA、Hiseq2000、Hiseq2500以及即將推廣的Hiseq X,Hiseq2000一個flowcell中包含8個lane,每個lane可以測一個文庫或多樣本的混合文庫,多樣本混合文庫如果需要後期區分則每個文庫需要一個獨特的標籤,即Index。其中一個lane包含3列(3個Swath),每一列又包含8個tile,每一個tile又會種下不同的cluster,如圖1所示為Hiseq2500的FlowCell的一個表面。