fastQ格式

概念

FastQ格式是序列格式中常見的一種，FASTQ格式的序列一般都包含有四行，第一行由'@'開始，後面跟著序列的描述信息，這點跟FASTA格式是一樣的。第二行是序列。第三行由'+'開始，後面也可以跟著序列的描述信息。第四行是第二行序列的質量評價（quality values，註：應該是測序的質量評價），字元數跟第二行的序列是相等的。

FASTQ格式例子

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

+

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

例如在NCBI看到的FASTQ格式如下：

@HWUSI-EAS100R:6:73:941:1973#0/1

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT

+HWUSI-EAS100R:6:73:941:1973#0/1

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6

其中第一行以@開頭，後面是reads的ID以及其他信息，例如上例中 HWUSI-EAS100R代表Illumina設備名稱，6代表flowcell中的第六個lane，73代表第六個lane中的第73個tile，941:1973代表該read在該tile中的x：y坐標信息；#0，若為多樣本的混合作為輸入樣本，則該標誌代表樣本的編號，用來區分個樣本中的reads；/1代表paired end中的前一個read。

第二行為read的序列。

緊接著下面兩行代表該read的質量。

第三行以“+”開頭，跟隨著該read的名稱（一般於@後面的內容相同），但有時可以省略，但“+”一定不能省。

第四行代表reads的質量。這一行可以詳細說一下！Illumina測序儀是按照螢光信號來判斷所測序的鹼基是哪一種的，例如紅黃藍綠分別對應ATCG，那么一旦出現一個紫色的信號該怎么判斷呢，因此對每個結果都有一個機率的問題。起初sanger中心用Phred quality score來衡量該read中每個鹼基的質量，既-10lgP ，其中P代表該鹼基被測序錯誤的機率，如果該鹼基測序出錯的機率為0.001，則Q應該為30，那么30+33=63，那么63對應的ASCii碼為“？”，則在第四行中該鹼基對應的質量代表值即為“？”，ASCii參考如圖2。

一般地，鹼基質量從

0-40，既ASCii碼為從 “！”（0+33）到“I”(40+33）。以上是sanger中心採用記錄read測序質量的方法，Illumina起初沒有完全依照sanger中心的方法來定義測序質量，而是把P換成了p/(1-p). 其他完全按照sanger的定義來做。但是他這形式在某些情況下是不準確的，可以看出當測序質量很高的情況下兩種形式幾乎沒區別，但低質量的鹼基則有區別了。

fastQ格式

基本介紹

概念

FASTQ格式例子

格式轉換

Illumina中套用

相關詞條

熱門詞條