替換記分矩陣是一個生物信息學的概念。替換記分矩陣是反映殘基之間相互替換率的矩陣。也就是說,他描述了殘基兩兩相似的量化關係。DNA序列有DNA序列的替換記分矩陣,蛋白質序列有蛋白質序列的替換記分矩陣,兩者不可混用。
基本介紹
- 中文名:替換記分矩陣
- 外文名:similarity matrix
- 所屬學科:生物信息學
- 主要作用:反映殘基之間相互替換率
定義,DNA序列的替換記分矩陣,蛋白質序列的替換記分矩陣,等價矩陣,PAM矩陣,BLOSUM矩陣,應該用PAM還是BLOSUM,遺傳密碼矩陣,疏水矩陣,
定義
矩陣中行和列分別是20種胺基酸或者四種鹼基,且兩兩之間有一個分值,根據這個分值就可以知道誰和誰相似,誰和誰不相似。替換記分矩陣有兩種,包括蛋白質的替換記分矩陣和核算的替換記分矩陣。撒的
DNA序列的替換記分矩陣
DNA序列的替換記分矩陣主要有三種,分別是等價矩陣,轉換-顛換矩陣,BLAST矩陣。
在從左到右,從上到下矩陣為ATCG到情況下等價矩陣為A A到G G對角線為1的矩陣。
轉換-顛換矩陣為嘌呤+嘧啶=-5,相同相遇為1的矩陣。嘌呤AG有兩個環。嘧啶CT有一個環。環數不變為轉換,環數改變為顛換。
BLAST矩陣為對角線為5,其餘為-4的矩陣。
蛋白質序列的替換記分矩陣
等價矩陣
純理論用,相同得1,不同得0。
PAM矩陣
PAM矩陣基於進化原理。如果兩種胺基酸替換頻繁,說明自然界容易接受這種替換,那么這一對胺基酸替換的得分就更高。PAM矩陣是21年蛋白質序列比較中最廣泛使用的記分方法之一。基礎的PAM-1矩陣反映的是進化產生的每一百個胺基酸平均發生一個突變的量值,由統計方法得到。PAM-1自乘n次,可以得到PAM-n,表示發生了更多次突變。我們需要根據要比較的序列之間的親緣關係遠近來選擇合適的PAM矩陣。如果序列親緣關係遠,也就是說序列間會有很多突變,那就選PAM後面跟一個大數字的矩陣。如果親緣關係近,也就是突變比較少,序列間大多數地方都是一樣的,那就選PAM後面跟一個小數字的矩陣。
PAM250矩陣對角線上的數值為匹配胺基酸的得分。其他位置上大於0的得分代表對應的一對胺基酸為相似胺基酸,小於0的是不相似的胺基酸。
BLOSUM矩陣
BLOSUM矩陣和PAM矩陣相同的是BLOSUM矩陣後面也帶有一個編號,有很多種BLOSUM矩陣。不同的是BLOSUM矩陣都是通過對大量符合特定要求的序列計算而來的。這點是不同的。PAM-1矩陣是基於相似度大於85%的序列計算產生的,也就是通過關係較近的序列計算出來的。那些進化距離較遠的矩陣,如PAM-250,是通過PAM-1自乘得到的。也就是說BLOSUM矩陣的相似性是根據真實數據產生的,而PAM矩陣是通過矩陣自乘外推而來的。和PAM矩陣另一個不同之處是BLOSUM矩陣的編號。這些編號,比如BLOSUM-80中是80,代表這個矩陣是由一制度大於80%的序列計算而來的。同理,BLOSUM62是指這個矩陣是由一致度大於62%的序列計算而來的。因此,BLOSUM後面跟一個小數字的矩陣適合用於比較相似度低的序列,也就是親緣關係遠的序列;而BLOSUM後面跟一個大數字的矩陣適合比較相似度高的序列,也就是親緣關係較近的序列。
BLOSUM矩陣和PAM矩陣差不多,但是裡面的數值是不一樣的。同樣,大於0的得分代表對應的一對胺基酸為相似的胺基酸,小於0的是不相似的胺基酸。
應該用PAM還是BLOSUM
理想情況下親緣關係較近的序列之間比較用PAM數小的矩陣或者BLSUM數大的矩陣,親緣關係遠的反之。然而由於PAM250是由自乘得來的,所以準確度受到一定限制。而對於關係較近的序列之間的比較用PAM或者BLOSUM矩陣做出的比對結果差別不大。如果不知道要比對的序列親緣關係遠近,建議花時間試錯或者用BLOSUM62。
遺傳密碼矩陣
他是通過計算一個胺基酸轉換成另一個胺基酸所需變化的密碼子的數目得到的。矩陣的值對應應為此付出的代價。比如,蛋氨酸(Met)到酪氨酸(TYR)三個密碼子都要變,則代價為3.
遺傳密碼矩陣一般用於進化距離的計算,他的優點是計算結果可以直接用於描繪進化樹。但是他在蛋白質序列比對,尤其是相似程度較低的蛋白質序列比對中很少被使用。
疏水矩陣
根據胺基酸殘疾替換前後疏水性的變化得到的矩陣。若一次胺基酸替換導致疏水特性不發生太大的變化則這種替換得分高,否則反之。此矩陣物理意義明確,有一定理化性質依據,適用於偏重蛋白質功能方面的序列比對。在這個矩陣里胺基酸按照疏水性排列,前面是親水的。