知識介紹
SNP所表現的多態性只涉及到單個
鹼基的變異,這種變異可由單個鹼基的轉換(transition)或顛換(transversion)所引起,也可由鹼基的插入或缺失所致。但通常所說的SNP並不包括後兩種情況。
理論上講,SNP既可能是二等位多態性,也可能是3個或4個等位多態性,但實際上,後兩者非常少見,幾乎可以忽略。因此,通常所說的SNP都是二等位多態性的。這種變異可能是轉換(C←→T,在其
互補鏈上則為G←→A),也可能是顛換(C←→A,G←→T,C←→G,A←→T)。轉換的發生率總是明顯高於其它幾種變異,具有轉換型變異的SNP約占2/3,其它幾種變異的發生幾率相似。Wang等的研究也證明了這一點。轉換的幾率之所以高,可能是因為CpG二核苷酸上的胞嘧啶殘基是人類基因組中最易發生突變的位點,其中大多數是
甲基化的,可自發地脫去
氨基而形成
胸腺嘧啶。
在
基因組DNA中,任何鹼基均有可能發生變異,因此SNP既有可能在基因序列內,也有可能在基因以外的
非編碼序列上。總的來說,位於編碼區內的SNP(coding SNP,cSNP)比較少,因為在
外顯子內,其變異率僅及周圍序列的1/5。但它在遺傳性疾病研究中卻具有重要意義,因此cSNP的研究更受關注。
從對生物的遺傳性狀的影響上來看,cSNP又可分為2種:一種是同義cSNP(synonymous cSNP),即SNP所致的
編碼序列的改變並不影響其所翻譯的蛋白質的胺基酸序列,突變
鹼基與未突變鹼基的含義相同;另一種是非同義cSNP(non-synonymous cSNP),指鹼基序列的改變可使以其為藍本翻譯的蛋白質序列發生改變,從而影響了蛋白質的功能。這種改變常是導致生物性狀改變的直接原因。cSNP中約有一半為非同義cSNP。
先形成的SNP在人群中常有更高的頻率,後形成的SNP所占的比率較低。各地各民族人群中特定SNP並非一定都存在,其所占比率也不盡相同,但大約有85%應是共通的。
SNP在基因組內的形式:
一是遍布於基因組的大量單鹼基變異;
二是分布在基因編碼區(coding region) , 稱其為cSNP,屬功能性突變。
SNP在單個基因或整個基因組的分布是不均勻的:
(1)非轉錄序列要多於轉錄序列
(2)在轉錄區非同義突變的頻率, 比其他方式突變的頻率低得多。
SNP 的特點
在遺傳學分析中, SNP 作為一類遺傳標記得以廣泛套用, 主要源於這幾個特點:
(1)密度高
SNP在人類基因組的平均密度估計為 1\1000 bp , 在整個基因組的分布達 3×106個,遺傳距離為 2~3cM , 密度比微衛星標記更高, 可以在任何一個待研究基因的內部或附近提供一系列標記。
(2)富有代表性
某些位於基因內部的SNP 有可能直接影響蛋白質結構或表達水平, 因此, 它們可能代表疾病遺傳機理中的某些作用因素。SNP自身的特性決定了它更適合於對複雜性狀與疾病的遺傳解剖以及基於群體的基因識別等方面的研究。
(3)遺傳穩定性
與微衛星等重複序列多態性標記相比, SNP 具有更高的遺傳穩定性。
(4)易實現分析的自動化
SNP標記在人群中只有兩種等位型(allele) 。這樣在檢測時只需一個“ + \- ”或“全\無”的方式,而無須象檢測限制性片段長度多態性,微衛星那樣對片段的長度作出測量,這使得基於SNP的檢測分析方法易實現自動化。
數量分布
據估計,人類基因組中每1000個核苷酸就有一個SNP,人類30億鹼基中共有300萬以上的SNPs。SNP 遍布於整個人類基因組中,可位於
基因編碼區、基因的非編碼區以及基因間區(基因和基因之間)。
適於篩查
組成DNA的鹼基雖然有4種,但SNP一般只有兩種
鹼基組成,所以它是一種二態的標記,即二
等位基因(biallelic)。 由於SNP的
二態性,非此即彼,在基因組篩選中SNPs往往只需+/-的分析,而不用分析片段的長度,這就利於發展
自動化技術篩選或檢測SNPs。
容易估計
採用混和樣本估算
等位基因的頻率是種高效快速的策略。該策略的原理是:首先選擇參考樣本製作
標準曲線,然後將待測的混和樣本與標準曲線進行比較,根據所得信號的比例確定混和樣本中各種等位基因的頻率。
易於基因分型
SNPs 的
二態性,也有利於對其進行基因分型。對SNP進行基因分型包括三方面的內容:(1)鑑別
基因型所採用的化學反應,常用的技術手段包括:
DNA分子雜交、
引物延伸、
等位基因特異的寡核苷酸連線反應、側翼探針切割反應以及基於這些方法的變通技術;(2)完成這些化學反應所採用的模式,包括液相反應、固相支持物上進行的反應以及二者皆有的反應。(3)化學反應結束後,需要套用生物技術系統檢測反應結果。