簡介
全基因組關聯分析(Genome-wide association study)是指在人類全基因組範圍內找出存在的序列變異,即
單核苷酸多態性(
SNP),從中篩選出與疾病相關的SNPs。
研究歷史
2005年,Science雜誌報導了第一項具有年齡相關性的
黃斑變性GWAS研究[1]。
之後陸續出現了有關冠心病[2]、肥胖[3][4][5]、
2型糖尿病[6][7][8]、
甘油三酯[9]、精神分裂症以及
相關表型[3][4][5]的報導。
Genetic Epidemiology、Biometrics等雜誌也在遺傳統計學角度對GWAS進行了數據統計學方向的探討和研究,以實現低成本、高效益地找到
遺傳標記與疾病間的關聯,同時解決GWAS分析過程中出現的假陽性問題。
分析原理
基於無關個體的關聯分析
基於家系的關聯研究
在研究基於家系的樣本時,採用傳遞不平衡檢驗(TDT)分析
遺傳標記與疾病數量
表型和質量表型的關聯可以排除人群混雜對於
關聯分析的影響,但其在發現陽性關聯的檢驗方面不如相同樣本量的
病例對照研究有效。
單體型分析研究的必要性[11]:多位點單體型分析能夠發現單體型-疾病表型之間的關聯,這種關聯要明顯強於單個位點-疾病表型之間的關聯。單體型分析能夠發現非TagSNPs與疾病之間的因果關係。
表型選擇
1、選擇
遺傳度較高的疾病或者
表型進行檢測能夠提升遺傳學關聯研究的把握度[12]。
2、由於有時病症很難測量或是多種病症混雜在一起造成疾病狀態的分辨困難,研究疾病相關的數量表型要優於研究疾病狀態。
3、由於測量數量表型的難易程度和該表型的遺傳度相關,通過控制
測量誤差、噪音和總體變異能夠加強數量
表型變異與遺傳因素的比例關係,因此一般選擇測量簡單準確並且遺傳度相對較高的數量表型。
設計類型
單個階段研究
單個階段研究即在有了足夠大的病例和對照樣本數量後,一次性地對其所有選中的
SNP進行
基因分型,然後分析每個SNP與基本的關聯,計算其關聯強度和
OR值。由於樣本數量
需求量大,單階段研究基因分型一般耗資巨大。
兩個或多個階段研究
採用小樣本數量進行第一階段的全基因組範圍SNP
基因分型,統計分析過後一般能夠篩選少量陽性
SNPs,之後的第二階段再在更大數量的樣本中對這些陽性SNPs進行基因分型,最後整合兩個階段的結果進行分析。研究證明DNA pool和
微陣列試劑盒均能夠降低基因分型的工作量,能夠進行低成本高效益的
SNP篩選。
多重檢驗校正
遞減調整法(Step-Down Adjustment)
模擬運算法(Permutation)
控制錯誤發現率法(False discovery rate)
重複
由於
GWAS研究的各種研究設計方法以及遺傳統計方法無法從根本上消除人群混雜、多重比較造成的假陽性,我們需要通過重複研究來保證
遺傳標記與疾病間的真關聯。
1、通過增大樣本數量來提高檢驗效率,增加與疾病相關聯的
SNPs的機率。
2、在兩個人群中分別對樣本中所有的
SNP進行
基因分型,之後再交換重複測量對方得到的陽性SNPs。這樣做首先保證了低
假陰性率,隨後在較大樣本中重複
陽性結果又最大程度地避免了假陽性的產生。
套用前景
GWAS為人們打開了一扇通往研究複雜疾病的大門,將在患者全基因組範圍內檢測出的
SNP位點與對照組進行比較,找出所有的變異
等位基因頻率,從而避免了像
候選基因策略一樣需要預先假設致病基因。同時,GWAS研究讓我們找到了許多從前未曾發現的基因以及染色體區域,為複雜疾病的發病機制提供了更多的線索。
存在問題
1、人群混雜(Population Stratification)是在大樣本研究中導致假陽性、
假陰性結果出現的重要原因之一[14]。使用分層分數法(Stratification-score approach)控制人群分層、運用統計分析手段控制人群混雜的影響、採用基於
家系的關聯研究均能夠避免人群混雜對關聯結果分析的影響。
2、解釋基因-變異-環境因素之間的相互作用關係需要使用
GWAS對更多微效的與疾病關聯的
基因變異進行研究。
3、
數據共享是使用GWAS得到
遺傳標記與疾病確切關聯的必要手段,儘管難度很大,但是在研究複雜疾病的
遺傳變異中能夠發揮重要的作用。
參考文獻
[1] ^ Klein RJ, Zeiss C, Chew EY,ect. Complement factor H polymorphism in age-related macular degeneration. Science, 2005, 308(5720): 385−389.
[2] ^ Samani NJ, Erdmann J, Hall AS, ect. Genomewide associationanalysis of coronary artery disease. N Engl J Med, 2007,357(5): 443−453.
[3] ^ 3.0 3.1 Herbert A, Gerry NP, McQueen MB, ect. A common geneticvariant is associated with adult and childhood obesity.Science, 2006, 312(5771): 279−283.
[4] ^ 4.0 4.1 Rosskopf D, Bornhorst A, Rimmbach C, ect. Comment on “A common genetic variant is associatedwith adult and childhood obesity”. Science, 2007,315(5809): 187: author reply 187.
[5] ^ 5.0 5.1 Frayling TM, Timpson NJ, Weedon MN, ect. A common variant in the FTO gene is associated with body mass index and predisposes to childhood and adult obesity. Science, 2007,316(5826): 889−894.
[6] ^ Saxena R, Voight BF, Lyssenko V, ect. Genome-wide association analysis identifies loci for type 2 diabetes and triglyceride levels. Science, 2007, 316(5829): 1331−1336.
[7] ^ Ubeda M, Rukstalis JM, Habener JF. Inhibition of cyclindependent kinase 5 activity protects pancreatic beta cells from glucotoxicity. J Biol Chem, 2006, 281(39): 28858−28864.
[8] ^ Foley AC, Mercola M. Heart induction by Wnt antagonists depends on the homeodomain transcription factor Hex. Genes Dev, 2005, 19(3): 387−396.
[9] ^ Samani NJ, Erdmann J, Hall AS, Hengstenberg C,ect. Genomewide association analysis of coronary artery disease. N Engl J Med, 2007, 357(5): 443−453.
[10] ^ Spielman RS, McGinnis RE, Ewens WJ. Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM). Am J Hum Genet, 1993, 52(3): 506−516.
[11] ^ Newton-Cheh C, Hirschhorn JN. Genetic association studies of complex traits: design and analysis issues. Mutat Res, 2005, 573(1-2): 54−69.
[12] ^ Sham PC, Cherny SS, Purcell S, Hewitt JK. Power of linkage versus association analysis of quantitative traits, by use of variance-components models, for sibship data. Am J Hum Genet, 2000, 66(5): 1616−1630.
[13] ^ Chanock SJ, Manolio T, Boehnke M, ect. Replicating genotype-phenotype associations. Nature, 2007, 447(7145): 655−660.
[14] ^ YAN Wei-Li, GU Dong-Feng. Issues on association studies on complex disease. Acta Genetica Sinica, 2004, 31(5): 533−537.