全基因組關聯分析:簡介,研究歷史,分析原理,基於無關個體的關聯分析,基於家系的關聯

全基因組關聯分析是套用基因組中數以百萬計的單核苷酸多態性(single nucleotide polymorphism，SNP)為分子遺傳標記，進行全基因組水平上的對照分析或相關性分析，通過比較發現影響複雜性狀的基因變異的一種新策略。

基本介紹

中文名：全基因組關聯分析
外文名：Genome-wide association study
研究歷史：黃斑變性GWAS研
病例研究設計：質量性狀

簡介,研究歷史,分析原理,基於無關個體的關聯分析,基於家系的關聯研究,表型選擇,設計類型,單個階段研究,兩個或多個階段研究,多重檢驗校正,重複,套用前景,存在問題,參考文獻,

簡介

全基因組關聯分析（Genome-wide association study）是指在人類全基因組範圍內找出存在的序列變異，即單核苷酸多態性（SNP），從中篩選出與疾病相關的SNPs。

研究歷史

2005年，Science雜誌報導了第一項具有年齡相關性的黃斑變性 GWAS研究[1]。

之後陸續出現了有關冠心病[2]、肥胖[3][4][5]、2型糖尿病[6][7][8]、甘油三酯[9]、精神分裂症以及相關表型[3][4][5]的報導。

Genetic Epidemiology、Biometrics等雜誌也在遺傳統計學角度對GWAS進行了數據統計學方向的探討和研究，以實現低成本、高效益地找到遺傳標記與疾病間的關聯，同時解決GWAS分析過程中出現的假陽性問題。

分析原理

基於無關個體的關聯分析

病例對照研究設計：主要用來研究質量性狀，即是否患病。基於隨機人群的關聯分析：主要用來研究數量性狀

基於家系的關聯研究

在研究基於家系的樣本時，採用傳遞不平衡檢驗（TDT）分析遺傳標記與疾病數量表型和質量表型的關聯可以排除人群混雜對於關聯分析的影響，但其在發現陽性關聯的檢驗方面不如相同樣本量的病例對照研究有效。

FBAT是運用十分廣泛的基於家系的統計分析工具，能夠分析質量性狀及數量性狀、調整混雜因素、分析基因-環境相互作用、分析單倍型、調整多重比較等。

單體型分析研究的必要性[11]：多位點單體型分析能夠發現單體型-疾病表型之間的關聯，這種關聯要明顯強於單個位點-疾病表型之間的關聯。單體型分析能夠發現非TagSNPs與疾病之間的因果關係。

表型選擇

1、選擇遺傳度較高的疾病或者表型進行檢測能夠提升遺傳學關聯研究的把握度[12]。

2、由於有時病症很難測量或是多種病症混雜在一起造成疾病狀態的分辨困難，研究疾病相關的數量表型要優於研究疾病狀態。

3、由於測量數量表型的難易程度和該表型的遺傳度相關，通過控制測量誤差、噪音和總體變異能夠加強數量表型變異與遺傳因素的比例關係，因此一般選擇測量簡單準確並且遺傳度相對較高的數量表型。

設計類型

單個階段研究

單個階段研究即在有了足夠大的病例和對照樣本數量後，一次性地對其所有選中的SNP進行基因分型，然後分析每個SNP與基本的關聯，計算其關聯強度和OR值。由於樣本數量需求量大，單階段研究基因分型一般耗資巨大。

兩個或多個階段研究

採用小樣本數量進行第一階段的全基因組範圍SNP基因分型，統計分析過後一般能夠篩選少量陽性SNPs，之後的第二階段再在更大數量的樣本中對這些陽性SNPs進行基因分型，最後整合兩個階段的結果進行分析。研究證明DNA pool和微陣列試劑盒均能夠降低基因分型的工作量，能夠進行低成本高效益的SNP篩選。

多重檢驗校正

Bonferroni校正法(Bonferroni)

遞減調整法（Step-Down Adjustment）

模擬運算法(Permutation)

控制錯誤發現率法(False discovery rate)

重複

由於GWAS研究的各種研究設計方法以及遺傳統計方法無法從根本上消除人群混雜、多重比較造成的假陽性，我們需要通過重複研究來保證遺傳標記與疾病間的真關聯。

1、通過增大樣本數量來提高檢驗效率，增加與疾病相關聯的SNPs的機率。

2、在兩個人群中分別對樣本中所有的SNP進行基因分型，之後再交換重複測量對方得到的陽性SNPs。這樣做首先保證了低假陰性率，隨後在較大樣本中重複陽性結果又最大程度地避免了假陽性的產生。

套用前景

GWAS為人們打開了一扇通往研究複雜疾病的大門，將在患者全基因組範圍內檢測出的SNP位點與對照組進行比較，找出所有的變異等位基因頻率，從而避免了像候選基因策略一樣需要預先假設致病基因。同時，GWAS研究讓我們找到了許多從前未曾發現的基因以及染色體區域，為複雜疾病的發病機制提供了更多的線索。

存在問題

1、人群混雜（Population Stratification）是在大樣本研究中導致假陽性、假陰性結果出現的重要原因之一[14]。使用分層分數法（Stratification-score approach）控制人群分層、運用統計分析手段控制人群混雜的影響、採用基於家系的關聯研究均能夠避免人群混雜對關聯結果分析的影響。

2、解釋基因-變異-環境因素之間的相互作用關係需要使用GWAS對更多微效的與疾病關聯的基因變異進行研究。

3、數據共享是使用GWAS得到遺傳標記與疾病確切關聯的必要手段，儘管難度很大，但是在研究複雜疾病的遺傳變異中能夠發揮重要的作用。

參考文獻

[1] ^ Klein RJ, Zeiss C, Chew EY,ect. Complement factor H polymorphism in age-related macular degeneration. Science, 2005, 308(5720): 385−389.

[2] ^ Samani NJ, Erdmann J, Hall AS, ect. Genomewide associationanalysis of coronary artery disease. N Engl J Med, 2007,357(5): 443−453.

[3] ^ 3.0 3.1 Herbert A, Gerry NP, McQueen MB, ect. A common geneticvariant is associated with adult and childhood obesity.Science, 2006, 312(5771): 279−283.

[4] ^ 4.0 4.1 Rosskopf D, Bornhorst A, Rimmbach C, ect. Comment on “A common genetic variant is associatedwith adult and childhood obesity”. Science, 2007,315(5809): 187: author reply 187.

[5] ^ 5.0 5.1 Frayling TM, Timpson NJ, Weedon MN, ect. A common variant in the FTO gene is associated with body mass index and predisposes to childhood and adult obesity. Science, 2007,316(5826): 889−894.

[6] ^ Saxena R, Voight BF, Lyssenko V, ect. Genome-wide association analysis identifies loci for type 2 diabetes and triglyceride levels. Science, 2007, 316(5829): 1331−1336.

[7] ^ Ubeda M, Rukstalis JM, Habener JF. Inhibition of cyclindependent kinase 5 activity protects pancreatic beta cells from glucotoxicity. J Biol Chem, 2006, 281(39): 28858−28864.

[8] ^ Foley AC, Mercola M. Heart induction by Wnt antagonists depends on the homeodomain transcription factor Hex. Genes Dev, 2005, 19(3): 387−396.

[9] ^ Samani NJ, Erdmann J, Hall AS, Hengstenberg C,ect. Genomewide association analysis of coronary artery disease. N Engl J Med, 2007, 357(5): 443−453.

[10] ^ Spielman RS, McGinnis RE, Ewens WJ. Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM). Am J Hum Genet, 1993, 52(3): 506−516.

[11] ^ Newton-Cheh C, Hirschhorn JN. Genetic association studies of complex traits: design and analysis issues. Mutat Res, 2005, 573(1-2): 54−69.

[12] ^ Sham PC, Cherny SS, Purcell S, Hewitt JK. Power of linkage versus association analysis of quantitative traits, by use of variance-components models, for sibship data. Am J Hum Genet, 2000, 66(5): 1616−1630.

[13] ^ Chanock SJ, Manolio T, Boehnke M, ect. Replicating genotype-phenotype associations. Nature, 2007, 447(7145): 655−660.

[14] ^ YAN Wei-Li, GU Dong-Feng. Issues on association studies on complex disease. Acta Genetica Sinica, 2004, 31(5): 533−537.

全基因組關聯分析