多維表型變數遺傳數據的統計分析方法

多維表型變數遺傳數據的統計分析方法

《多維表型變數遺傳數據的統計分析方法》是依託東北師範大學,由朱文聖擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:多維表型變數遺傳數據的統計分析方法
  • 項目類別:青年科學基金項目
  • 項目負責人:朱文聖
  • 依託單位:東北師範大學
項目摘要,結題摘要,

項目摘要

在人類複雜疾病的基因定位研究中,並存疾病(comorbidity)是一個非常重要的問題,一個病人通常同時患有兩種或兩種以上的疾病,特別是精神疾病和行為疾病。例如,患有憂鬱症的病人通常還伴有焦慮與沮喪。為此,人們通常收集許多與之相關的表型變數進行研究。研究表明,同時分析多個表型變數比單獨的分析每個表型變數的功效要高,而多維表型變數的關聯分析要比單個表型變數的關聯分析複雜的多。儘管已有一些多維表型變數的分析方法,但它們忽視了表型變數間的結構信息及環境因素的影響,並存疾病的關聯分析研究仍處於探索階段。本項目中,我們利用貝葉斯網來進行表型變數間結構的學習,把其套用到多維表型變數的建模中,進而提高關聯分析的功效;同時我們調整環境因素的影響,給出基於環境因素的多維表型變數的非參數關聯分析方法;最後我們藉助於遺傳位點間的連鎖不平衡(LD)信息,提出基於單倍型的多維表型變數的關聯分析方法。

結題摘要

在人類複雜疾病的基因定位研究中,一個病人同時患有兩種或兩種以上疾病的現象越來越常見。研究者收集的數據中通常會有與疾病相關的許多表型變數。面臨含有多個表型變數的遺傳數據,傳統的統計方法只是單獨的對每一個變數做檢驗,然後進行多重檢驗的調整。然而疾病變數之間往往具有很強的相關性,多重檢驗必將導致功效的降低,不能很好的用於基因定位的關聯分析研究。已有研究表明,同時分析多個疾病變數勢必會增加定位致病基因的可能性。但是,在關聯分析研究中,對多個表型變數同時進行建模的統計方法還很少。本項目就是以此為動機,以複雜疾病基因定位研究中多疾病共存的問題及多表型變數的遺傳數據為驅動,提出了一系列用於多維表型變數遺傳數據關聯分析及其相關問題研究的統計方法。在考慮環境因素影響方面,我們首次給出了在多維表型變數關聯分析研究中調整環境協變數影響的非參數統計方法。我們的方法既能很好的控制檢驗的第一類錯誤,又明顯優於沒有調整環境因素影響的傳統方法。在縱向遺傳數據分析方面,我們提出了分析多維表型變數縱向數據的關聯分析方法。該方法的特點在於可以考慮基因-基因、基因-環境以及基因-時間之間的互動作用。在基於單倍型的關聯分析方面,我們通過考慮變數間的結構信息給出了單倍型之間相似性度量,根據該相似性度量,我們提出了基於U統計量的非參數關聯分析方法。在多個遺傳位點關聯分析的相依多重檢驗方面,我們首先提出了數據驅動的模型選擇方法對染色體進行分塊,然後把他人2009年發表在JRSSB上的相依多重檢驗方法進行了推廣並很好的套用到基因組關聯分析研究中。本項目不僅注重統計的理論與方法研究,還特別注重統計方法在實際中的套用及算法研究。我們的研究成果最終發表在JASA、BMC Bioinformatics等統計學及生物信息學國際著名雜誌上。

熱門詞條

聯絡我們