原因學習:理論及在全基因組關聯分析中的套用

原因學習:理論及在全基因組關聯分析中的套用

《原因學習:理論及在全基因組關聯分析中的套用》是依託西安電子科技大學,由張軍英擔任項目負責人的面上項目。

基本介紹

  • 中文名:原因學習:理論及在全基因組關聯分析中的套用
  • 項目類別:面上項目
  • 項目負責人:張軍英
  • 依託單位:西安電子科技大學
中文摘要,結題摘要,

中文摘要

疾病在分子水平上原因的發現是國際研究前沿、國家發展戰略和重大交叉學科的首選研究領域之一,需要從大量生物數據中學習疾病原因。然而如何定義原因始終困擾和限制了學習理論的發展。在不試圖解決原因定義的情況下,本項目針對高通量生物數據,獨創性地提出從數據中學習出原因的理論、方法和算法,並開發軟體分析平台。基於原因是客觀存在的、獨立於數據和技術,以穩定性測度因素的客觀性,以具有最大穩定性的因素最有可能成為原因為線索進行搜尋,通過層層剝離準則去表及里地學習可能存在的多個原因。整個學習過程是無假設的,從而達到從數據中學習出客觀存在的原因和因果關係的目的。其理論體系(原因性模式的定義、以原因學習為目的、純統計學的無假設學習)是對現行學習理論(模式被含糊定義、以模式分類為目的、在假設空間中尋優)的重要發展,並運用於2型糖尿病全基因組關聯分析和建模上,為對疾病的生物學病理研究提供可靠依據。

結題摘要

全面完成研究計畫並有所拓展,進展如下: 一、原因學習 1. (致病原因的定義)針對致病原因(模式)沒有嚴格定義卻要從數據中發現的問題,基於“原因是客觀的、獨立於數據和技術”的原則,給出了嚴格數學定義,解決了“原因是什麼”的問題。 2. (致病因素的評價)研究了單基因致病、多基因致病、單因素致病和多因素致病各種複雜情況下的致病原因的基本性質,提出了基於數據驅動的致病基因評價體系。 二、全基因組SNP關聯分析 3. (SNP數據仿真系統)建立了全基因組SNP數據仿真系統,解決了多種複雜疾病模型、多致病因素以及多致病基因的全基因組SNP數據仿真問題; 4. (致病原因的搜尋)提出了複雜疾病多因素致病以及多基因聯合致病的致病基因搜尋算法,並與傳統方法進行了系統比較,解決了在全基因組範圍高效搜尋和發現複雜疾病的致病因素以及聯合致病的致病基因問題; 5. (調控變異的搜尋與可視化)在基因表達調控網路構建基礎上,通過建立基因調控變異網路,解決了依生物網路是典型複雜網路的特點構建基因調控網路及基於基因調控變異網路識別致病基因及其基因之間調控關係的問題; 6. (模體識別)鑒於在生物網路中頻繁出現模體具有生物功能的特性,提出了基於局部拓撲特性聚類的模體識別方法,解決了網路模體的快速識別問題。 7. (與疾病相關lncRNA預測)以已知的lncRNA與疾病關係為基礎,通過建立lncRNA與疾病的二部網路,生成與lncRNA相關疾病網路(lncDN)和與疾病相關的lncRNA網路(DlncN),通過對網路拓撲性質的分析,揭示了複雜疾病在lncRNA層面上的關係以及lncRNA在導致複雜疾病發生過程上的關係。 三、對本項目的拓展 8. 在拷貝數變異數據的仿真、體細胞拷貝數變異的識別、拷貝數變異各種方法的比較等方面也進行了有益的研究並取得了成果。 9. 針對基因表達數據具有穩定分布的重託尾特性這一特點,研究了穩定分布的基本性質,得出了穩定分布是特徵域中具有最大特徵熵的分布的結論。 10. 全基因組關聯分析是超高維空間組合搜尋問題,研究了多種組合最佳化問題的求解,解決了超大規模圖最短路問題和旅行商問題的高效搜尋。 11.複雜疾病的診斷往往是一個複雜多分類問題,提出了將複雜多分類問題分解成多個簡單分類問題的方法;提出了具有高魯棒特性的數據聚類算法等。

相關詞條

熱門詞條

聯絡我們