《面向基因組相關性研究的遷移學習理論與方法》是依託西安交通大學,由李麗敏擔任項目負責人的面上項目。
基本介紹
- 中文名:面向基因組相關性研究的遷移學習理論與方法
- 項目類別:面上項目
- 項目負責人:李麗敏
- 依託單位:西安交通大學
中文摘要,結題摘要,
中文摘要
基因組相關性研究是近年來生物信息中的一個研究熱點,其主要目的是在特定物種的整個基因組上尋找與某種疾病相關的基因或位點。由於數據收集的高成本或不可抗拒因素,對某些物種或種群的研究必然面臨小樣本或強噪聲的困境。在該項目中,我們創新性地構想疾病的某些特徵可以在不同物種或種群之間遷移,以及在同一物種或種群中不同疾病的特徵之間也可以遷移,從而可以用一個領域中相對成熟的知識幫助另一個領域中的數據解譯或學習。我們擬利用遷移學習的思想來研究這些問題。為了將遷移學習原理套用於基因組相關性研究中,我們聚焦研究以下三個尚未解決的問題:(1)遷移在何種情況下可以進行;(2)多源域如何實施遷移學習;(3)如何避免負遷移。本項目擬通過解決所述三個問題來發展適用於基因組相關性研究的創新遷移學習理論,以期為基因組相關性研究提供新的理論與方法支撐,並以擬南芥的基因組相關性研究為實例進行討論和驗證,從而套用於其他物種和疾病。
結題摘要
本課題是數學,計算機和生物信息學的交叉學科,主要基於基因組相關性研究探索遷移學習的理論和方法,試圖以此為工具更好得尋找和疾病有關的基因位點。我們側重於數學模型和算法。該項目四年來的主要的研究成果有:1. 我們針對遷移學習中的領域適應問題,提出了方差匹配(Covariance matching)的半監督學習方法DACoM。2. 我們針對多源數據融合問題,我們創新性得提出了UMDS方法。3. 我們特別針對基因組數據中兩個領域特徵空間不同的問題,提出了異質判別MMD方法(DMMD),用於不同平台的基因組數據分類。4. 我們針對藥物和基因的相互關係預測問題,提出了基於分塊稀疏的多任務學習方法BBSS。5. 我們針對乳腺癌子型分類問題,提出了融合多源數據的ECMC方法。6. 我們針對藥物蛋白質相互關係,提出了多源數據融合的方法MLRE。以上這些方法從理論及模型的角度給出遷移學習及其在基因組相關性學習中套用的一些方案,可以促進遷移學習和生物信息學相關領域的發展。本課題基本完成原定計畫,達到了預期的研究目標。