《基於條件隨機場的生物信息學方法》是依託中國科學院數學與系統科學研究院,由吳凌雲擔任項目負責人的面上項目。
基本介紹
- 中文名:基於條件隨機場的生物信息學方法
- 項目類別:面上項目
- 項目負責人:吳凌雲
- 依託單位:中國科學院數學與系統科學研究院
項目摘要,結題摘要,
項目摘要
海量生物數據和複雜數據結構對現有的生物信息學模型和算法提出了巨大的挑戰。隱馬爾可夫模型是生物信息學中非常重要的工具之一,常用於序列數據的標識和分類等。條件隨機場是隱馬爾可夫模型的推廣,適用範圍和效果都好於隱馬爾可夫模型,在語言識別和圖像處理等領域有著廣泛的套用,但目前在生物信息學領域的套用研究還不多。本項目將基於條件隨機場方法,研究單核苷酸多態性(SNP)晶片數據分析、蛋白質結構比較、生物分子網路的功能模組和通路研究三個重要的生物信息學問題。這三個問題分別代表了生物信息學中常見的三種數據類型:一維序列、三維結構和網路。針對這三個問題研究基於條件隨機場的方法,對解決其他生物信息學問題有很好的借鑑作用。本項目將針對生物信息學問題的特點,研究條件隨機場模型和算法,解決其中的最佳化理論問題,同時促進基於條件隨機場的生物信息學方法的發展,推動國內數學、生物信息學、計算機科學理論及算法的交叉研究。
結題摘要
在本項目中,我們對條件隨機場在生物信息學領域的套用進行了廣泛的探索,發展了一系列基於條件隨機場的生物信息學方法,特別是較為系統的生物分子網路比較分析工具。目前已有的條件隨機場在生物信息學中的套用主要集中在序列相關問題中。除了序列,生物信息學研究中主要的數據類型還包括結構(如蛋白質結構、RNA結構等)和網路(如蛋白質相互作用網路、基因調控網路等)。在與這三類數據類型密切相關的生物信息學問題中,我們分別選擇了一些具有代表性的重要問題作為本項目的主要研究目標。在網路方面,我們建立了嶄新的基於條件隨機場模型的網路查詢和比對方法,和文獻中的現有方法相比,新方法的優點有:無插入和刪除數量限制;能夠處理複雜的網路類型;能夠處理有向網路;能整合各種不同來源的信息;計算速度和準確度都要高於現有方法。我們還建立了基於條件隨機場模型的網路評估方法,能夠評價網路與生物實驗數據之間的一致性,可以用於網路功能注釋、尋找疾病診斷和預測的網路生物標識等。在序列方面,我們建立了基於條件隨機場模型的基因表達時序數據分析方法,能夠對基因表達時序數據進行二維聚類。我們還建立了基於條件隨機場模型的SNP數據分析工具,能夠整合多層次信息同時進行基因型、雜合性缺失(LOH)和拷貝數變異(CNV)的推斷。在結構方面,我們建立了基於條件隨機場模型的蛋白質結構比較方法。本項目的許多研究成果都已經編製成了R語言軟體包,通過網際網路免費提供下載。為了便於生物學家使用,我們還建立了網路查詢和比對的網路計算平台。通過本項目研究表明,條件隨機場在處理序列和網路類型的生物數據時在建模和算法方面具有較為顯著的優勢:在建模時比較靈活、可以整合各種類型的信息;擁有豐富的成熟算法、可以針對不同模型特點設計高效算法。另一方面,本項目的研究也顯示條件隨機場不太適合用於生物分子空間結構的建模。