生物序列數據的統計模型和算法

生物序列數據的統計模型和算法

《生物序列數據的統計模型和算法》是依託南京航空航天大學,由劉心聲擔任項目負責人的面上項目。

基本介紹

  • 中文名:生物序列數據的統計模型和算法
  • 項目類別:面上項目
  • 項目負責人:劉心聲
  • 依託單位:南京航空航天大學
項目摘要,結題摘要,

項目摘要

生物序列數據的基本特徵決定了生物序列的建模必然是基於數理統計學理論。本項目以大數據統計計算為基礎,在貝葉斯統計分析的理論框架之下,系統地研究生物序列數據的統計分析、建模和計算,實現對生物序列信息,特別是蛋白質數據信息的推斷。主要內容包括建立針對性的胺基酸替代矩陣,發展更加穩健精確的刻畫蛋白質序列相似性的測度,對自然界中蛋白質序列、家族及結構類型的空間分布進行估計,進而對功能蛋白質的序列、結構、功能和進化以及它們之間的關係進行推斷和預測,完善或創立針對生物大分子序列數據的統計分析、建模的理論和方法。該研究具有國際先進性,且有重要的理論意義和套用背景。

結題摘要

隨著可用的生物序列與結構數據的爆炸式增長,利用數理統計等數學理論和方法去推斷具有生物學含義的信息成為當務之急,這正是本項目的立足點。本項目以大數據統計計算為基礎,在數理統計、隨機過程等理論的框架之下,研究生物序列數據的統計分析、動態建模和計算,實現對生物序列信息,特別是蛋白質數據信息的推斷。我們利用兩類不同蛋白質資料庫(Pfam和SCOP)之間的映射,分別研究了包含於不同類摺疊子中的蛋白質家族規模的分布,估計了不同規模的Pfam家族貢獻新摺疊子的機率分布,估計出覆蓋當前Pfam資料庫所需的摺疊子總數等重要問題;我們提出了基於胺基酸相似性的密碼子置換模型,利用連續時間的馬爾可夫過程來描述數據單元的變化,通過極大似然法進行參數估計,並將新模型套用到真實數據集,討論新模型對數據的適用性。我們還討論了怎樣基於密碼子三個位置上發生置換的差異性和同義密碼子的使用偏性等重要特性來建立置換模型,探測物種進化的正向選擇。 此外,由於蛋白質等生物大分子的進化需要更高級的數學動態模型來刻畫,生物分子的功能需要通過它們之間的相互作用和合作來實現,因此項目研究也包括相關的隨機進化動力學模型。我們探討了各種條件下不同類型個體間的相互作用以及合作策略的演化,取得了一些重要結果。例如,我們定義了一種新的合作機制,稱之為持續合作(persistent cooperation)。持續合作型蛋白質一方面會提供合作,另一方面通過釋放某種抑制素使背叛個體的數量得以控制,從而實現分子的生物學功能。 本項目的研究主要基於機率統計的模型和方法,因此對相關的機率統計模型和算法的討論,對本項目是必需的,也是重要的組成部分,例如,我們研究了對具有多元t分布的Tobit和多項Probit因子分析模型參數的極大似然估計、使用EM算法處理具有高斯分布的有限混合因子分析模型中的非正態誤差等相關問題。 本項目研究對解析功能蛋白質的序列、結構、功能和進化之間的關係具有重要意義,完善和豐富了針對生物大分子序列數據建模的理論和方法。

相關詞條

熱門詞條

聯絡我們