隱馬爾可夫模型及其在基因結構變異中的套用

《隱馬爾可夫模型及其在基因結構變異中的套用》是依託山東大學,由王效強擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:隱馬爾可夫模型及其在基因結構變異中的套用
  • 項目類別:青年科學基金項目
  • 項目負責人:王效強
  • 依託單位:山東大學
中文摘要,結題摘要,

中文摘要

本項目致力於在大數據環境下對基因拷貝數變異進行統計模型的研究。首先,在統計模型中我們將考慮多個樣本之間的親緣關係,並把此模型嵌入到多元隱馬爾可夫模型中。其次,由於在用經典算法估計最大似然值和推斷模型中的隱狀態時變得十分困難,為此在本課題中一些統計技術如變分相似法和複合似然估計法將被深入研究。.本課題的研究目標是:第一,建立合適的多元隱馬爾可夫模型;第二,在處理大數據過程中通過研究最大似然估計值入手,從推斷基因拷貝數的運算速度和精確度兩方面找到最佳方案。.項目所涉統計模型源起於近幾年對遺傳學與基因組學領域中基因拷貝數變異的研究,因此工作的開展對了解生物疾病機理以及遺傳育種都有著重要的意義。同時,隱馬爾可夫模型本身又是非常重要並且用途極為廣泛的統計模型。所以,該研究工作不僅會有助於生命科學的發展,同時也有著豐富統計學中所涉領域的基礎理論, 為處理大數據提供快速精確處理思路提供參考。

結題摘要

拷貝數變異是基因結構化變異的主要組成部分。由於拷貝數的變化與疾病、性狀等存在著密切的關聯性,所以拷貝數的檢測一直是生物學領域研究的熱點。尤其近年來全基因組測序、單細胞測序等新技術給檢測拷貝數帶來的不確定性更是促進了統計技術的發展。在此背景下,我們考慮了隱馬爾可夫模型並在統計計算領域也取得進展。相關研究內容如下:一、建立耦合隱馬爾可夫模型,並引入多樣本間的親緣關係;二、用極大似然估計和貝葉斯推斷兩類方法對負二項分布中的參數進行估計;三、對項目中提出的統計推斷算法從數學理論角度對其收斂性進行了求證。其中建立的耦合隱馬爾可夫模型及其結合的變分EM算法已被驗證為是一種速度快、精度高的算法。此部分工作的研究成果有論文發表和軟體著作權。另一方面,負二項分布是被廣泛套用於擬合過分散計數數據的機率模型,同時也是測序數據檢測拷貝數套用最多的模型。為提高統計推斷的效率,我們分別在類EM算法和貝葉斯框架下開發了關於負二項分布的具有閉式解的參數估計方法。其中的類EM算法與傳統方法相比被驗證為是一種具有同樣精度但速度更快的方法。此外,本項目中還在算法收斂性方面從兩個角度做出了一定的創新:首先,我們從理論上證明了項目中提出的有關負二項分布分類模型如混合模型、隱馬爾可夫等模型參數推斷的類EM算法的收斂性;同時,分枝過程的收斂性如中偏差、大偏差理論也被考查,此類證明方法期望能在後續工作中為統計推斷的收斂性提供重要參考。 因為隱馬爾可夫模型和負二項分布模型在眾多套用統計學領域都存在關廣泛套用,所以本項目中在拷貝數變異領域所取得的結論很容易推廣到其他科學領域。其中,有關負二項分布的算法在地震頻數、交通事故、飛機故障頻數等數據中已取得良好的分類效果。本項目中提出的統計模型和算法旨在提高有關隱馬爾可夫模型和負二項分布模型的計算效率,這在大數據環境下解決數據處理的計算問題有一定的參考意義。

相關詞條

熱門詞條

聯絡我們