《多核系統下調控模式識別的MapReduce模型及算法研究》是依託西安電子科技大學,由霍紅衛擔任項目負責人的面上項目。
基本介紹
- 中文名:多核系統下調控模式識別的MapReduce模型及算法研究
- 項目類別:面上項目
- 項目負責人:霍紅衛
- 依託單位:西安電子科技大學
中文摘要,結題摘要,
中文摘要
調控模式識別是生物信息學研究領域中的一個基本問題。研究表明,現有方法對保守模式預測的準確程度,無論在鹼基水平還是在結合位點水平都較低。在本項目中,我們以改善調控模式的識別算法的準確度和性能為基本目標,充分利用當前多核系統的處理器所提供的高效的計算性能以及多執行緒和多進程的並行處理技術,提出一種基於多核系統的MapReduce模型;其次,引入位點之間的局部構象信息,建立TFBS與轉錄起始位點之間距離的分布特徵及約束關係,從而建立調控模式的模體模型。提出一種調控模式識別的MapReduce算法,降低算法的時間複雜度,提高對於長序列和特徵微弱模式識別的準確程度;最後,通過對JASPAR、TRANSFAC等資料庫的統計特徵分析,研究調控模式位點的分布特徵,設計有效和精確的P-value計算方法。在此基礎上,建立多核系統上有效解決數據密集型和計算密集型問題的一種新的計算模型。
結題摘要
(1) 項目的背景 轉錄因子結合位點 (Transcription Factor Binding Site,TFBS)又被稱為順式調控元件 (Cis-regulatory Element)。在生物信息學中也稱為模式或模體 (motif)。識別這些控制基因表達的順式調控元件,以及表征它們與各自轉錄因子的相互作用,不僅對於構建轉錄調控網路,而且對於解釋有機物複雜的起源和進化有著重要的意義。 (2) 主要研究內容 本項目以改善調控模式識別算法的準確性和性能為基本目標,研究調控模式識別的高效精確算法;建立MapReduce框架下調控模式識別的模型,提高對於長序列、大字元集和特徵微弱模式識別的準確程度;研究轉錄因子結合位點分布的統計特徵,建立調控模式識別的統計方法;實現一個調控模式識別的軟體系統原型。 (3) 重要結果 在模體發現的精確算法和近似算法方面做出了較好的工作。主要包括:提出了MapReduce框架下大數據集(ChIP-seq數據集)上子串挖掘方法和模體發現算法MCES;提出了MapReduce框架下精確模體識別的數據劃分方法PMSPMR,PMSPMR算法具有良好的可擴展性,加速比接近於線性;建立了模體stem首個正則表達式表示方式,提出了大字元集(蛋白質序列)上高效的stem搜尋算法(StemFinder);提出了結合機率分析的模體發現的近似算法PairMotif+。建立了高階熵壓縮的參考基因組序列的自索引結構,並基於此結構進行空間高效的短讀序列比對。 (4) 關鍵數據及科學意義 我們在本領域重要刊物IEEE/ACM Transactions on Computational Biology and Bioinformatics (JCR = 2)等和重要會議IEEE International Conference on Bioinformatics and Biomedicine (CCF B類會議)和IEEE Data Compression Conference (CCF B類會議) 等發表了15篇論文(其中8篇論文為刊物論文,7篇為會議論文),SCI檢索6篇,EI檢索9篇。開發了可在Google和GitHub上訪問的軟體。這些研究成果為進一步研究高通量測序數據集的結構模體發現,在基因組水平上探索基因的表達調控機制奠定了較好的基礎。