《面向順式調控元件及模組識別的近似序列模式挖掘》是依託北京交通大學,由賈彩燕擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:面向順式調控元件及模組識別的近似序列模式挖掘
- 項目類別:青年科學基金項目
- 項目負責人:賈彩燕
- 依託單位:北京交通大學
項目摘要,結題摘要,
項目摘要
隨著新的高效實驗技術(如DNA測序、基因晶片技術)的出現,各類生物數據急劇增長,生物學相關領域的研究者面臨著數據越來越豐富但知識越來越匱乏的困境,迫切需要人們提出有效的方法和手段對已有的生物數據進行挖掘。另一方面,目前數據挖掘領域各基本方法的研究已日臻成熟,基於傳統事務資料庫的基本算法的研究已很難取得突破,需要新的研究動力給予刺激來推動數據挖掘自身的進展,面向生物數據的數據分析和知識獲取給數據挖掘研究提出了許多新的機遇和挑戰。在分子生物學領域,由於進化上的保守性各種功能相關的基本元件(如DNA序列上的順式調控元件和模組、選擇性剪下位點,SNP數據上的疾病關聯等)均表現出近似序列模式的特性,本項目主要針對順式調控元件和模組識別問題,對DNA序列上的近似序列模式進行挖掘,在幫助生物學家識別DNA序列中蘊含的基本元件或模組的同時進一步發展數據挖掘的概念和方法。
結題摘要
識別DNA序列上的轉錄因子識別位點(也稱為motif)是理解基因轉錄調控的關鍵步驟。本項目面向DNA序列集上的motif識別及組合motif識別問題,研究相關的近似序列模式挖掘算法。取得了以下成果:1、擴展了頻繁挖掘算法Apriori,給出了一種利用Apriori下封閉特性、快速挖掘DNA序列集中的近似頻繁模式的算法Apriori-Motif,該算法是首個成功利用廣度優先策略的motif識別方法,可以在未知motif長度的條件下快速挖掘出DNA序列集中蘊含的最大近似序列模式,即motif及相關位點;對Apriori-Motif方法進行擴展,使之可以用於識別DNA序列集中的組合motif。2、對廣泛使用的模式窮舉型motif挖掘算法Weeder進行改進,針對Weeder算法壓縮搜尋空間帶來的不能精確性問題和時間複雜度會隨著參數q急劇升高的問題,利用改進的suffix tree結構給出了一種精確的、快速發現DNA序列集中蘊含的motif及其相關位點的啟發式近似序列模式發現算法SUTMAPSTA,並建立了相應的網路版套用工具。3、利用複雜網路(G, E)圖模型,將DNA序列集上的motif識別問題轉化為網路上的稠密子圖發現問題,利用快速的複雜網路社區發現算法及貪心策略給出了一種快速、精準的motif識別算法,該方法在原核基因啟動子數據集RegulonDB及小鼠12組胚肝幹細胞轉錄因子全基因組ChIP-Seq數據集上取得了非常好的識別效果。4、針對現有motif發現方法對大規模全基因組轉錄因子識別位點深度測序數據集ChIP-Seq及ChIP-exo可擴展性差的問題,給出了一種基於取樣策略及全數據集再發現的motif識別策略,給出了基於該策略的大規模ChIP數據集motif識別算法FMotifEnum,該算法在4組人類轉錄因子ChIP-Seq數據集、12組小鼠胚肝幹細胞轉錄因子ChIP-Seq數據集及4組酵母和1組人的ChIP-exo數據集上取得了非常好的效果。5、對TFBSgroup進行改進,給出了一種結合DAN序列保守性和蛋白/DNA結合Potential的、新的motif識別方法,初步實驗取得了較好效果。6、結合生物信息學和數據挖掘當前的研究熱點,積極尋找新的研究增長點,給出了若干複雜網路社區發現、重疊社區發現算法,並在生物網路及社會網路分析中取得了較好的效果。