基於條件隨機域切分模型的基因組詞語組合挖掘研究

項目摘要

本申請從語言學角度，將生物全基因組作為由詞語模式組成的序列進行整體分析，利用計算語言學方法結合DNA序列的生物特性，進行全基因組的詞語模式挖掘。首先在已有的生物資料庫的基礎上，將現有的基因組功能位點作為標準詞條，深入研究了基於統計的特異頻率字元串挖掘、串聯重複序列挖掘、候選生物詞典構建、基於機器學習的DNA序列最優切分策略研究、詞語模式泛化等一系列關鍵技術並最終建立多物種的層次詞語模式詞典。在最為關鍵的序列最優切分算法中，引入了條件隨機域模型，綜合利用局部、全局特徵來挖掘詞語切分的最優路徑。在模型學習問題上，建立可與之有效映射的英文序列切分模型，利用遷移學習策略解決了DNA序列分析缺乏標準訓練數據這一瓶頸問題。.本申請的相關研究成果是全面理解全基因組的結構、功能的重要基礎，同時可將現有的大量計算生物學問題從粗粒度的鹼基層面的研究提升到詞語層面的研究，從而將生命科學的發展起到積極的促進作用。

結題摘要

本申請從語言學角度，對生物全基因組序列進行分詞，從而達到“理解”DNA語言的目的。為實現這一目標，本課題組完成了三方面的研究：1、利用英文文本作為模擬數據，深入研究了未知詞語特徵的前提下，小字元集序列切分的特徵選擇問題，最終利於邊界熵以及整詞特徵獲得了92%的切分準確率；2、我們在已有的生物資料庫的基礎上，將現有的基因組功能位點作為標準詞條，深入研究了基於統計的特異頻率字元串挖掘、串聯重複序列挖掘、候選生物詞典構建、基於條件雖機場模型的DNA序列切分策略研究、基於遷移學習的DNA序列最優切分策略研究、詞語模式泛化等一系列關鍵技術並最終建立了多個適合不同物種的全基因組切分模型；3、探索了DNA詞語序列在生物信息學上的套用。我們建立了細菌層次詞語模式詞典，研究了基於詞條的全基因組比對算法及系統進化分析。本申請實現了語言學角度的DNA序列分詞，該研究成果是全面理解全基因組的結構、功能的重要基礎。但同時本項目也面臨著生物學知識匱乏，算法的結果難以評價及最佳化的問題。因此本項目的研究將是一個長期過程，將隨著生物學、生物信息學、生命科學的領域的發展而逐漸成熟。

基於條件隨機域切分模型的基因組詞語組合挖掘研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條