《轉錄因子結合位點序列基元挖掘的計算方法研究》是依託同濟大學,由黃德雙擔任項目負責人的面上項目。
基本介紹
- 中文名:轉錄因子結合位點序列基元挖掘的計算方法研究
- 項目類別:面上項目
- 項目負責人:黃德雙
- 依託單位:同濟大學
中文摘要,結題摘要,
中文摘要
轉錄因子能夠調控基因表達的模式,因而是細胞調控網路的關鍵組成部分之一。轉錄因子和DNA序列間的結合關係是具有序列偏好性的,轉錄因子對於不同核苷酸序列的相對結合偏好通常被稱為轉錄因子結合位點基元,由於它們在基因表達機制理解中的核心地位,對於生物學的研究具有極其重要的意義。在本項目中,我們將系統地研究轉錄因子結合位點基元的計算挖掘方法。首先,提出一種新的判別方法用於在兩組序列間尋找高質量的基元初始解,這種方法採用受試者工作特徵曲線下面積來判別解的判別能力,並引入了新穎的搜尋策略。然後,我們將基元生成模型參數學習問題轉化為對比訓練過程,從而可以通過將觀測數據和人工數據對比,最優地學習模型參數。最後,我們將判別基元模型訓練轉化為多示例學習問題,從而可以更適當地建模其潛在的推斷問題,並方便引入新的機器學習和最佳化計算工具。本項目的成功實施將有助於認識調控的內在機制,並幫助進一步從系統層次來理解細胞活動
結題摘要
轉錄因子可以與基因上的調控序列發生綁定,從而激活或抑制目標基因的表達。由於它們在基因表達機制中的核心地位,對於生物學的研究具有極其重要的意義。在本項目中,我們將系統地研究轉錄因子結合位點基元的計算挖掘方法。首先,提出一種基於受試者工作特徵曲線下面積的新型判別方法,並結合新穎的搜尋策略用於尋找兩組序列間的高質量基元初始解。其次,將基元生成模型參數學習問題轉化為對比訓練過程,從而可以將觀測數據和人工數據進行對比來最優學習模型參數。最後,將基元判別模型轉化為多示例學習問題,從空間關係和高階關係來建模其潛在的推斷問題,並引入新的機器學習和最佳化計算工具。本項目的成功實施將有助於認識基因表達調控的內在機制,並幫助從系統層次來理解細胞活動以及解釋疾病的發病機理。