基於多源生物數據的長非編碼RNA預測方法研究

基於多源生物數據的長非編碼RNA預測方法研究

《基於多源生物數據的長非編碼RNA預測方法研究》是依託揚州大學,由孫磊擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於多源生物數據的長非編碼RNA預測方法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:孫磊
  • 依託單位:揚州大學
項目摘要,結題摘要,

項目摘要

長非編碼RNA(lncRNA)參與調節DNA甲基化、組蛋白修飾、染色質重構及作為小RNA前體,在相關疾病形成和生命活動中發揮著重要作用。lncRNA的基因結構和位置預測是lncRNA研究的關鍵性問題,是lncRNA功能分析的基礎。針對當前基於RNA-Seq數據的lncRNA預測準確度不高的現狀,本項目擬以二代測序讀段、基因組序列、基因注釋、蛋白質庫、質譜數據等多源生物數據為基礎,建立高可靠性的lncRNA預測方法。本項目將運用統計分析、數學建模、機器學習等生物信息學方法,從多源生物數據中提取核酸序列、轉錄因子綁定位點(TFBSs)、3'加尾信號等生物信息,建立重疊基因的轉錄本重建算法、低質量轉錄本過濾算法及ncRNA識別算法,以提高lncRNA預測的準確度。本項目將實現高效的lncRNA預測方法,該方法能夠為lncRNA功能分析提供可靠的基因結構和位置信息。

結題摘要

長非編碼RNA(long noncoding RNA, lncRNA)是一類具有重要生物學功能的非編碼RNA,在紅細胞生成、胚胎幹細胞全能性、癌症、胚胎髮育、神經發生和神經精神障礙等生物過程或疾病中發揮作用。對lncRNA的準確預測是lncRNA特徵分析、轉錄調控研究、功能和機制研究等後續研究的基礎,現已成為生物信息學研究的熱點。隨著高通量測序技術的發展和套用,產生了大量可用於lncRNA預測的生物數據。這些數據來源廣泛,主要包括基因注釋、基因組序列、表觀遺傳、轉錄因子綁定位點、物種間序列比對、保守性分值等。本項目有效利用以上多源生物數據,重點針對lncRNA預測相關的生物信息學方法展開研究,主要涉及lncRNA預測算法的研究和設計、lncRNA特徵分析、lncRNA特異性的轉錄因子綁定位點分析、lncRNA數據採集和計算平台的構建等。項目執行期間,成功設計並實現了基於支持向量機(support vector machine, SVM)的lncRNA預測方法、基於隨機森林(random forest, RF)的lncRNA預測方法,完成對lncRNA基因的特徵分析、lncRNA特異性的轉錄因子綁定位點分析,構建了基於高性能計算和雲計算的lncRNA數據採集和計算平台。本項目共資助發表正式刊物論文11篇,其中已發表SCI/EI檢索論文5篇,中文核心期刊論文2篇,另有3篇論文被錄用/在印(1篇EI檢索)。此外,在重要會議發表論文/摘要3篇。申請計算機軟體著作權1項。本項目的研究工作為lncRNA預測研究提供了良好的生物信息學方法和平台,加深了學界對lncRNA的認識。未來課題組將立足於該項目的研究工作,逐步擴充和豐富lncRNA信息平台的內容(包括算法工具和資料庫),不斷提出富有意義和創新性的生物信息學方法,為更加全面深入地研究和解析lncRNA提供支持。

相關詞條

熱門詞條

聯絡我們