《生物醫學文本大數據中的疾病關係並行挖掘模型研究》是依託長沙理工大學,由楊黎擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:生物醫學文本大數據中的疾病關係並行挖掘模型研究
- 項目類別:青年科學基金項目
- 項目負責人:楊黎
- 依託單位:長沙理工大學
項目摘要,結題摘要,
項目摘要
本項目旨在通過深入分析生物醫學文本中非結構化數據的特點,研究面向疾病關係並行數據挖掘中模型訓練、模型推斷、實體標註以及語義挖掘等關鍵理論問題,設計並實現基於MapReduce的文本分類、分析和處理模型。首先將研究生物醫學文獻基於MapReduce的文本分類方法,提出基於MapReduce的並行化生物醫學命名實體識別的模型訓練及模型推斷算法,並在此基礎上對生物醫學文本中的疾病和相關實體進行規範化標註。其次將提出生物醫學文本中與疾病相關的語義關係挖掘和假設生成並行算法,構建基於文本大數據的疾病關係網路,為實現對疾病之間、疾病和基因、藥物和基因、疾病和藥物之間的假設生成進行預測提供理論基礎。最後將實現生物醫學文本大數據並行分析與處理原型系統,並基於混合語料測試集對本項目的理論和原型進行全面的性能評估與測試。
結題摘要
近年來,文本挖掘在生物醫學領域引起了廣泛的關注和研究。文本挖掘被認為是概念生物,驅動著生物醫學探索的假設。文本挖掘的目標在於自動的從文獻集合中發現小規模的假設。本項目針對生物醫學文獻建立大數據並行語義挖掘框架,以MEDLINE中的生物醫學文本為處理對象,在Hadoop數據處理平台的基礎上研究生物醫學文本大數據中文本分類、命名實體識別、語義關係抽取等關鍵技術,解決生物醫學文獻數量巨大導致樣本空間過大、命名實體識別訓練時間過長、命名實體識別結果精度低、關係抽取精確度和召回率低等瓶頸問題。具體研究內容包括:(1)在文本分類方面,研究Hadoop計算平台上的生物醫學文獻的LDA文本分類方法。(2)在命名實體識別方面,研究Hadoop計算平台上的命名實體識別方法,主要包括:利用半馬爾科夫條件隨機域模型對生物醫學文獻進行命名實體識別,將模型擴展為兩層,在每一層挖掘新的特徵,將雙層半馬爾科夫條件隨機域模型並行化,利用MapReduce框架提高L-BFGS算法在參數估計過程中的計算速度,利用MapReduce框架對Viterbi算法進行加速。(3)在關係抽取方面,研究基於有向子圖的深度挖掘算法,主要包括:在自建的GO_DO語料集上進行命名實體識別和本體標註,建立基於本體的網路,抽取有向子圖,使用並行有向子圖相似度計算方法來獲得各本體概念之間的關聯,採用擴展詞典的後處理方法對本體概念之間的關聯進行修正。構建疾病之間、疾病與基因功能關係、疾病與藥物的可視化網路,利用基於語義的文獻概念方法對實體之間的關係進行挖掘,在GO_DO語料集上進行實驗,並對實驗結果中揭示的實體之間的潛在關係進行驗證。在資助期間,這三點研究計畫均取得一定成果,通過對這三點的研究,生物醫學文獻的文本挖掘效率有了較大的提升。具體地,課題組提出採用雙層半馬爾科夫條件隨機場模型對疾病本體進行標註。半馬爾科夫條件隨機場在實際預測的過程中效率非常低,對於實時查詢來說,要求對輸入的query 1s之內得到預測結果。課題組基於MapReduce,提出了一種最佳化的雙層並行半馬爾科夫條件隨機場模型DP-Semi-CRFs。本課題解決了從在大數據平台上對生物醫學文獻進行文本分類、知識融合的問題。整體來看,通過三年的努力,已完成項目目標。