《生物醫學事件抽取的觸發詞驅動與論元特徵泛化方法》是依託大連理工大學,由王健擔任項目負責人的專項基金項目。
基本介紹
- 中文名:生物醫學事件抽取的觸發詞驅動與論元特徵泛化方法
- 依託單位:大連理工大學
- 項目類別:專項基金項目
- 項目負責人:王健
項目摘要,結題摘要,
項目摘要
海量生物醫學文獻資源隱含著大量有價值的醫學知識,採用生物醫學事件抽取技術從中提取可供生物醫學研究利用的新知識成為新興研究熱點。現有生物醫學事件抽取研究對觸發詞識別的關注度不夠,又缺乏面對數據稀疏的特徵泛化能力。針對上述問題:(1)以生物醫學事件觸發詞為核心,研究各類上下文環境特徵、句法與語義特徵對觸發詞的辨識度,特別關注謂詞參數結構(PAS)特徵在觸發詞判別中的獨特作用,構建豐富全面且具個性化的特徵集。(2)構建基於分治策略的事件觸發詞特徵融合模型,既避免特徵缺失,又以獨特方式發掘不同類型特徵的作用,提高觸發詞識別性能。(3)結合標註語料和未標註語料,引入生物醫學事件特徵耦合泛化(Befg)的半監督學習方法生成更具泛化性的事件論元檢測特徵,解決生物醫學事件抽取的數據稀疏問題。最終提高生物醫學事件抽取性能,推進抽取成果在系統生物學等領域的實際套用和普及。
結題摘要
隨著生物醫學文獻數量的飛速增長,如何運用信息抽取技術從海量文獻中抽取有用信息備受研究者關注。其中,生物醫學事件抽取在構建通路、豐富資料庫等領域具有廣泛的套用價值,成為研究熱點。本項目以生物醫學文獻為數據源,圍繞生物醫學事件抽取的主題任務展開關鍵技術的研究,旨在從海量生物醫學文獻中有效提取和組織結構化信息,發現潛在的知識供生物醫學領域研究與套用。項目研究中以蛋白質互動作用關係(Protein-Protein Interaction,PPI)抽取為基礎,分別使用豐富特徵與多分類器融合方法,結合主動學習和多核融合的方法進行蛋白質相互作用關係抽取。在此基礎上,深入探討複雜的生物醫學事件抽取技術方法,分別使用基於混合模型、基於深層句法分析方法解決生物事件觸發詞抽取存在的歧義與性能低下問題;針對已標註語料稀缺、特徵稀疏等問題,採用自訓練與半監督的特徵耦合泛化方法進行事件抽取,有效地提高了生物醫學事件抽取的整體性能。此外,本項目還在生物醫學知識發現和蛋白質複合物識別等方面進行了一定的延伸探索,採用基於語義關係抽取和深度圖搜尋方法提取疾病知識;引入監督學習的分類方法,結合集成生物文獻蛋白質關係的策略建立了蛋白質複合物識別系統。 本項目開發完成了一個生物醫學事件抽取系統,相關研究取得2項計算機軟體著作權登記證書(登記號:2014SR183643,2014SR156358),獲遼寧省科學技術三等獎1項。發表和錄用論文合計6篇,其中,在國際期刊BMC Medical Genomics發表1篇(SCI檢索,影響因子3.91);被本領域頂級會議IEEE International Conference on Bioinformatics & Biomedicine 2014錄用1篇(EI);被國際期刊Journal of Computational Information Systems錄用1篇(EI刊源);被《中文信息學報》等國核心心期刊錄用3篇。培養博士生2名,碩士生5名(已畢業2名)。