《基於弱監督學習的水果品種信息自動抽取方法研究》是依託中國農業大學,由陳瑛擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於弱監督學習的水果品種信息自動抽取方法研究
- 依託單位:中國農業大學
- 項目負責人:陳瑛
- 項目類別:青年科學基金項目
項目摘要,結題摘要,
項目摘要
中國水果種質資源信息服務需要完整的水果品種名稱知識庫,而人工構建和維護這種知識庫費時費力。本項目擬採用信息抽取技術自動擴充已有的水果品種名稱知識庫。考慮到網路百科和電商廣告提供了大量的水果品種信息,本項目選擇對這兩種文本展開深入研究,提出了一種基於弱監督學習的水果品種信息抽取方法。首先,針對面向農業領域的中文分詞性能不足問題,提出了一種基於語言結構的詞項對提取方法,其根據話題結構理論進行詞項對的提取,避開了中文分詞問題。其次,針對已有知識庫覆蓋率低的問題,提出了一個基於圖的關係推理方法,其通過基於圖的推理技術有效利用不同結構文本中的冗餘信息進行關係識別。最後,針對遠距離關係識別中的特徵信息高噪音問題,提出了一種基於卷積神經網路的特徵提取方法,其利用話題結構從篇章角度有效進行特徵提取。本項目的深入研究將為農業信息化發展提供重要基礎,同時能夠促進基於弱監督學習機制的信息抽取技術理論研究的發展。
結題摘要
中國水果種質資源信息服務需要完整的水果品種名稱知識庫,而人工構建和維護這種知識庫費時費力。本課題針對網路百科和電商廣告這兩種文本提出了一種基於弱監督學習的水果品種信息抽取方法,自動擴充已有的水果品種名稱知識庫。首先,針對面向農業領域的中文分詞性能不足問題,提出了一種基於語言結構的詞項對提取方法,避開了中文分詞問題。其次,針對已有知識庫覆蓋率低的問題,提出了一個圖模型,其能夠利用列舉結構中的冗餘信息進行水果品種關係推理。最後,針對遠距離關係識別中的特徵信息高噪音問題,提出了一種基於卷積神經網路的特徵提取方法,其利用話題結構從篇章角度進行特徵提取。 根據研究需要,本課題標註了一個中文水果品種名稱語料庫,其規模如下:水果文檔100篇,其中,列舉結構~2800個,水果品種名稱列舉結構~500個。基於該語料庫,本課題提出的一個弱監督信息抽取方法,由此開發了一個高性能的水果品種信息抽取系統。同時,本課題將該信息抽取技術套用於食品安全領域,自動從中文新聞中提取食品安全事件相關信息。通過本課題的研究,我們在國內外著名會議或刊物上發布了4篇論文,申請了4項專利。 總之,本課題提出的基於弱監督的特定領域信息抽取方法為農業信息化發展提供重要基礎,同時促進了基於弱監督學習機制的信息抽取技術理論研究的發展。