基於圖結構的文獻挖掘算法研究

項目摘要

傳統的文本表示方法是建立在詞袋（Bag-Of-Words）表示方法上的，即認為文檔是一個關於詞或短語的離散集合。經典的信息檢索模型、文本分類方法和文獻挖掘算法等無一不是建立在這種表示方法之上的。然而這種表示抹殺了文檔內部描述單元之間的句法、語義上聯繫，抹殺了自然語言固有的內在本質。實際上，單詞之間有句法、語義上互相依賴，句子之間有前後、篇章的依賴，只有圖或樹等複雜結構才能有效地表示。本項目將圍繞這一基本問題，開展二個方面的研究：一，針對實際問題，如何利用圖結構有效地表示文本；二，在圖結構表示的基礎上，如何有效地開展相關文獻挖掘算法的研究，包括基於圖結構的自動摘要、文本推理、評論信息的情感分析、文本分類的研究。項目研究的領域以生物文獻挖掘為主，同時也利用TAC國際評測提供的數據，以驗證算法的通用性。

基於圖結構的文獻挖掘算法研究

基本介紹

相關詞條

熱門詞條