《面向科技文獻的引用摘要生成關鍵技術研究》是依託北京大學,由李素建擔任負責人的面上項目。
基本介紹
- 中文名:面向科技文獻的引用摘要生成關鍵技術研究
- 項目負責人:李素建
- 項目類別:面上項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
科技文獻的爆炸式增長使得自動摘要成為減輕科研人員負擔的一項關鍵技術,而論文引用能從多個角度去幫助理解論文的方法、套用、貢獻和局限性。因此,本申請的目標是探究引用的真正動機和生成式摘要技術。在此基礎上定義了不同於過去的引用摘要任務,不限於論文本身內容,而進一步依據引用的各個維度對論文的影響進行總結。研究內容主要包括:(1)研究面向科技文獻的信息抽取技術,克服了傳統信息抽取技術高度依賴人工的局限性,對特定領域的實體、事件、關係等進行自動提取;(2)提出一套科技文獻的篇章標註規範,引入依存結構對論文段落進行篇章表示,並結合深度學習方法探索有效的篇章分析算法;(3)圍繞引用摘要任務進行引用的多維度分析,其中包括引用重要性、引用內容、引用傾向性等方面;(4)研究基於模板的引用摘要生成框架,研究以概念為骨架的模板生成技術、基於篇章分析的文本連貫性計算模型、基於模板和引用維度分析的引用摘要生成技術。
結題摘要
本課題圍繞科技文獻展開對科技論文的分析和自動摘要研究,四年來的主要研究內容歸納為如下三方面:(1)提出一套科技文獻的篇章標註規範,引入依存結構對論文段落進行篇章表示,並結合深度學習方法探索有效的篇章分析方法;(2)研究科技論文的自動分析,從內容、引用內容、引用重要性等各個方面進行分析;(3)研究自動摘要和文本生成方法,提出引用摘要生成方法,並改進生成方法的錯誤事實問題。課題基本按項目預定的計畫進行,達到了項目預期的目標,並完成了項目預期的研究成果。基於以上研究內容,形成了理論結合實踐、規範和資源共建、技術實用化的一整套比較系統的研究成果。(1)理論成果:圍繞社會媒體數據進行熱點話題發現和摘要的相關研究成果整理論文31篇發表在國內外會議和期刊上。其中,期刊論文6篇,會議論文25篇,在國際高水平會議ACL,AAAI,EMNLP, COLING上共發表論文13篇。(2)規範和資源建設:構建和完善了一套篇章依存關係標註規範,並在此規範下完成798篇科技論文摘要的篇章依存標註,506篇摘要被標註了兩遍。EDU標註採用兩遍標註原則,保持兩個標註員的一致性。(3)系統實踐:基於深度學習算法,開發了自動引用摘要、自動篇章分析、自動關鍵字分析的demo,並和百度公司合作進行研究自動閱讀理解技術,相關技術已產品化。(4)學術交流:與倫斯勒理工大學、香港理工大學、中央民族大學、北京理工大學、微軟研究院、浪潮公司、Baidu公司等進行學術交流、資源轉讓與技術合作等。(5)人才培養:指導了2名博士生、4名碩士生、6名本科生順利畢業。所指導的碩士生中1名獲得國家獎學金,1名研究生獲得ACL會議的傑出論文獎。多名本科生獲北京大學信息學院優秀本科畢業論文。