面向PDF文檔的數學公式搜尋技術研究

《面向PDF文檔的數學公式搜尋技術研究》是依託北京大學,由湯幟擔任負責人的面上項目。

基本介紹

  • 中文名:面向PDF文檔的數學公式搜尋技術研究
  • 項目負責人:湯幟
  • 項目類別:面上項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

數學公式凝聚著人類知識的精華,當前Web上公式資源日益豐富,加之公式自身結構複雜,公式搜尋成為搜尋引擎、知識管理等領域的一個研究熱點;另一方面現有公式搜尋技術主要面向Web資源(如MathML、LaTeX等),對於包含大量公式的主流文獻格式-PDF文檔,尚難以處理。為此本課題擬研究面向PDF文檔的公式搜尋技術,圍繞公式的識別抽取、查詢輸入、分詞索引、匹配排序等關鍵問題,研究公式定位與結構分析、基於層次泛化的分詞索引、基於多級匹配的相似度評價、上下文匹配、排序學習與重排序等算法。本課題將實現一個完整的公式搜尋流程,包括PDF文檔中公式的自動發現與結構化、一種新穎便捷的公式輸入(即從PDF文檔中直接拷貝)等方法,解決現有公式搜尋系統難以處理PDF文檔公式的難題;所提出的半語義結構樹構建、相似度計算等方法將有效提高公式搜尋的查全率與查準率,推動公式搜尋的技術進步,促進公式資源的挖掘利用。

結題摘要

公式具有層次、嵌套等複雜的結構,使得公式搜尋成為信息檢索領域的一個研究難點;現有公式搜尋技術主要面向Web資源(如MathML、LaTeX等),對於包含大量公式的主流文獻PDF文檔,尚難以處理。為此,本課題研究面向PDF文檔的公式搜尋技術,研究了公式的識別抽取、查詢輸入、分詞索引、匹配排序等關鍵科學問題。提出了基於樹結構匹配的公式相似性度量方法、基於公式關係圖的搜尋方法、基於公式演化的學習資源推薦方法、基於深度學習的公式識別方法。實現了一個完整的公式搜尋流程,尤其是實現了一種新穎便捷的公式輸入方法(即從PDF文檔中直接“拷貝”),解決了現有公式搜尋系統難以處理PDF文檔中公式的難題,推動了公式搜尋這一專業搜尋領域的技術進展。本研究團隊也成長為國際上主要的公式搜尋研究團隊之一。以上述研究成果為基礎,研發的公式搜尋技術獲得數學信息搜尋(即公式搜尋)國際競賽(2016年NTCIR12-MathIR)第一名的成績,並在模式識別領域的重要會議ICDAR 2017上舉辦了公式識別國際競賽。發表論文20篇,申請發明專利3項,獲軟體著作權1項,已經實際套用於一個電子書和一個題庫系統之中,在題庫構建、線上教育學習、數學知識學習資源推薦方面,表現出很好的套用前景。

相關詞條

熱門詞條

聯絡我們