面向PDF文檔的數學公式搜尋技術研究

項目摘要

數學公式凝聚著人類知識的精華，當前Web上公式資源日益豐富，加之公式自身結構複雜，公式搜尋成為搜尋引擎、知識管理等領域的一個研究熱點；另一方面現有公式搜尋技術主要面向Web資源（如MathML、LaTeX等），對於包含大量公式的主流文獻格式-PDF文檔，尚難以處理。為此本課題擬研究面向PDF文檔的公式搜尋技術，圍繞公式的識別抽取、查詢輸入、分詞索引、匹配排序等關鍵問題，研究公式定位與結構分析、基於層次泛化的分詞索引、基於多級匹配的相似度評價、上下文匹配、排序學習與重排序等算法。本課題將實現一個完整的公式搜尋流程，包括PDF文檔中公式的自動發現與結構化、一種新穎便捷的公式輸入(即從PDF文檔中直接拷貝)等方法，解決現有公式搜尋系統難以處理PDF文檔公式的難題；所提出的半語義結構樹構建、相似度計算等方法將有效提高公式搜尋的查全率與查準率，推動公式搜尋的技術進步，促進公式資源的挖掘利用。

結題摘要

公式具有層次、嵌套等複雜的結構，使得公式搜尋成為信息檢索領域的一個研究難點；現有公式搜尋技術主要面向Web資源（如MathML、LaTeX等），對於包含大量公式的主流文獻PDF文檔，尚難以處理。為此，本課題研究面向PDF文檔的公式搜尋技術，研究了公式的識別抽取、查詢輸入、分詞索引、匹配排序等關鍵科學問題。提出了基於樹結構匹配的公式相似性度量方法、基於公式關係圖的搜尋方法、基於公式演化的學習資源推薦方法、基於深度學習的公式識別方法。實現了一個完整的公式搜尋流程，尤其是實現了一種新穎便捷的公式輸入方法(即從PDF文檔中直接“拷貝”)，解決了現有公式搜尋系統難以處理PDF文檔中公式的難題,推動了公式搜尋這一專業搜尋領域的技術進展。本研究團隊也成長為國際上主要的公式搜尋研究團隊之一。以上述研究成果為基礎，研發的公式搜尋技術獲得數學信息搜尋（即公式搜尋）國際競賽（2016年NTCIR12-MathIR）第一名的成績，並在模式識別領域的重要會議ICDAR 2017上舉辦了公式識別國際競賽。發表論文20篇，申請發明專利3項，獲軟體著作權1項，已經實際套用於一個電子書和一個題庫系統之中，在題庫構建、線上教育學習、數學知識學習資源推薦方面，表現出很好的套用前景。

面向PDF文檔的數學公式搜尋技術研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條