數學表達式資源獲取與檢索模型研究

數學表達式資源獲取與檢索模型研究

《數學表達式資源獲取與檢索模型研究》是依託河北大學,由田學東擔任項目負責人的面上項目。

基本介紹

  • 中文名:數學表達式資源獲取與檢索模型研究
  • 項目類別:面上項目
  • 項目負責人:田學東
  • 依託單位:河北大學
項目摘要,結題摘要,

項目摘要

目前的檢索技術還無法進行數學表達式內容的檢索,阻礙了以數學表達式為主要成分的科技信息資源的共享與交流。針對數學表達式符號二維分布且頻繁利用空間關係隱含表達運算關係等不同於一維普通文本的特殊屬性,對含有數學表達式的科技文獻資源的蒐集、整理與檢索問題展開研究,建立數學表達式資源獲取與檢索模型。. 首先,在數學資源搜尋與整理中,提出將蒐集、檢測到的代碼型和圖像型資源統籌處理的方法,將兩種資源分別採用不同的方法規範化為自行研究定義的數學表達式描述結構FDS(Formula Description Structure),以保證資源收集的完整性,並為檢索特徵提取奠定基礎。. 其次,針對數學表達式檢索這一複雜二維模式的特殊檢索問題,提出基於FDS的,融合空間、語法和語義特徵的表達式加權檢索特徵提取方法,研究與構建數學表達式索引與匹配的層次模型。. 本課題研究提出的數學表達式資源獲取與檢索模型將為實現高性能的數學搜尋引擎打下理論和套用基礎。

結題摘要

由於科技文獻中數學表達式這一關鍵成分的特殊屬性,現有的面向文本的檢索技術還難以實現以數學表達式為查詢關鍵字的科技信息檢索,這無疑給與日俱增的科技信息交流帶來不便。目前,數學表達式檢索理論和技術尚處於研究階段。研究獲取含有數學表達式的科技信息資源,建立數學表達式索引匹配模型,實現數學表達式檢索,是目前信息檢索領域亟待解決的重要理論和套用問題。主要研究內容和重要結果包括: 1.在數學表達式資源獲取研究中,對科技文獻中數學表達式資源的檢測、採集與規範化進行了研究,定義了數學表達式描述結構FDS,分別提出了代碼型公式資源CFR和圖像型公式資源IFR規範化為FDS的方法和算法,實現了主流數學資源的獲取和規範化。 2.研究、建立了面向數學表達式檢索需求的數學檢索特徵提取方法和算法,提出了基於FDS的數學表達式符號、語法和語義特徵提取算法,為實現數學檢索打下了基礎。 3.在數學表達式檢索模型的研究中,分別提出了基於FDS、基於層次結構特徵、基於Trie樹和基於互關聯後繼樹的數學表達式檢索模型,建立了適應數學表達式特點的索引結構和查詢模式,設計了數學表達式及其文檔的匹配算法,並實驗驗證了模型和算法的有效性。 4.在數學表達式檢索結果排序研究中,提出了基於猶豫模糊集的數學表達式檢索結果相似度排序方法,利用猶豫模糊集在多屬性模式評價方面的優勢,定義猶豫模糊隸屬度評價查詢公式與結果公式的相似度,實現檢索結果的有序輸出,使其更好地滿足查詢需求。 本項目面向數學表達式這一特殊二維模式,有針對性地將新理論套用於數學檢索問題,研究數學表達式資源獲取和檢索模型,所取得成果豐富了信息檢索理論和套用,對於科技信息檢索、數學搜尋引擎等領域有著重要、廣泛的理論和套用價值。

相關詞條

熱門詞條

聯絡我們