通用Web結構化信息檢索引擎的關鍵技術研究

項目摘要

Web上存在大量的結構化數據，大多處於深層Web資料庫中，很難被一般的搜尋引擎所檢索。如何利用這些數據來滿足用戶的信息需求是長期以來的一個研究問題。早期的數據集成法更適合特定領域的垂直搜尋引擎。近年來通用搜尋引擎中使用的數據抓取法是預計算出儘可能多的相關頁面，但由於這些頁面被作為普通HTML頁面一樣被索引和檢索，因而無法利用數據中原有的結構信息來改善檢索效果。針對兩者的主要缺陷，本項目的研究目標是研製一個跨領域的通用Web結構化信息檢索引擎，既能在檢索中充分利用結構信息，又是跨領域和通用的。具體地，我們將數據集成法和數據抓取法兩者的優勢結合在一起，並使用新的基於語言模型的結構化信息檢索模型，充分利用數據和查詢中的結構信息改善檢索效果，並能將結構化數據和非結構化數據的檢索統一在一個系統中，從而使得通用搜尋引擎即時搜尋Web上的各種結構的和非結構的數據成為可能。

結題摘要

Web上存在著大量的結構化數據，如深層網中Web資料庫，以及近年來不斷構建發展的各種知識庫和對非結構網頁做的各種語義標註等等。如何利用這些結構化數據更好地滿足用戶的信息需求甚至直接返回答案是下一代搜尋引擎一直致力於解決的一個主要問題。在本項目中，我們圍繞這一目標，從深層網和語義網（連結數據集）兩個部分分別進行了研究。在深層網方面，我們主要研究了如何識別和爬取深層網數據源，以及聯邦搜尋中深層網數據源的選擇問題。具體地，我們使用機器學習的方法構建了深層網數據源的識別和爬取器；提出了新的基於主題模型的深層網數據源選擇算法，並在國際信息檢索評測會議TREC FedWeb 2014的競賽中獲得了第二名的好成績，最主要的，我們提出的新方法為該問題提供了新的思路。在語義網（連結數據集）方面，我們主要側重於研究如何將結構化和非結構化數據的搜尋結合起來，用統一的檢索模型對混合數據集進行更有效的搜尋甚至自然語言問答。具體地，我們首先在往年INEX的基礎上進一步組織和參加了INEX 2013 Linked Data Track。我們設計生成了一個包含結構化數據（DBpedia和YAGO）和非結構化數據（Wikipedia）的混合數據集，大約90G，並設計生成了關鍵字和自然語言形式的測試查詢集，用眾包的方法產生查詢的標準答案。該評測集為結構化和非結構化數據上的關鍵字檢索和自然語言問答方面的研究提供了一個統一的測試比較平台。另外，我們在研究如何結合結構化的知識庫和非結構化的文本數據上的檢索時，提出了基於實體關係檢索模型，並用擴展的知識圖譜的數據模型來統一兩種數據表示的新的解決方法，並在大規模的知識圖譜（YAGO）和文本集（ClueWeb09）集上進行了初步的實驗，實驗結果顯示了該方法的優越性。描述這一工作的論文已被WSDM 2016會議正式接受。

通用Web結構化信息檢索引擎的關鍵技術研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條