基於數據質量和覆蓋估計的deep Web數據源排序研究

項目摘要

現有技術在deep Web數據源排序方面，僅考慮了查詢接口網頁與主題關鍵字的相關度，忽視了同一主題的多個數據源之間在數據質量方面的差別以及之間的相互包含覆蓋關係。本項目研究具有低查詢費用和高樣本代表性的樣本查詢選擇方法，該方法利用關係屬性與值分布、屬性值聯繫規則挖掘和啟發式方法提高查詢效率和樣本對全局資料庫的代表性；研究deep Web數據源質量和覆蓋關係建模；研究由樣本查詢得到的樣本資料庫對各個數據源質量和覆蓋關係進行互動比較自動估計、增量估計、聚簇分析和最小覆蓋集計算；研究基於數據源質量和覆蓋估計，對同一主題的deep Web數據源排序的算法。該研究內容是海量Web信息搜尋和綜合利用的共性套用基礎理論問題。該研究成果將提高目前deep Web搜尋的排序質量和用戶體驗，可作為deep Web集成中數據源選擇的重要依據，可加深對隱藏的deep Web數據源的質量、分布及其演變的理解。

基於數據質量和覆蓋估計的deep Web數據源排序研究

基本介紹

熱門詞條