查全率

查全率

查全率(Recall Ratio)是指從資料庫內檢出的相關的信息量與總量的比率。查全率絕對值很難計算,只能根據資料庫內容、數量來估算。

查全率是衡量某一檢索系統從文獻集合中檢出相關文獻成功度的一項指標,即檢出的相關文獻與全部相關文獻的百分比。

基本介紹

  • 中文名:查全率
  • 外文名:Recall Ratio
  • 別稱檢全率
影響因素,評估方法,局限性,提高方法,

影響因素

影響查全率的因素從文獻存貯來看,主要有:
①資料庫收錄文獻信息不全;
②索引辭彙缺乏控制和專指性;
③詞表結構不完整;
④詞間關係模糊或不正確;
⑤標引不詳;
⑥標引前後不一致;
⑦標引人員遺漏了原文的重要概念或用詞不當等。
此外,從信息檢索來看,主要有:
①檢索策略過於簡單;
②選詞和進行邏輯組配不當;
③檢索途徑和方法太少;
④檢索人員業務不熟練和缺乏耐心;
⑤檢索系統不具備截詞功能和反饋功能,檢索時不能全面地描述檢索要求等。

評估方法

查全率的評估至少包括:
①初步查全結束時。當初步查全工作結束時,必須對初步查全專利文獻庫的查全率進行評估,該查全率是表明能否結束查全工作的依據。若此時查全率不夠理想(例如不足50%),則需要繼續進行查全工作,反之若達到預期的查全率,則可結束查全工作。
②去噪過程結束時。去噪過程也被稱為“查準”的過程,其是對查全資料庫進行去除與分析主題無關的專利文獻的過程,該過程中不可避免地誤刪有效文獻,為了檢驗去噪過程中是否誤刪了過多的有效文獻,在去噪工作結束時必須對去噪之後的專利文獻集合進行查全率的評估。

局限性

查全率的局限性主要表現在:它是檢索出的相關信息量與存儲在檢索系統中的全部相關信息量之比,但系統中相關信息量究竟有多少一般是不確知的,只能估計;另外,查全率或多或少具有“假設”的局限性,這種“假沒”是指檢索出的村{關信息對用戶具有同等價值,但實際並非如此,對於用戶來說,信息的相關程度在某種意義上比它的數量重要得多。

提高方法

1.擴大檢索課題的目標。使用主要概念,排除次要概念。
2.跨庫檢索。如使用CNKI的跨庫檢索功能實現對不同類型文獻的一次性檢索。
3.逐步擴大檢索途徑的範圍。依次選擇題名、關鍵字、文摘、主題、任意欄位(全文)往往能逐步提高查全率。通常用分類號也可檢索到更多信息。例如,在某館藏文獻中以題名“素描”為檢索途徑,結果為798種;而以素描的分類號“J214”為檢索途徑,結果為865種。顯然,用分類檢索結果更全。
4.取消或者放寬限定條件。例如,避免使用或者放寬信息類型、語種、地理範圍、年代範圍等檢索途徑。
5.降低檢索詞的專指度.可以從詞表或檢出文獻中選一些上位詞或相關詞補充到檢索式。
6.外文單詞使用截詞檢索,可以採用前截斷、後截斷、前後截斷等截詞方法。在中文類資料庫可以使用更簡短的檢索詞。例如,在CNKI的中文期刊資料庫檢索有關國內英語等級考試的期刊文章,在題名途徑輸入“英語”、“級”和“考試”。用邏輯運算條件“並且”連線。檢索結果有“等級”、“四級”、“五級”、“六級”和“A級”等詞。
7.逐步擴大算符的檢索範圍,逐步提高查全率的算符依次是:位置算符(w→nw→near)→邏輯算符(and→or)。

相關詞條

熱門詞條

聯絡我們