在敘詞型情報檢索語言中,為提高查準率所採取的一些輔助措施。這些措施是在檢索詞後附加一些符號,用於進一步區別詞義,也就是使通用詞變為專指檢索詞,以提高輸出文獻的準確性。
基本介紹
輔助查準措施主要包括職號、連號和加權係數。
職號也稱職能符號,是敘詞型情報檢索語言中表示語法關係的一種手段,附在標引詞後面,是限定該詞邏輯職能的一種符號,用pj(x)式表示。式中,x為表示某一文獻(或提問式)主題的標引詞,而pj表示該主題中標引詞的邏輯職能, 這些邏輯職能包括原材料、 產品、原因、結果、環境、工具等。例如,某一篇文獻的中心主題為“以鉑作催化劑用氨製造硝酸”。我們用“硝酸”、“製造”、“氨”和“鉑”四個標引詞表示該文獻主題。為避免用“鉑的製造”、“氨的製造”和“用硝酸製造”3個提問式檢索時,輸出此文獻,我們規定A表示原材料,B表示產品,C表示催化劑,分別將這些職號附在有關詞後面,即,氨-A,硝酸-B,鉑-C,這樣,用上述3個提問式檢索,都不會輸出此篇文獻。
連號也稱關聯符號,是敘詞型情報檢索語言中表示語法關係的一種手段,附在標引詞後面,用於將一組詞歸併到一類或另一類的一種符號,用pi(x)式表示,式中x表示某一文獻(或提問式)的主題變數(關鍵字),而pi表示一組關鍵字中第i個分主題的元素屬性。 例如,某一文獻的中心主題為“摩洛哥橙的收穫和檸檬的存儲和運輸”,為避免用“摩洛哥檸檬的收穫”和“橙的存儲和運輸”2個提問檢索時輸出這篇文獻,我們用“橙-1、摩洛哥-1、收穫-1;檸檬-2、運輸-2、存儲-2、運輸-2”6個標引詞及其連號"1"和"2"標引,檢索時就可避免上述誤檢。
加權係數指在文獻標引中給每個關鍵字以一定的數值,藉以表示該詞在表示該主題中的相對重要性。權值可以用正負數值,分若干等級。例如,假定某一情報檢索系統中採用18個加權係數等級,9個等級為正值,9個等級為負值。標引時,分別給關鍵字A、B、 C、D、E和F不同權值:A6,B1,D3,E9和F6。檢索時,可能規定每篇文獻的輸出閾值R,或按RC的大小順序輸出,供用戶選擇。例如,某一提問式的R>15,則用B、E、F3個標引詞標引的某一篇文獻(R=24)輸出,而用A、B、D3個關鍵字標引的某一文獻(R=12)則不輸出。
職號和連號可以提高情報檢索的查準率,同時,也會降低查全率,據試驗,職號約能提高查準率10%,同時降低查全率10%,連號約能提高查準率10%,同時降低查全率10%以下。此外,採用輔助查準措施會增加一定費用和檢索時間。因此,職號除在化學化工專業文獻檢索系統中採用外, 一般不採用。 連號和加權係數所增費用不多,採用的比職號多。