簡介
隨著網路搜尋引擎的大量使用以及文獻資料庫的日益發展,文本檢索這類後組式系統已經逐步發展成為信息檢索的主流形式,並在組織成分、構成要素、套用形式等方面經歷了一系列的發展。但迄今各國對信息組織的研究,主要仍集中在先組式系統上,對於後組式系統,一般停留在控制詞表的構建和套用特點等的討論,而缺乏對其組織系統的完整研究;許多與組織相關的內容,被作為檢索問題討論,使得信息組織的研究被限制在一隅,不能有效與計算機環境下的發展結合。這種情況嚴重限制了對後組式系統的研究,制約了對主題法,尤其是文本檢索系統的組織規律和方法的探索,使信息組織失去了研討當前發展最為迅速、最有生氣的關鍵領域的機會,這對完整進行信息組織的研究是致命的。關鍵字搜尋引擎等為例,在分析其組成的成分、特點、構成要素等的基礎上,對後組式檢索系統的組織體系的特點進行討論,希望能引起學界的重視,逐步從信息組織的角度加強對後組式檢索系統的研究。
組織特點和構成
眾所周知,傳統先組式檢索系統的特點是先組、定組、顯性。以等級列舉式分類法為例,其類目體系是用戶檢索以前就預先組配好、句法關係確定、並可以加以完整顯示的。而後組式檢索系統,包括關鍵字搜尋引擎、文獻資料庫等建立的文本檢索系統則恰恰相反,表現為:
後組。不像先組式檢索工具那樣,預先建立完備的系統,其組織體系是在檢索階段結合用戶的檢索提問形成的。
自由組配。不像先組式檢索工具例如分類法那樣,按照預先設定的結構展開體系,而是根據檢索的需要建立起基本的組配模式,可以根據用戶的檢索需要靈活組配,存在無數種組配和構造的可能性。
隱含。不像先組式系統那樣,可以對形成的組織系統加以完整顯示,而是隱含的、只有在檢索後才能顯示相應的部分。儘管就其能力而言,它存在著無數種檢索和揭示的可能性,但在實際使用中,這一系統只顯示與檢索相對應的那部分內容,不可能也沒有必要對其組織體系進行完整的顯示。
在過去的某些文獻中,人們往往將這類組織系統的基礎成分,例如文獻索引庫的構成作為研究的基本內容,將它對應於先組式系統的體系,這種認識至少是不完整的。實際上,不同組配方式的系統,其組織體系的構成特點和要素是不同的,以分類法為例,對傳統分類法的組織系統可以通過詳細列舉的類表加以了解;但在分面分類表中,這些內容則表現為分面單元概念表和引用次序。而要了解文本檢索的組織系統,必須根據後組式系統的特點,結合其與組織相關的基本構成成分及要素加以考察。以關鍵字搜尋引擎為例,其直接構成部分包括採集模組、存儲模組和檢索模組。其中,採集模組是組織的前提,決定資源的組織的處理對象;存儲模組中的索引及相關工具是組織的基礎結構,是檢索提供的基礎條件;檢索模組中,檢索界面及其採用的檢索提供方式,是根據用戶需要確定的實施組織的條件和形式;此外,種類多樣的檢索最佳化形式則為系統提供了最佳化重組機制。上述幾個方面的結合,構成了從基礎結構到檢索形式和提供方式等的完整內容。而貫穿在整個組織和檢索操作過程中的、對檢索結果起影響的組織要素則是其詞法、句法,以及與資源組織相關的其他因素,包括連結因素、用戶點擊因素等。關鍵字搜尋引擎的組織特點、構成成分及其相關因素可以表的方式簡單表示如下。
可以看出,這類檢索系統的組織體系不像先組式系統那樣,是一個預先建立的顯性系統,而是上述構成成分和組織要素的綜合。上述的特點也決定了,在這樣的系統中,組織系統是與檢索密切結合的,尤其是其中的檢索最佳化機制,往往是在檢索的基礎上動態形成的。因此,要探索這類系統組織體系的規律和特點,不能如對先組式系統那樣,通過對顯性系統的分析加以了解,而必須根據它們的特點,對其構成成分、組織要素及其運行規律等進行考察。
常見的後組式檢索系統包括主題詞檢索系統、以文獻資料庫為對象的文本檢索系統、關鍵字搜尋引擎等多種類型,儘管不同的系統在具體構成成分上存在著差異,但在整體結構方面並無本質的不同,其中,以關鍵字搜尋引擎的發展最為充分,其組成部分及其特點最具有典型性。關鍵字搜尋引擎的基本構成部分涉及到:
採集模組。包括建立供人工操作的網路編目平台和開發自動採集軟體,如crawlers、robots等。後者採用與人相似的方式,訪問和下載軟網頁資源,通常從一組範疇名開始,訪問主頁,同時下載主頁中的連結數據,擴展對網頁的訪問。採集模組一般須根據系統的特點確定搜尋範圍,制訂搜尋策略等,用以規定系統組織的資源對象。
索引及相關工具。通常建立多種類型的索引,包括順排索引、倒排索引、連結索引、各種實用索引等,同時,還發展檢索日誌及相應的檢索詞典等多種相關工具。關鍵字搜尋引擎中索引的常見構成成分可以簡單歸納如表。可以看到,關鍵字搜尋引擎的索引系統不僅容量大,構成成分也遠比傳統文獻資料庫充分,為系統的組織和檢索提供了適用的基礎。
檢索界面和檢索提供形式。基本上繼承了傳統資料庫檢索界面的形式,其發展是:其一,定型化,確定了簡單檢索、高級檢索、專類檢索等基本檢索方式;其二,重視易用性,如在簡單檢索中設定默認的組配檢索方式和自然語言語句轉換機制,在高級檢索界面採用易於操作的組配檢索形式等;其三,提供多因素結合的可能性,如高級界面中提供多種限定檢索設定,便利用戶進行複雜檢索;其四,在檢索結果返回時,採用檢索匹配加權的形式加以排序顯示,在保障檢全率的情況下,提高檢準率。這些努力較好解決了搜尋引擎的組配句法,以及顯示形式等問題。
檢索最佳化機制。指以互動方式對用戶查詢提供新的選擇方案或將用戶的檢索結果加以重組,以改進檢索效果。這類方式雖然在傳統檢索系統中一直存在,但未得到充分開發。網路資源的特點和終端檢索的需要,使其迅速發展成為一個受到廣泛關注的領域,如,以“similarto”提供相似文獻;利用用戶檢索查詢,提供查詢最佳化;在返回結果的基礎上聚類,作為二次檢索依據;此外結合用戶信息進行個性化提供等形式正在逐步發展之中。
可以看到,關鍵字搜尋引擎的組織成分具有多元的特點,並且是隨著資源和使用的需要發展的。上述構成成分是根據網路資源組織的特點決定的,同時也具有一定的普遍性。如各種文本檢索系統往往也都採用類似索引及詞表等工具,有的並納入引用關係等改進相關揭示。與傳統先組式檢索系統相比,關鍵字搜尋引擎的特點表現在:
首先,其組織匹配的中心是由以文本辭彙為對象的倒排索引,正是它提供了以語詞為中心的匹配基礎,從而不同於基於先組式體系的分類或標題組建的文檔。
其次,它是通過辭彙的附加信息,如結合標識語言記錄的結構信息,語詞的位置信息,以及連結索引等多種索引工具的結合套用,對檢索詞價值和網頁有效性進行遴選,改進組織和檢索效果的。多因素的結合是文本檢索和網路資源的特點決定的,雖然先組式系統也可以結合多種因素進行檢索提供,但其迫切性遠不如文本系統。
其三,其組成的整體構建起了完備而又適用的組織機制。其中,索引及相關工具提供組織匹配的對象;組配和檢索最佳化機制提供匹配句法;採集模組則用於解決組織對象的選擇,三者結合構成了一個不同於先組方式的組織框架,從而可以動態地、更加靈活地對資源進行組織和提供。
顯然,後組式系統的構成特點不同於先組式系統,如何根據檢索系統的資源和套用環境確定各個部分的構成,探索相應成分的規律及技術方法,並按照對各部分相互關係的了解加以最佳化,是這類檢索系統應解決的基本內容。因此要有效進行這類系統組織體系的研究和構建,至少應涉及以下幾個層面的內容,如:
根據資源的特點和檢索需要,對各部分構成成分及特點、作用、構成規律等的探索。如在存儲模組中,對索引及其相關工具的類型、構成及其規律等進行研究;
各個構成成分的技術方法研究,如,存儲模組中文本索引構建技術的研究,自動採集、檢索最佳化領域的各種技術方法的研究等;
各個組成部分之間關係及其相互影響與作用等的研究。如,檢索界面的設定和檢索最佳化機制是與索引類型和詞典的特點相適應的,同時也會反過來影響索引和詞集的編制;再如,採集決定了索引和檢索的對象,同時它本身又是隨著用戶需求和索引技術的發展不斷調整的,檢索日誌等的數據除作為排序因素加以套用以外,也會同時影響採集方針的調整等。關鍵字搜尋引擎各個組成部分之間的影響可簡單列舉如表。
上述研究內容雖然不同於先組式系統,但許多是與傳統信息組織的理論方法密切聯繫的。例如,上述各部分中,索引文檔以及詞表的構建,即與辭彙控制相關,而檢索界面的設定,則主要是解決組配句法問題,都是傳統信息組織關注的基本內容,只是在後組環境下研究探討而已;有些內容,如自動採集、檢索最佳化中採用的一些新技術,突破了傳統套用形式,也應是信息組織在新環境下的應有之義,是應當拓展和了解的。而其中,影響系統建立和運轉的關鍵內容之一,則是貫穿在各個組成部分之間的檢索要素。
檢索要素研究
檢索要素是貫穿在檢索過程中,改進檢索效果的重要因素。隨著計算機處理能力的增強,多種檢索要素的結合正在日益成為文本檢索系統組織和檢索的基本特點。某種程度上,對要素及其套用規律的研究,直接影響到文本檢索系統的套用水準,因此是這類系統研究中應予關注的重要內容之一。
表列舉了網路關鍵字檢索系統中涉及的常見檢索匹配因素。表中前7項均為文本辭彙因素,包括查詢詞匹配數量、匹配位置、匹配單元、分解因素和反文獻頻率等,同時還大量結合了文本辭彙以外的因素,如連結因素、用戶因素等。
顯然,網路資源缺乏質量控制等因素增加了相關因素套用的迫切性。S.Brin,L.Page說明引入Page Rank的原因時提到,在單純採用辭彙匹配作為資源排序依據的搜尋引擎中,多數排列在前的資源雖然有較高相關度,但其本身並沒有使用價值。將連結因素作為網頁重要性的判斷指標,則可以在一定程度上解決資源有效性問題。目前,多種因素的納入已成為一種共識,包括結合用戶使用情況,作為個性化服務的依據等。給出新網頁的新鮮度數據,則是為平衡新資源連結、用戶點擊數等的差距所提供的一個調整值,此外,還應包括對於各種商業因素的排除。顯然,各種基本要素的納入是與相應要素及其套用規律的研討密切聯繫的,對辭彙控制、連結規律、用戶日誌等的研究,是將要素有效納入的重要條件。自20世紀90年代網路搜尋引擎出現以來,對基本因素的研究取得了許多進展,但仍然存在進一步改進的空間。僅以辭彙控制研究為例,至少涉及到:
組織和檢索的語詞單元問題。如在中文系統中,如何在以單元辭彙為基礎的同時,適當納入詞組,包括文本環境下詞組的發現和以有效結構收錄、套用等。
詞間關係控制問題。如文本環境下同義詞相關詞識別方法的研究,以及辭彙控制套用方法的探討等。
檢索句法問題。如基本組配模式的設定和最佳化,組配成分的權值設定,以及對自然檢索語句的有效識別和切分等。以自然檢索語句的處理為例,其分解就涉及分解單元、分解層次、分解策略等方面的因素,目前的關鍵字搜尋引擎,如百度、中文google、中文yahoo!等的處理方案都仍存在進一步改進的需要。
辭彙控制與多種相關因素的結合套用問題,例如,辭彙控制與連結因素、用戶因素的有效結合和權值的合理設定問題。
辭彙控制在多種環境下的套用規律問題,包括各種形式自動標引中的套用、自動文摘編制、相似文獻的提供,一直到結合用戶需求情況下的知識發現等。有人根據Google等不採用截詞檢索,認為網路檢索中檢準率是主要矛盾,同義控制的意義不大。但實際上,儘管多數搜尋引擎不直接使用同義詞檢索,但一般並不排斥結合詞間關係控制來改進檢索效果。常見的如:
將同義控制、相關控制等作為檢索擴展的選項。如在使用“百度”檢索“北京大學”時,其相關搜尋欄同時提供北大、pku等在內的待選詞,供必要時選用。
作為容錯檢索手段。只要收入檢索頻率高的常見錯誤檢索詞,並將其與對應的檢索詞加以聯結就可以了,這實際上也是等同關係辭彙的特殊套用形式。
作為檢索最佳化處理的依據。如在動態聚類中對同義詞、等級關係詞等加以控制,以便在概念層次上實施聚類操作,改進聚類效果。
作為進行自動標引的手段。例如,一些檢索系統往往對網路資源進行自動分類或主題詞標註,結合辭彙控制有助於改進自動標引的效果。
此外,各種知識組織系統的套用也是改進文本系統檢索效果的重要方式。顯然,在詞法、句法等的研究和套用方面,目前仍然有大量的工作要做,文獻領域工作者長期積累的對辭彙控制規律的了解,是推進辭彙控制套用的重要力量。同樣,對連結因素、用戶因素和其他相關因素的研究和納入也需要類似的努力,如計算機界已經對連結因素、用戶因素等結合進行了許多探索。近年來相關因素納入的另一個例子,是在檢索返回資源的顯示中,將文獻類型,如百科全書詞條、個人主頁、機構官網等作為改進排序的因素之一,取得了較好效果。如何在檢索系統中發現並有效納入這類因素,仍是這類系統關注的一個內容。關鍵字搜尋引擎的處理技術為文本檢索系統的改進,提供了十分有價值的經驗。從表可以看出,傳統文獻資料庫的數據特點與網路資源既有不同又有相似之處。事實上,目前在一些文獻資料庫中,已開始逐步將網路關鍵字搜尋引擎的技術方法引入系統,用以改進和最佳化檢索效果。