停用詞

停用詞

停用詞是指在信息檢索中,為節省存儲空間和提高搜尋效率,在處理自然語言數據(或文本)之前或之後會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。這些停用詞都是人工輸入、非自動化生成的,生成後的停用詞會形成一個停用詞表。但是,並沒有一個明確的停用詞表能夠適用於所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜尋的。

基本介紹

  • 中文名:停用詞
  • 外文名:Stop Words
  • 套用信息檢索
  • 目的:節省存儲空間和提高搜尋效率
類別,介紹,功能,相關,

類別

對於一個給定的目的,任何一類的詞語都可以被選作停用詞。通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什麼實際含義,比如'the'、'is'、'at'、'which'、'on'等。但是對於搜尋引擎來說,當所要搜尋的短語包含功能詞,特別是像'The Who'、'The The'或'Take The'等複合名詞時,停用詞的使用就會導致問題。另一類詞包括辭彙詞,比如'want'等,這些詞套用十分廣泛,但是對這樣的詞搜尋引擎無法保證能夠給出真正相關的搜尋結果,難以幫助縮小搜尋範圍,同時還會降低搜尋的效率,所以通常會把這些詞從問題中移去,從而提高搜尋性能。

介紹

人類語言包含很多功能詞。與其他詞相比,功能詞沒有什麼實際含義。最普遍的功能詞是限定詞(“the”、“a”、“an”、“that”、和“those”),這些詞幫助在文本中描述名詞和表達概念,如地點或數量。介詞如:“over”,“under”,“above” 等表示兩個詞的相對位置。
這些功能詞的兩個特徵促使在搜尋引擎的文本處理過程中對其特殊對待。第一,這些功能詞極其普遍。記錄這些詞在每一個文檔中的數量需要很大的磁碟空間。第二,由於它們的普遍性和功能,這些詞很少單獨表達文檔相關程度的信息。如果在檢索過程中考慮每一個詞而不是短語,這些功能詞基本沒有什麼幫助。
在信息檢索中,這些功能詞的另一個名稱是:停用詞(stopword)。稱它們為停用詞是因為在文本處理過程中如果遇到它們,則立即停止處理,將其扔掉。將這些詞扔掉減少了索引量,增加了檢索效率,並且通常都會提高檢索的效果。停用詞主要包括英文字元、數字、數學字元、標點符號及使用頻率特高的單漢字等。

功能

為節省存儲空間和提高搜尋效率,搜尋引擎在索引頁面或處理搜尋請求時會自動忽略某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。通常意義上,Stop Words大致為如下兩類:
1、這些詞套用十分廣泛,在Internet上隨處可見,比如“Web”一詞幾乎在每個網站上均會出現,對這樣的詞搜尋引擎無 法保證能夠給出真正相關的搜尋結果,難以幫助縮小搜尋範圍,同時還會降低搜尋的效率;
2、這類就更多了,包括了語氣助詞、副詞、介詞、連線詞等,通常自身 並無明確的意義,只有將其放入一個完整的句子中才有一定作用,如常見的“的”、“在”之類。
舉個例子來說,像“IT技術點評”,雖然其中的“IT”從我們的本意上是指“Information Technology”,事實上這種縮寫也能夠為大多數人接受,但對搜尋引擎來說,此“IT”不過是“it”,即“它”的意思,這在英文中是一個極其常見 同時意思又相當含混的詞,在大多數情況下將被忽略。我們在IT技術點評中保留“IT”更多地面向“人”而非搜尋引擎,以求用戶能明了IT技術點評網站涉及的內容限於信息技術,雖然從SEO的角度這未必是最佳的處理方式。
了解Stop Words,在網頁內容中適當地減少Stop Words出現的頻率,可以有效地幫助我們提高關鍵字密度,而在網頁Title中避免出現Stop Words往往能夠讓我們最佳化的關鍵字更突出。

相關

Hans Peter Luhn, 作為信息檢索的先驅者之一,他創造了這個短語並在他的研究中套用這個概念,為信息檢索工作做出了貢獻。

熱門詞條

聯絡我們