Latent Semantic Indexing-隱性語義索引,也可譯為隱含語義索引,是近年來逐漸興起的不同於關鍵字檢索的搜尋引擎解決方案,其檢索結果的實際效果更接近於人的自然語言,在一定程度上提高檢索結果的相關性,目前已被逐漸的套用到圖書館、資料庫和搜尋引擎的算法當中。Google就是典型的代表。
基本介紹
- 中文名:隱性語義索引
- 外文名:Latent Semantic Indexing
- 別稱:隱含語義索引
- 類型:搜尋引擎解決方案
定義,誕生,隱性語義索引機制,其他關鍵點,
定義
所謂隱性語義索引指的是,怎樣通過海量文獻找出辭彙之間的關係。當兩個詞或一組詞大量出現在同一個文檔中時,這些詞之間就可以被認為是語義相關。機器並不知道某個詞究竟代表什麼,不知道某個詞是什麼意思。
比如:
(1)電腦和計算機這兩個詞在人們寫文章時經常混用,這兩個詞在大量的網頁中同時出現,搜尋引擎就會認為這兩個詞是極為語義相關的。 (2)SEO和搜尋引擎最佳化(雖然一個是英語,一個是中文)這兩個詞大量出現在相同的網頁中,雖然搜尋引擎還不能知道搜尋引擎最佳化或SEO指的是什麼,但是卻可以從語義上把”SEO”,”搜尋引擎最佳化”,”search engine optimization”,”SEM”等詞緊緊的連在一起。可見潛在語義索引並不依賴於語言。
(3)如蘋果和橘子這兩個詞,也是大量出現在相同文檔中,不過緊密度低於同義詞。所以搜尋引擎不會認為它們是語義相關的。
誕生
搜尋引擎是使用機器算法來替代過去人工搜尋的工作。但機器算法和人的工作有一個不一樣的地方就是人可以直接理解詞的意思,文章的意思,機器和算法卻無法理解——人看到蘋果這兩個字就知道指的是那個圓圓的,有水的挺好吃的東西,搜尋引擎卻不能從感性上理解。
其原因和自然語言的特點有關。從自然語言的角度,大部分詞具有一詞多義的特點,機器算法無法確定在何環境下使用何種詞義,這就導致了搜尋結果與用戶的理想值便存在很大的距離:
(1)一詞多義將導致基於精確匹配的搜尋算法在給出的結果中包含很多並非用戶真正要查找的內容;
(2)一義多詞則使用得基於精確匹配的搜尋算法在給出的結果中遺漏很多用戶真正要查找的內容。
Latent Semantic Indexing (LSI : 隱性語義索引)便是搜尋引擎試圖儘可能弱化這一弊端的可行解決方案之一。Latent Semantic Indexing通過繞開自然語言理解,以大樣本數量的統計分析找出不同的詞(詞組、短語)間的相關性,以使搜尋結果進一步接近於用戶真正要查找的內容,同時,也能夠保證搜尋的效率。
隱性語義索引機制
單純從理論上看,Latent semantic indexing (隱性語義索引)的實現機制並不複雜,它只不過是在正常的網頁收錄與索引過程中增添了一個步驟:
(1)先統計、分析網頁及連結中的關鍵字;
(2)將該網頁與索引資料庫中其他包含相同關鍵字或部分相同關鍵字的網頁進行比對,以確定不同網頁間的語義相關性以及網頁與特定關鍵字間的相關性,
(3)同時將該網頁與具有高語義相關性的網頁進行比對分析,從中找出特定網頁中存在關鍵字的相關項,即找出特定網頁中雖然並不存在但與其內容相關的關鍵字。
可以看出,雖然搜尋引擎本身並不知道某個詞究竟代表什麼,不知道某個詞是什麼意思,但通過Latent Semantic Indexing算法,與單純的關鍵字匹配相比,搜尋引擎能夠以一種更準確的方式判斷特定網頁中內容與搜尋項間的相關性,從而給出用戶要尋找的內容,甚至從某種角度上看,更接近於“人”分析、查找內容時的判斷方式。
其他關鍵點
對Latent Semantic Indexing,可能大多數人注意的是其中的Semantic (語義有關的),但Latent Semantic Indexing方面的技術文檔則往往更強調Latent (潛在的、隱含的),而非簡單意義的語義相關。比如說對“水”一詞而言,與其語義相關的可能是“熱水”、“涼水”之類,但潛在相關的則可以是“蒸汽”、“冰”等,這裡有很大區別。
需要強調的是,Latent Semantic Indexing(隱性語義索引)只是目前搜尋引擎排名算法中關鍵字匹配技術的補充(排名算法會為不同的影響因素賦予不同的權重,Latent Semantic Indexing的權重值已經慢慢加大),但絕不是取代現有的關鍵字匹配算法。