潛在語義索引

潛在語義索引

在傳統的向量空間模型中,文檔集合中的文檔被抽取成為若干個索引項,每個文檔由索引項構成一個文檔向量空間,而每個項在文檔集合中的各個文檔中的權值集合則構成了一個項向囂空間。兩者結合在一起構成了文檔集合的向量空間。此模型存在兩個缺陷:向量模型假設所有的索引項是獨立無關的,但實際上可能存在兩個索引項(如索引項“電扇”和“電風扇”)是同義的;索引項的數量有時會很多,造成向量空間過大,不利於存儲和計算。

為了解決向量空間存在的問題,在向量空間基礎上提出了一個潛在語義索引的方法,此方法被證實比在Salton的SMART系統中使用的傳統向量空間技術性能更好。

基本介紹

  • 中文名:潛在語義索引
  • 外文名:Latent Semantic Indexing
  • 簡稱:LSI
  • 人物:T.K.Landauer、S.T.Dumais
  • 定義:將文檔組織成語義空間結構的方法
  • 學科:計算機技術
概述,文檔語義空間的表示,局限性,

概述

潛在語義索引(Latent Semantic Indexing,簡稱LSI)是T.K.Landauer、S.T.Dumais等人提出的一種將文檔組織成語義空間結構的方法。其原理是認為文檔的詞與詞之間存在著某種潛在的語義联系,通過統計分析,系統自動尋找這些潛在的語義联系,形成語義空間。潛在語義索引方法已經被證明是對傳統的向量空間技術的一種改良,它擴展了向量空間模型,模擬了利用奇異值分解計算文檔矩陣的潛在語義空間。因此,潛在語義索引可以用來克服語詞匹配過程中面臨的兩個問題:同義現象(人們選擇辭彙的可變性)和多義現象(同一個詞往往有不同的意思)。
例如,有四個索引項:卡車、貨車、司機和熊貓。對索引項“卡車”而言,其中“貨車”是同義詞,“司機”是有關係的詞,而“熊貓”則沒有關係。在向量空間模型中,假如檢索“卡車”,則在那些無“卡車”這個索引項的文檔中,有索引項“貨車”的文檔不會比有索引項“熊貓”的文檔具有更大的相似度。潛在語義索引通過對向量空間的降秩可以表示“卡車”和“貨車”的同義關係。
潛在語義索引是基於文檔間、文檔索引項間、文檔索引項和文檔間的潛在語義關係構建的一個語義空間,具有相似主題的文檔或者相近含義的索引項在該空間中對應的點之間的距離很近。
利用潛在語義索引的原理,可以通過對大規模文檔集合的統計分析,創建文檔矩陣和語義空間來揭示文檔間、索引項間、索引項與文檔間的潛在語義關係。潛在語義索引用正交的K維空間代替原來的空間,用該空間的點來表示索引項、文檔和檢索表達式。該空間就是潛在的語義結構的概念空間,消除了索引項之間的相關性,降低了向量的維數,在較低的概念空間,進行相似度計算。從而達到無同義詞庫或者知識庫的前提下,檢索系統也可以自動識別出文檔間、文檔索引項間、文檔索引項和文檔間的潛在語義關係,較好地解決單純索引項匹配方法中面臨的同義和多義現象,完善檢索系統性能的目的。
由於潛在語義索引可以計算出文檔間、文檔索引項間、文檔索引項和文檔間的相似度大小,在很多領域都可以得到運用,比如文本檢索、自動標引、文本摘要、信息過濾、雙語交叉過濾、垃圾郵件過濾、文本分類、個性化服務和用戶反饋、智慧型檢索等方面。

文檔語義空間的表示

在套用潛在語義索引方法的時候,首先需要表示出文檔集合的語義空間。簡單地說,潛在語義索引方法通過奇異值分解計算,將索引項、文檔和檢索表達式按照語義相關程度組織在同一語義空間中。在這一語義空間中,分散在不同文檔和檢索表達式中的同義詞之間的距離相近,主題語義接近的文檔和檢索表達式則位置相鄰。索引項、文檔和檢索表達式之間的聯繫就是它們之間的潛在語義關係。
傳統的檢索系統在面對這樣的情況時,一般對系統附上一個大型的同義詞庫或者知識庫,當文檔和檢索項沒有精確匹配的情況下,調用同義詞庫或者知識庫來提高召回率。但是,在實踐中編制一個覆蓋所有學科所有研究領域的同義詞庫或知識庫是不現實的,更不用說自然語言薴錯綜複雜、變化發展的。而基於潛在語義索引的檢索系統在沒有同義詞庫的前提下仍可以自動給出較為準確的檢索結果。

局限性

潛在語義索引具有框架定義完整、最佳化準則清楚的特點,但是它也存在一些局限性,主要表現在:①潛在語義的套用取決於具體的文檔集合,比較適用於辭彙異構度很高的文檔集合,即文檔集合中不同的文檔採用不同的辭彙來描述同一個概念,但是如果文檔中的辭彙異構度較低,則套用潛在語義索引的效果將不太明顯;②潛在語義索引的速度比傳統的向量空間方法慢,因為它需要進行高階矩陣的運算,計算查詢欄位和每篇文檔的相似度;③奇異值分解存在局限性,它假設數據的分布是常態分配,然而類似詞頻的統計數據並不符合常態分配的條件。

相關詞條

熱門詞條

聯絡我們