機率潛在語義分析

機率潛在語義分析

機率潛在語義分析PLSA也稱為 機率潛在語義索引PLSI),尤其是在信息檢索領域)是一個一種用於分析雙模式和共現數據的統計技術。 實際上,就像從PLSA進化而來的潛在語義分析一樣,可以根據它們對某些隱藏變數的親和性來導出觀察變數的低維表示。

與源自線性代數的標準潛在語義分析和縮小發生表(通常通過奇異值分解)不同的是,機率潛在語義分析基於從潛在類模型導出的混合分解。

基本介紹

  • 中文名:機率潛在語義分析
  • 外文名:Probabilistic latent semantic analysis
  • 縮寫:PLSA
  • 又稱:機率潛在語義索引
簡介,模型,套用,擴展,

簡介

潛在語義分析是一種對雙模型和同現數據進行分析的統計技術,它已經被套用於信患的檢索與過濾、自然語言處理、機器學習和一些相關的領域。標準的潛在語義分析主要是基於線性代數並且對同現表格進行奇異值分解。而機率潛在語義分析則是基於從潛在的類模型中獲取一個混合分解。這樣就得到了一種更有原則性的,並且在統計方面有鞏固基礎的方法。
眾所周知,潛在語義分析是專門討論這些問題的一項技術。它的關鍵思想是映射高維計數向量,就像是把一個以文本文檔的矩陣空間形式在一個稱為潛在語義空間的地方變為一個更低維的形式。正如它的名字所提到的那樣,LSA的目的就是找到數據映射,這種數據映射在辭彙層次之外也能很好地提供信息,並且揭露相關實體間的聯繫。由於LSA的一般性,它被證明是非常有價值並且有著廣泛套用的分析工具。然而,它的理論基礎在很大程度上還不令人滿意並且不完整。

模型

以單詞和文檔的共現
形式進行的觀察,PLSA將每次共現的機率建模為條件獨立的多項分布的混合:
'c'是單詞w的'主題'。請注意,主題數是一個超參數,必須事先選擇,而不是從數據中估算。第一個公式是對稱公式,其中
都是以類似方式從潛類
生成的(使用條件機率
,而第二個公式是不對稱公式,其中,對於每個檔案
,a根據
對文檔有條件地選擇潛在類,然後根據
從該類生成一個單詞。雖然我們在這個例子中使用了單詞和文檔,但是任何一些離散變數的共現可以以完全相同的方式建模。
因此,參數的數量等於
。參數數量隨文檔數量呈線性增長。此外,雖然PLSA是該集合中文檔的生成模型,但估計它不是新文檔的生成模型。
使用EM算法學習它們的參數。

套用

  • PLSA可以通過Fisher核心用於判別設定。
  • PLSA在信息檢索和過濾,自然語言處理,文本機器學習以及相關領域都有套用。
  • 據報導,機率潛在語義分析中使用的方面模型存在嚴重的過度擬合問題。

擴展

分層擴展:
不對稱:MASHA(“多項式非對稱分層分析”)
對稱:HPLSA(“分層機率潛在語義分析”)
生成模型:已經開發了以下模型來解決經常被批評的PLSA缺點,即它不是新文檔的正確生成模型。
Latent Dirichlet分配 - 在每個文檔主題分布上添加Dirichlet
高階數據:儘管在科學文獻中很少討論這一點,但PLSA自然地延伸到更高階數據(三種模式和更高階),即它可以模擬三個或更多變數的共現。 在上面的對稱公式中,這可以通過為這些附加變數添加條件機率分布來完成。 這是非負張量因子分解的機率類比。

相關詞條

熱門詞條

聯絡我們