生成模型

生成模型

機率統計理論中, 生成模型是指能夠隨機生成觀測數據的模型,尤其是在給定某些隱含參數的條件下。它給觀測值和標註數據序列指定一個聯合機率分布。在機器學習中,生成模型可以用來直接對數據建模(例如根據某個變數的機率密度函式進行數據採樣),也可以用來建立變數間的條件機率分布。條件機率分布可以由生成模型根據貝葉斯定理形成。

基本介紹

  • 中文名:生成模型
  • 外文名:generative model
  • 領域:人工智慧
  • 定義:能夠隨機生成觀測數據的模型
  • 有關術語:判別模型
  • 典型模型:受限玻爾茲曼機
簡介,判別模型,典型模型,

簡介

機率生成模型,簡稱生成模型(Generative Model),是機率統計和機器學習中的一類重要模型,指一系列用於隨機生成可觀測數據的模型。生成模型的套用十分廣泛,可以用來不同的數據進行建模,比如圖像、文本、聲音等。比如圖像生成,我們將圖像表示為一個隨機向量X,其中每一維都表示一個像素值。假設自然場景的圖像都服從一個未知的分布pr(x),希望通過一些觀測樣本來估計其分布。高維隨機向量一般比較難以直接建模,需要通過一些條件獨立性來簡化模型。深度生成模型就是利用深層神經網路可以近似任意函式的能力來建模一個複雜的分布。方法:從統計的角度表示數據的分布情況,能夠反映同類數據本身的相似度;生成方法還原出聯合機率分布,而判別方法不能;生成方法的學習收斂速度更快、即當樣本容量增加的時候,學到的模型可以更快地收斂於真實模型;當存在隱變數時,仍可以用生成方法學習,此時判別方法不能用。
例如,香農 (1948) 給出了有一個英語雙詞頻率表生成句子的例子。可以生成如“representing and speedily is an good”這種句子。一開始並不能生成正確的英文句子,但隨著詞頻表由雙詞擴大為三詞甚至多詞,生成的句子也就慢慢的成型了。

判別模型

在機器學習領域判別模型是一種對未知數據
與已知數據
之間關係進行建模的方法。判別模型是一種基於機率理論的方法。已知輸入變數
,判別模型通過構建條件機率分布
預測
。生成模型的定義與判別模型相對應:生成模型是所有變數的全機率模型,而判別模型是在給定觀測變數值前提下目標變數條件機率模型。因此生成模型能夠用於模擬(即生成)模型中任意變數的分布情況,而判別模型只能根據觀測變數得到目標變數的採樣。判別模型不對觀測變數的分布建模,因此它不能夠表達觀測變數與目標變數之間更複雜的關係。因此,生成模型更適用於無監督的任務,如分類和聚類。如果觀測數據是由生成模型中採樣的,那么最大化數據似然機率是一個常見的方法。但是,大部分統計模型只是近似於真實分布,如果任務的目標是在已知一部分變數的值的條件下,對另一部分變數的推斷,那么可以認為這種模型近似造成了一些對於當前任務來說不必要的假設。在這種情況下,使用判別模型對條件機率函式建模可能更準確,儘管具體的套用細節會最終決定哪種方法更為適用。

典型模型

高斯混合模型(Gaussian Mixture Model)
為單一高斯機率密度函式的延伸,用多個高斯機率密度函式(常態分配曲線)精確地量化變數分布,是將變數分布分解為若干基於高斯機率密度函式(常態分配曲線)分布的統計模型。
隱馬爾可夫模型
隱馬爾可夫模型(Hidden Markov Model,HMM)是統計模型,它用來描述一個含有隱含未知參數的馬爾可夫過程。其難點是從可觀察的參數中確定該過程的隱含參數。然後利用這些參數來作進一步的分析,例如模式識別。在正常的馬爾可夫模型中,狀態對於觀察者來說是直接可見的。這樣狀態的轉換機率便是全部的參數。而在隱馬爾可夫模型中,狀態並不是直接可見的,但受狀態影響的某些變數則是可見的。每一個狀態在可能輸出的符號上都有一機率分布。因此輸出符號的序列能夠透露出狀態序列的一些信息。
樸素貝葉斯分類器
在機器學習中,樸素貝葉斯分類器是一系列以假設特徵之間強(樸素)獨立下運用貝葉斯定理為基礎的簡單機率分類器。
樸素貝葉斯自20世紀50年代已廣泛研究。在20世紀60年代初就以另外一個名稱引入到文本信息檢索界中, 並仍然是文本分類的一種熱門(基準)方法,文本分類是以詞頻為特徵判斷檔案所屬類別或其他(如垃圾郵件、合法性、體育或政治等等)的問題。通過適當的預處理,它可以與這個領域更先進的方法(包括支持向量機)相競爭。它在自動醫療診斷中也有套用。
樸素貝葉斯分類器是高度可擴展的,因此需要數量與學習問題中的變數(特徵/預測器)成線性關係的參數。最大似然訓練可以通過評估一個封閉形式的表達式來完成,只需花費線性時間,而不需要其他很多類型的分類器所使用的費時的疊代逼近。
在統計學和計算機科學文獻中,樸素貝葉斯模型有各種名稱,包括簡單貝葉斯和獨立貝葉斯。所有這些名稱都參考了貝葉斯定理在該分類器的決策規則中的使用,但樸素貝葉斯不(一定)用到貝葉斯方法;《Russell和Norvig》提到樸素貝葉斯有時被稱為貝葉斯分類器,這個馬虎的使用促使真正的貝葉斯論者稱之為傻瓜貝葉斯模型。

相關詞條

熱門詞條

聯絡我們