百度名片 貝葉斯 Thomas Bayes ,英國
數學家 .1702年出生於
倫敦 ,做過神甫.1742年成為英國皇家學會會員.1763年4月7日逝世.貝葉斯在數學方面主要研究機率論.他首先將歸納推理法用於機率論基礎理論,並創立了貝葉斯統計
理論 ,對於統計決策
函式 、統計推斷、統計的估算等做出了貢獻.1763年發表了這方面的論著,對於現代機率論和數理統計都有很重要的作用.貝葉斯的另一著作《機會的學說概論》發表於1758年.貝葉斯所採用的許多術語被沿用至今.
他對統計推理的主要貢獻是使用了"逆機率"這個概念,並把它作為一種普遍的推理方法提出來。貝葉斯定理原本是
機率論 中的一個定理,這一定理可用一個數學公式來表達,這個公式就是著名的貝葉斯公式。
目錄 貝葉斯
貝葉斯分類器
貝葉斯定理
貝葉斯統計
貝葉斯 英國
數學家 .1702年出生於
倫敦 ,做過神甫.1742年成為英國皇家學會會員.1763年4月7日逝世.貝葉斯在數學方面主要研究機率論.他首先將歸納推理法用於機率論基礎理論,並創立了貝葉斯統計
理論 ,對於統計決策
函式 、統計推斷、統計的估算等做出了貢獻.1763年發表了這方面的論著,對於現代機率論和數理統計都有很重要的作用.貝葉斯的另一著作《機會的學說概論》發表於1758年.貝葉斯所採用的許多術語被沿用至今.
貝葉斯分類器 貝葉斯分類器是在具有模式的完整統計知識條件下,按照貝葉斯決策理論進行設計的一種最優分類器。
方程式 貝葉斯定理 貝葉斯定理也稱貝葉斯推理,人們根據不確定性信息作出推理和決策需要對各種結論的機率作出估計,這類推理稱為機率推理。
貝葉斯定理 也稱貝葉斯推理,早在18世紀,英國學者貝葉斯(1702~1761)曾提出計算條件機率的公式用來解決如下一類問題:假設H[,1],H[,2]…互斥且構成一個完全事件,已知它們的
機率 P(H[,i],i=1,2,…,現觀察到某事件A與H[,1],H[,2]…相伴隨而出現,且已知
條件機率 P(A/H[,i]),求P(H[,i]/A)。
貝葉斯公式(發表於1763年)為:P(H[,i]/A)=P(H[,i])P(A│H[,i])/[P(H[,1])P(A│H[,1])P(H[,2])P(A│H[,2])…]
這就是著名的“貝葉斯定理”,一些文獻中把P(H[,1])、P(H[,2])稱為基礎機率,P(A│H[,1])為擊中率,P(A│H[,2])為誤報率[1]。
貝葉斯定理 定理的研究方向與意義 人們根據不確定性信息作出推理和決策需要對各種結論的機率作出估計,這類推理稱為機率推理。機率推理既是機率學和邏輯學的研究對象,也是心理學的研究對象,但研究的角度是不同的。機率學和
邏輯學 研究的是客觀機率推算的公式或規則;而心理學研究人們主觀機率估計的認知加工過程規律。貝葉斯推理的問題是條件機率推理問題,這一領域的探討對揭示人們對機率信息的認知加工過程與
規律 、指導人們進行有效的學習和判斷決策都具有十分重要的理論意義和實踐意義。
貝葉斯定理的套用 貝葉斯定理用於投資決策分析是在已知相關項目B的資料,而缺乏論證項目A的直接資料時,通過對B項目的有關狀態及發生機率分析推導A項目的狀態及發生
機率 。如果我們用
數學 語言描繪,即當已知事件Bi的機率P(Bi)和事件Bi已發生條件下事件A的機率P(A│Bi),則可運用貝葉斯定理計算出在事件A發生條件下事件Bi的機率P(Bi│A)。按貝葉斯定理進行投資決策的基本步驟是:
1、列出在已知項目B條件下項目A的發生機率,即將P(A│B)轉換為P(B│A);
2、繪製樹型圖;
3、求各狀態結點的期望收益值,並將結果填入樹型
圖 ;
4、根據對樹型圖的分析,進行投資項目決策;
搜尋巨人Google和Autonomy,一家出售信息恢復工具的
公司 ,都使用了貝葉斯定理(Bayesianprinciples)為數據搜尋提供近似的(但是技術上不確切)結果。
研究 人員還使用貝葉斯
模型 來判斷症狀和
疾病 之間的相互關係,創建個人機器人,開發能夠根據數據和經驗來決定行動的人工智慧設備。
貝葉斯統計 英國學者T.貝葉斯1763年在《論有關機遇問題的求解》中,提出了一種歸納推理的理論,以後被一些統計學者發展為一種系統的
統計推斷 方法,稱為貝葉斯方法。採用這種方法作統計推斷所得的全部結果,構成貝葉斯統計的內容。認為貝葉斯方法是惟一合理的統計推斷方法的統計學者,組成
數理統計學 中的貝葉斯學派,其形成可追溯到20世紀30年代。到50~60年代,已發展為一個有影響的學派。時至今日,其影響日益擴大。
先驗分布 它是總體分布參數
θ 的一個
機率分布 。貝葉斯學派的根本觀點,是認為在關於
θ 的任何統計推斷問題中,除了使用樣本
X 所提供的信息外,還必須對
θ 規定一個先驗分布,它是在進行推斷時不可或缺的一個要素。貝葉斯學派把先驗分布解釋為在抽樣前就有的關於
θ 的先驗信息的機率表述,先驗分布不必有客觀的依據,它可以部分地或完全地基於主觀信念。例如,某甲懷疑自己患有一種疾病
A ,在就診時醫生對他測了諸如體溫、血壓等指標,其結果構成樣本
X 。引進參數
θ :有病時,
θ =1;無病時,
θ =0。
X 的分布取決於
θ 是0還是1,因而知道了
X 有助於推斷
θ 是否為1。按傳統(頻率)學派的觀點,醫生診斷時,只使用
X 提供的信息;而按貝葉斯學派觀點,則認為只有在規定了一個介於0與1之間的數
p 作為事件{
θ =1}的先驗機率時,才能對甲是否有病(即
θ 是否為1)進行推斷。
p 這個數刻畫了本問題的先驗分布,且可解釋為疾病
A 的發病率。先驗分布的規定對推斷結果有影響,如在此例中,若疾病
A 的發病率很小,醫生將傾向於只有在樣本
X 顯示出很強的證據時,才診斷甲有病。在這裡先驗分布的使用看來是合理的,但貝葉斯學派並不是基於 “
p 是發病率”這樣一個解釋而使用它的,事實上即使對本病的發病率毫無所知,也必須規定這樣一個
p ,否則問題就無法求解。
後驗分布 根據樣本
X 的分布
P θ 及
θ 的先驗分布π(
θ ),用
機率論 中求條件機率分布的方法,可算出在已知
X =
x 的條件下,
θ 的條件分布 π(
θ |
x )。因為這個分布是在抽樣以後才得到的,故稱為後驗分布。貝葉斯學派認為:這個分布綜合了樣本
X 及先驗分布π(
θ )所提供的有關的信息。抽樣的全部目的,就在於完成由先驗分布到後驗分布的轉換。如上例,設
p =
P (
θ =1)=0.001,而π(
θ =1|
x )=0.86,則貝葉斯學派解釋為:在某甲的指標量出之前,他患病的可能性定為0.001,而在得到
X 後,認識發生了變化:其患病的可能性提高為0.86,這一點的實現既與
X 有關,也離不開先驗分布。
計算後驗分布的公式本質上就是
機率論 中著名的貝葉斯公式(見
機率 ),這公式正是上面提到的貝葉斯1763年的文章的一個重要內容。
推斷方法 貝葉斯推斷方法的關鍵在於所作出的任何推斷都必須也只須根據後驗分布π(
θ │
X ),而不能再涉及
X 的樣本分布
P θ 。例如,在奈曼-皮爾遜理論(見
假設檢驗 )中,為了確定水平α的檢驗的臨界值
C ,必須考慮
X 的分布
P θ ,這在貝葉斯推斷中是不允許的。
但貝葉斯推斷在如何使用π(
θ │
X )上,有一定的靈活性,例如為作
θ 的
點估計 ,可用後驗分布密度
h (
θ |
X )關於
θ 的最大值點,也可以用π(
θ |
X )的均值或中位數(見
機率分布 )等。為作
θ 的區間估計,可以取區間【
A (
X ),
B (
X )】,使π(
A (
X )≤
θ ≤
B (
X )│
X )等於事先指定的數1-α(0<α<1),並在這個條件下使區間長度
B (
X )-
A (
X )最小。若要檢驗關於
θ 的假設
H :
θ ∈ω,則可以算出ω的後驗機率 π(ω|
X ),然後在π(ω│
X )<1/2時拒絕
H 。如果是統計決策性質(見
統計決策理論 )問題,則有一定的損失函式
L (
θ ,α),知道了π(
θ |
X ),可算出各行動α的後驗風險,即
L (
θ ,α)在後驗分布π(
θ |
X )下的
數學期望 值,然後挑選行動α使這期望值達到最小,這在貝葉斯統計中稱為“後驗風險最小”的原則,是貝葉斯決策理論中的根本原則和方法。
關於貝葉斯方法的爭論 貝葉斯學派與頻率學派爭論的焦點在於先驗分布的問題。所謂頻率學派是指堅持機率的頻率解釋的統計學家形成的學派。貝葉斯學派認為先驗分布可以是主觀的,它沒有也不需要有頻率解釋。而頻率學派則認為,只有在先驗分布有一種不依賴主觀的意義,且能根據適當的理論或以往的經驗決定時,才允許在統計推斷中使用先驗分布,否則就會喪失客觀性。另一個批評是:貝葉斯方法對任何統計問題都給以一種程式化的解法,這導致人們對問題不去作深入分析,而只是機械地套用公式。貝葉斯學派則認為:從
理論 上說,可以在一定條件下證明,任何合理的優良性準則必然是相應於一定先驗分布的貝葉斯準則,因此每個統計學家自覺或不自覺地都是“貝葉斯主義者”。他們認為,頻率學派表面上不使用先驗分布,但所得到的解也還是某種先驗分布下的貝葉斯解,而這一潛在的先驗分布,可能比經過慎重選定的主觀先驗分布更不合理。其次,貝葉斯學派還認為,貝葉斯方法對統計推斷和決策問題給出程式化的解是優點而非缺點,因為它免除了尋求抽樣分布,(見
統計量 )這個困難的數學問題。而且這種程式化的解法並不是機械地套公式,它要求人們對先驗分布、損失
函式 等的選擇作大量的工作。還有,貝葉斯學派認為,用貝葉斯方法求出的解不需要頻率解釋,因而即使在一次使用下也有意義。反之,根據
機率 的頻率解釋而提供的解,則只有在大量次數使用之下才有意義,而這常常不符合套用的實際。這兩個學派的爭論是戰後數理統計學發展中的一個特色。這個爭論目前還遠沒有解決,它對今後數理統計學的發展還將產生影響。