邦弗朗尼原理

邦弗朗尼原理

邦弗朗尼原理:假定人們有一定量的數據並期望從該數據中找到某個特定類型的事件,即使數據完全隨機,也可以期望該類型事件會發生。邦弗朗尼校正定理給出一個統計學上可行的方法來避免在搜尋數據時出現的大部分“臆造”的正回響。例如:如果考察的時間和範圍過廣,會很容易發現一些人同住一家酒店,而兩者沒有什麼關係。

基本介紹

  • 中文名:邦弗朗尼原理
  • 外文名:Bonfon Lonnie Principle
  • 學科:人工智慧
簡介,解釋,在大規模數據挖掘與分散式處理中的套用,數據挖掘是數據“模型”的發現過程,模型,數據匯總,特徵提取,避免將隨機出現看成真正出現,

簡介

在考察數據時,如果將某些對象視為數據的有趣特徵,而這些對象中的許多都可能會在隨機數據中出現,那么這些顯著的特徵就不可依賴。對於那些實際中並不充分罕見的特徵來說,上述觀察結果限制了從這些數據特徵中進行挖掘的能力。

解釋

假定人們有一定量的數據並期望從該數據中找到某個特定類型的事件。即使數據完全隨機,也可以期望該類型事件會發生。隨著數據規模的增長,這類事件出現的數目也隨之上升。任何隨機數據往往都會有一些不同尋常的特徵,這些特徵看上去雖然很重要,但是實際上並不重要,除此之外,別無他由,從這個意義上說,這些事件的出現純屬"臆造"。統計學上有一個稱為邦弗朗尼校正(Bonferronicorrection)的定理,該定理給出一個在統計上可行的方法來避免在搜尋數據時出現的大部分"臆造"正回響。這裡並不打算介紹定理的統計細節,只給出一個非正式的稱為邦弗朗尼原理的版本,該原理可以幫助我們避免將隨機出現看成真正出現。在數據隨機性假設的基礎上,可以計算所尋找事件出現次數的期望值。如果該結果顯著高於你所希望找到的真正實例的數目,那么可以預期,尋找到的幾乎任何事物都是臆造的,也就是說,它們是在統計上出現的假象,而不是你所尋找事件的憑證。上述觀察現象是邦弗朗尼原理的非正式闡述。
簡單的說,你假設:特定事件的發生預示著特定內容。如果特定事件(例如:在酒店中聚會)發生的機率乘以樣本空間得到的數目遠遠大與你期望的特定內容(例如:歹徒)的數目,那么你的假設是錯的。

在大規模數據挖掘與分散式處理中的套用

數據挖掘是數據“模型”的發現過程

統計學家認為數據挖掘就是統計模型的構建過程,而這個統計模型指的就是可見數據所遵從的總體分布。

模型

建模方法可以描述為下列兩種做法之一:
(1)對數據進行簡潔的近似匯總描述;——數據匯總
(2)從數據中抽取出最突出的特徵來代替數據並將剩餘內容忽略。——特徵提取

數據匯總

(1)PageRank:一種Web結構上的隨機遊走者在任意給定時刻處於該頁的機率。PageRank的一個非常好的特性就是它能夠很好地反映網頁的重要性,即典型用戶在搜尋時期望返回某個頁面的程度。
(2)聚類:數據被看成是多維空間下的點,空間中相互臨近的點將被賦予相同的類別。

特徵提取

基於特徵的模型會從數據中尋找某個現象的最極端樣例,並使用這些樣例來表示數據。
(1)頻繁項集:該模型適用於多個小規模項集組成的數據。如某些物品會被顧客同時購買,例如漢堡和番茄醬,這些物品就組成了所謂的項集。(購物籃問題)
(2)相似項:很多時候,數據往往看上去相當於一些列集合,我們的目標是尋找那些共同元素比較高的集合對。例如,將線上商店的顧客看成是其已購買的商品的集合。尋找相似的顧客群,並把他們當中大部分人購買過的商品也推薦給他。該過程稱為協同過濾。·

避免將隨機出現看成真正出現

根據邦弗朗尼原理,在數據隨機性假設的基礎上,可以計算所尋找時間出現次數的期望值。如果該結果顯著高於你所希望找到的真正實例的數目,那么可以預期,尋找到的幾乎任何事物都是臆造的,也就是說,它們是在統計上出現的假象,而不是你所尋找事件的憑證。
例如,只需要尋找那些幾乎不可能出現在隨機數據中的罕見事件來發現恐怖分子即可。

相關詞條

熱門詞條

聯絡我們