差別隱私

差別隱私(英語:differential privacy)是密碼學中的一種手段,旨在提供一種當從統計資料庫查詢時,最大化數據查詢的準確性,同時最大限度減少識別其記錄的機會。

基本介紹

  • 中文名:差別隱私
  • 外文名:differential privacy
  • 類別:密碼學的一種手段
  • 套用:人口普查、谷歌
  • 目的:最大限度減少識別其記錄的機會
  • 領域:網路安全
動機,Netflix獎,醫療資料庫事件,元數據與流動資料庫,簡介,在實際應用程式中採用差別隱私,

動機

構想一個受信任的機構持有涉及眾多人的敏感個人信息(例如醫療記錄、觀看記錄或電子郵件統計)的數據集,但想提供一個全局性的統計數據。這樣的系統被稱為統計資料庫。但是,提供有關數據的綜合性統計也可能揭示一些涉及個人的信息。事實上,當研究人員連結兩個或多個分別無害化處理的資料庫來識別個人信息時,各種公共記錄匿名化的特殊方法都失效了。而差別隱私就是為防護這類統計資料庫脫匿名技術而形成的一個隱私框架。

Netflix獎

舉例來說,2006年10月,Netflix提出一筆100萬美元的獎金,作為將其推薦系統改進達10%的獎勵。Netflix還發布了一個訓練數據集供競選開發者訓練其系統。在發布此數據集時,Netflix提供了免責聲明:為保護客戶的隱私,可識別單個客戶的所有個人信息已被刪除,並且所有客戶ID已用隨機分配的ID [sic]替代。
Netflix不是網路上唯一的電影評級入口網站,其他網站還有很多,包括IMDb。個人可以在IMDb上註冊和評價電影,並且可以選擇匿名化自己的詳情。德克薩斯州大學奧斯汀分校的研究員Arvind Narayanan和Vitaly Shmatikov將Netflix匿名化的訓練資料庫與IMDb資料庫(根據用戶評價日期)相連,能夠部分反匿名化Netflix的訓練資料庫,危及到部分用戶的身份信息。

醫療資料庫事件

卡內基梅隆大學的Latanya Sweeney的將匿名化的GIC資料庫(包含每位患者的出生日期、性別和郵政編碼)與選民登記記錄相連後,可以找出麻薩諸塞州州長的病歷

元數據與流動資料庫

MIT的De Montjoye等人引入了單一性(意為獨特性)概念,顯示出4個時空點、近似地點和時間就足以唯一性識別一個150萬人流動資料庫中的95%用戶。該研究進一步表明,即使數據集的解析度較低,這些約束仍然存在,即粗糙或模糊的流動數據集和元數據也只提供很少的匿名性。

簡介

差別隱私是隱私損失的數學定義,當私人信息用於創建數據產品時,會導致個人隱私損失。這個詞是由Cynthia Dwork在2006年創造的但正確的參考實際上是Dwork,Frank McSherry,Kobbi Nissim和Adam D. Smith的早期出版物。這項工作部分基於Nissim和Irit Dinur的工作這表明如果不透露一定數量的私人信息就不可能從私人統計資料庫發布信息,並且可以通過發布令人驚訝的少量查詢結果來揭示整個資料庫。
Dinur和Nissim的“資料庫重建”工作的結果是認識到使用隱私的語義定義(主要是在20世紀70年代對Tore Dalenius的工作進行約會)為統計資料庫提供隱私的方法是不可能的,而且限制將私人數據納入統計資料庫需要制定的隱私風險增加。工作和後續研究的結果是技術的發展使得在許多情況下從資料庫提供非常準確的統計數據同時仍然確保高度的隱私。

在實際應用程式中採用差別隱私

實踐中差分隱私的幾種用途是迄今已知的:
  • 美國人口普查局,顯示通勤模式。
  • 谷歌的RAPPOR,用於遙測諸如學習有害軟體劫持用戶設定(RAPPOR的開源實現)的統計數據。
  • Google,分享歷史流量統計信息。
  • 2016年6月13日,蘋果宣布打算在iOS 10中使用差異隱私來改進其智慧型幫助和建議技術。
  • 在數據挖掘模型中,差分隱私的實際實現已經進行了一些初步研究。

熱門詞條

聯絡我們