人工合成數據是開放數據使用,同時保護數據隱私的重要方法。
基本介紹
- 中文名:人工合成數據
- 外文名:Synthetic Data
人工合成數據是開放數據使用,同時保護數據隱私的重要方法。
其只要方式有兩種:一是完全合成數據(Fully Synthetic Data),即通過隨機抽樣和填補等一系列統計方法產生多個版本的模擬數據,用來完全代替真實數據。一個較優的統計模型,能夠很好的保留原始數據的關聯特性和統計測度,又能保證個體樣本的隱私循跡。然而,由於這個過程相當複雜,完全合成數據一直停留在學術界,沒有在工業界得到大面積的套用。
二是部分合成數據(Partially Synthetic Data),即使用原始數據的樣本,但利用多重數據填補的統計方法取代敏感和關鍵的欄位,從而降低泄露個體樣本敏感數據的可能性。