如果對一個事件A越確定,該事件的概率P(A)就越大;對一個事件B越不確定,則該事件的概率P(B)就越小。通過事件A,可以增大事件B的確定性,也可能造成干擾降低對事件B的確定性。
在隱私中,爲了可能地保護隱私,應儘可能讓攻擊者在發佈統計數據後對某個事件的確定性,和發佈前對該事件的確定性相差不大。發佈統計數據後對某個事件的確定性稱爲後驗知識,發佈前對該事件的確定性稱爲先驗知識。如發佈前事件A的概率爲P(A)=0.3,發佈統計數據R(A)後,攻擊者對事件A的概率確定性提高到了P(A∣R(A))=0.9,那麼在某種程度上泄漏了事件A的隱私,不能夠很好地保護隱私。
隱私上缺口(upward (alpha, beta)-privacy breach)
定義(upward (α,β)−privacy breach):定義R是輸入爲u∈DU,輸出爲v∈DV的算法。如果對於某個概率分佈f,存在一個預測器ϕ,有:
∃u∈Du,∃v∈Dv,s.t. Pf(ϕ(u))≤α and Pf(ϕ(u)∣R(u)=v)≥β,
則稱算法R存在(α,β)隱私上缺口(upward (alpha, beta)-privacy breach)。
MARK:
- 算法R可以簡單理解爲一個函數,定義域爲DU,值域爲DV。
- 算法R可以認爲是對數據(比如疾病)進行了處理後發佈,一種常用的方式是加噪處理。
- 例:若α=0.3,β=0.9,若算法R存在隱私上缺口,那麼攻擊者通過發佈的信息得到了額外的知識,對u能夠更加準確的預測。
隱私下缺口(downward (alpha, beta)-privacy breach)
同樣地可以定義隱私下缺口:
定義(downward (α,β)−privacy breach):定義R是輸入爲u∈DU,輸出爲v∈DV的算法。如果對於某個概率分佈f,存在一個預測器ϕ,有:
∃u∈Du,∃v∈Dv,s.t. Pf(ϕ(u))≤β and Pf(ϕ(u)∣R(u)=v)≥α,
則稱算法R存在(α,β)隱私上缺口(upward (alpha, beta)-privacy breach)。
MARK:
- 注意α,β互換位置了;
- 例:若α=0.05,β=0.6,若算法R存在隱私上缺口,那麼攻擊者通過發佈的信息可以非常確定u是不太可能出現的。
(alpha, beta)-privacy
定義:((α,β)−privacy).定義R是輸入爲u∈DU,輸出爲v∈DV的一個算法。當R不存在(α,β)隱私上缺口和(α,β)隱私下缺口時,稱R滿足(α,β)−privacy。
MARK
- 該定義從算法的角度,而不是數據的角度定義了隱私;
- 該定義限制了攻擊者在看到發佈數據後,對任意事件確定性的變化,即概率差不超過β−α。