Google 推薦系統公平性論文解讀

導讀:今天分享的是谷歌一篇關於推薦系統中公平性的文章。

Fairness in Recommendation Ranking through Pairwise Comparisons

https://arxiv.org/pdf/1903.00780.pdf

我之前也沒有太關注這一塊的工作,這次和大家一起解讀一下,希望能爲以後的工作提供些啓發。

推薦系統現在可以說是無處不在,那麼有時候我們就需要考慮公平性的問題:

  • 什麼是公平性?
  • 如何量化它?
  • 如何解決它?

文章提供了一些指標來評價推薦系統算法的公平性,並展示瞭如何基於隨機化實驗的 pairwise comparisons 來衡量公平性。根據相應指標,提出了一個新的正則化方法,來促使模型在訓練中改進相應指標,從而提高排序的公平性。將這種 pairwise 正則化應用於一個大規模的生產環境推薦系統後,能夠顯著提高系統的 pairwise fairness,同時保證相應的點擊與互動指標不掉。

總的來說,雖然提升公平性的過程中,點擊和互動指標是中性的。也是說從用戶側實驗角度來說其實是沒有提升的,實際工作中遇到這種情況其實是無法推上線的。不過我覺得有打算在線上嘗試的同學可以考慮開開作者側實驗,文章中的結論顯示對於原先學習不充分的 group,在應用 pairwise 正則化後,可以提高其點擊率,也就會增加其曝光機會,在不影響大盤指標的情況下,我覺得這個對於作者的發文尤其是小衆的,應該是正向的。

Introduction

本文聚焦於推薦系統中 under-ranking groups of items 的風險。例如,如果社交網絡對某個人口統計羣體的帖子排名不高,那就可能會限制該羣組在服務中的可見性。

現在研究人員已經提出了很多關於公平性的指標,研究推薦系統中公平性的一個挑戰就是指標很複雜。它們通常由多個模型組成,必須平衡多個目標,並且由於極端和傾斜的稀疏性而難以評估。所有這些問題在推薦系統社區中很難解決,並且在改進推薦公平性上存在着額外的挑戰。

另一個挑戰是將推薦系統當做 pointwise 預測問題,然後應用到排序列表中。實際排序構建與 pointwise 是有個 gap 的。公平性問題也有類似的困境。現在研究的公平性指標多圍繞於 pointwise 準確性,但這並不意味着用戶最終看到的排序就好。

另外,因爲系統一直在動態變化,所以推薦系統的評估是及其困難的。用戶昨天感興趣的,明天就可能不感興趣了,我們只有在向他們推薦 item 時才知道他們是否真的感興趣。這就導致通過之前推薦系統得到的指標是有偏的,有大量的研究工作是去做一個無偏的離線評估,但因爲巨大的 item space、反饋的稀疏性以及不斷變化的 user 和 item,使其變得很困難。

本文通過一個 pairwise recommendation fairness metric 來解決這些挑戰。用容易的隨機實驗去獲取用戶偏好的無偏估計。基於這些 pairwise preference,我們也能測量一個 pointwise 推薦系統的公平性,並表明這些指標與排序效果直接相關。此外,我們提供了一種新穎的正規化項,可以提高 pointwise 推薦的最終排序的公平性,如圖1所示。我們在生產環境的大規模推薦系統上進行測試,並顯示出實際的收益,並進行理論&經驗上的權衡。

總的來說,文章有以下貢獻:

  • Pairwise Fairness: 基於 pairwise 提出一系列新穎的評估推薦公平性的指標,並表明 pairwise fairness metric 與排序效果直接相關並分析與 poinwise fairness metrics 的關係。
  • Pairwise Regularization: 提出一個正則化方法在給定的指標上提高模型性能,同時對 pointwise 模型也有效。
  • Real-world Experiments: 在大規模生產環境的推薦系統上實驗,論證其在 pairwise fairness 上有顯著提升。

Related Work

  • Recommender Systems.
  • Machine Learning Fairness.
  • Recommender System Fairness.
  • Fairness Optimization.

Pairwise Fairness for Recommendation

1. Recommendation Environment

假定一個給用戶推薦個性化 top-K items 的生產環境推薦系統,一個帶一組檢索系統+排序系統的級聯推薦。我們假定檢索系統從總候選 J 裏 M 個 items 裏,篩出 M’ 個 items 的集合 R,其中 M >> M’ >= K。排序模型對 M 個 items 打分,然後返回 top-K 個 items,這裏我們聚焦於排序模塊。

細節不太講了,排序這塊就是基於各種目標如點擊,時長,購買等進行建模。本系統會評估用戶是否點擊 $y\in{0,1}$,以及用戶點擊後的 user engagement $z\in R$,比如停留時長,購買或者打分等交互指標。

ranker 是以 θ 爲參數的模型 fθ;訓練模型以預測 user engagement:

最後,通過單調評分函數 $g({^y},{^z})$ 產生最終排序,並且向用戶顯示 top-K 個items。

2. Motivating Fairness Concerns

本文聚焦於 under-recommended 的 groups of items 的風險。比如,一個社交網絡會將 a given demographic group 排得靠後,那麼可能會限制該羣組的可見度和參與度。如果一個網站的評論模塊是個性化的,如果特定羣體的評論排序靠後,那麼他們將會在網站擁有更少的聲音。更抽象的說,我們假設每個 item j 都有敏感屬性 $s_j\in{0,1}$。我們會去評測是否一個 group 的 items 被系統性地排後。

雖然不是我們的主要關注點,但如果特定用戶組偏好某一組項目,這些問題可能會與用戶組問題保持一致。可以明確擴展此框架以合併用戶組。如果每個用戶都有敏感屬性,我們可以計算每個用戶組的所有以下指標,並比較各組之間的性能。例如,如果我們擔心社交網絡對特定人羣的特定主題的項目排名不足,我們可以比較該主題的內容在特定人羣中的排名不足的程度。

3. Pairwise Fairness Metric

儘管上邊的目標看起來是 ok 的,但是我們必須更準確的去評判一個 item 是否是 "under-ranked"

在這裏,我們借鑑了 Hardt et al. [23] 對於平等賠率的理解,分類器的公平性。

通過比較其 FPR and/or FNR 來量化。換句話說,一個 item 是正的,分類器預測其爲正的概率。這在分類問題是好用的,因爲模型可以和一個預定的閾值比較。

在推薦系統中,什麼是正確的預測是不太清晰的,即使我們忽略交互,將分析現在在點擊上。比如一個 item 被點擊,那麼 y = 1,預測的概率 y_hat = 0.6,它是正確的預測嗎?它可以被認爲還差0.4,但相比於其他概率小於0.6的,它是排在前面的。因此要想了解 pointwise 的誤差,需要在同一個 query 下比較 items 的預測狀況。

我們定義一個 pairwise accuracy:對於同一個 query,被點擊 item 排名高於未點擊 item 的概率:

爲了方便:

和大多數公平性研究一樣,我們需要關注的其實是 cross group 的相對錶現而非絕對值。

我們可以比較:

也就是一個 S = 0的 group 裏 items 的 PairwiseAccuracy 是高於還是低於另一個 S = 1 的 group。

雖然這是一個很直觀的 metric,但它的問題在於它完全忽略了用戶 engagement z,可能會引發一些標題黨之類的問題。所以要引入其他相關指標。

Definition 1 (Pairwise Fairness). 對於使用排序公式 g 的模型 f,如果在 items 被交互程度相同的情況下,其兩個 group 裏點擊的 item 排在另一個未點擊 item 之前的可能性在是相同的,則被認爲滿足 pairwise fairness:

此定義爲我們提供了每個組中 items 的排名準確性的總體概念。

但這塊對於曝光不足 group 的 items 還是有問題的。假設有 A、B 兩個 group ${A_j}^3_{j=1}\cup{B_j}^3_{j=1}$,都有3個 items,第一種情況 A1 被點擊,第二種 B1 被點擊。

第一種情況,系統給出 [A2,A3,B1,A1,B2,B3],第二種情況給出 [A1,A2,A3,B1,B2,B3],我們可以看到整體 pairwise accuracy 都是2/5,但是第二種情況,B 都在 A 後邊。這個兩個情況都有把被點擊 item 排低的問題,但是後者顯然更有問題,它獨立於用戶偏好,而系統性地偏好一個 group。

爲了解決這個問題,我們將上述的 pairwise fairness 定義拆分成兩個獨立的標準:pairwise accuracy between items in the same group and pairwise accuracy between items from different groups。我們將這些 metrics 叫做intra-group pairwise accuracyandinter-group pairwise accuracy

於是我們也可以定義 Intra-Group Pairswise Fairness and Inter-Group Pairwise Fairness標準。

Definition 2 (Intra-Group Pairwise Fairness). 對於使用排序公式 g 的模型 f,如果在 items 被交互程度相同的情況下,兩個 group 裏內部點擊的 item 排在另一個未點擊 item 之前的可能性在是相同的,則被認爲滿足 intra-group pairwise fairness:

Definition 3 (Inter-Group Pairwise Fairness). 對於使用排序公式 g 的模型 f,如果在 items 被交互程度相同的情況下,兩個 group 裏點擊的 item 排在另一個組裏未點擊 item 之前的可能性在是相同的,則被認爲滿足 inter-group pairwise fairness:

(6)

說的有點囉嗦,公式其實比較清晰。

在某種程度上的組內公平性與整體公平概念起類似作用,因爲它表示推薦系統能夠很好地對用戶感興趣的項目進行排名。組間公平性則讓我們進一步瞭解以 group 爲整體中,排序中錯誤的代價。

通過分解整體 pairwise accuracy,我們可以看得更清晰:

(7)

也就是說,我們發現我們可以將 pairwise comparisons 分爲兩組,即組內和組間比較,並且 overall pairwise accuracy 是 inter-group accuracy 和 intra-group accuracy 的加權和,其中權重通過相應的點擊和參與度的概率來確定。這些指標使我們更好地瞭解推薦系統的公平性。

4. Measurement

如開頭所說,推薦系統中的 user 和 item 是動態的,並且我們通常僅能觀察到用戶對先前推薦的項目的反饋,這使得指標易受先前推薦系統中的偏差影響。

但是,對於上面給出的所有三個公平性定義,我們希望對 items pair 之間的用戶偏好進行無偏估計。爲此,我們在推薦系統上一小部分 query 進行 randomized experiments。下面的實驗描述都假設在實驗組中對 query 子集進行操作。

對於實驗的 query,我們將在推薦位置2和3向用戶展示一對 items;這可以防止位置偏差,即排名低的項目比排名高的項目更不可能被點擊。因爲上面的定義是來自給定 query 的相關項集合的任意項目對,所以對於每個 query,從 Rq 隨機選擇兩個項目,那它們在位置二和三中的排序也是隨機的。

在實驗 query 中,只有一小部分將對隨機項目對中的一個項目進行點擊。當有 item 被點擊時,我們記錄 query,pair,被點擊 item 後續的 engagement z。有了這個,我們可以計算上面公平性定義中的所有概率。在實踐中,我們將 z 離散化爲桶以便於比較。

請注意,通過此實驗可以看出,如果 item 未被點擊,我們將無法觀察到參與度。這使我們當前的指標設計基於 z 的條件,而不是估計 z 的準確性,因爲我們只知道該 pair 中被點擊 item 的 z。

Discussion 這些指標將排序模型的性能與最終排序的最終公平性屬性聯繫起來。一個潛在的假設是,相關項目集合 Rq 的檢索系統在某種意義上是“公平的”。我們認爲需要進一步的研究來理解檢索系統對“公平”的意義以及檢索系統中的任何程度的偏差如何通過排名系統傳播來影響最終的排序體驗。

Theoretical Analysis

1. Ranking Interpretation

目前描述的指標主要是類似 pairwise accuracy,但也可以從 ranking 的角度來解釋。一個推薦系統通過 g 和 fθ 來對 $R_q$ 進行排序。用 $\ell(j)_q$ 來表示 item j 在排序 list 中的位置:

上式其實就把 pairwise fairness 和排序位置的公平性聯繫了起來。

Theorem 1. 如果一個推薦系統達到 pairwise fairness,那麼組間 engagement 爲 z 的 clicked item 的預期位置是相同的。

Proof. This falls out of the definition of pairwise accuracy and pairwise fairness:

因此,我們可以將 pairwise recommender fairness 解釋爲被點擊和交互 item 的位置不應取決於組內成員的平均值。(這種分析類似於傳統 pairwise IR 中的概率解釋,但現在是在推薦系統公平性的背景下。)

inter-group and intra-group pairwise accuracies 也和 clicked item 的排序位置相關聯。

這裏整體排名可以被分解爲來自同一組的排名和來自其他組的排名。但是,由於每種類型的比較數量可能會有不同的分佈,我們認爲將這些術語作爲概率是有意義的。

2. Relation to Pointwise Metrics

推薦系統中經常會根據 Calibration 和 RMSE 進行評估,這些指標對於分類和推薦來說是重要的公平性指標,但是對於保證 pairwise fairness 還是不足的。

舉個簡單的例子,$z=0~{\rm and}~g(y,z)\triangleq y$,可以被認爲是用 pCTR 來排序,對於每個 group s,用 ${\bar y}s\triangleq \mathbb{E}{q,j}[y_{q,j}|s_j=s]$ 來表示其 label y 的均值。

Calibration 先看一下 calibration 和 pairwise fairness 之間的關係,一個 pCTR 模型 f(x),當且僅當 y 滿足以下情況,可以認爲是校準的。

就是預測值的均值等於實際均值,可以大概理解爲在全局上是準的。

Lemma 1. A calibrated model is insufficient for guaranteeing pairwise ranking fairness.

Proof. 舉個 calibrated model 不滿足 pairwise fairness 的例子,假設我們學到一個模型對任意 group s 的 item 可以預測 $f(q,v_j)\triangleq{\bar y}_{s_j}$。這個模型毫無疑問是對每個 group 都校準了。

如果我們有兩個組,$~s$ 和 $~s’$,${\bar y}{{~s}}>{\bar y}{{~s’}}$,對任意 items j 屬於$~s$,和 j’ 屬於 $~s’$,有 $P(C_q(j,j’))=1$。因此

and

顯然沒有保證組間的公平性。根據公式(7),我們可以發現只要

全局 pairwise fairness 的公平性就無法保證。

Squared Error 推薦系統中另一個通用指標就是MSE,此指標和其變種被用來評估協同過濾系統的公平性。雖然可能促進跨羣體間的準確性,但是還是不足以保證pairwise fairness。

Lemma 2. Equal MSE across groups is insufficient for guaranteeing pairwise ranking fairness.

Proof. 還是舉個滿足跨組MSE的模型,但不滿足 pairwise fairness。和剛纔一樣,學到模型 $f(q,v_j)\triangleq{\bar y}{s_j}$。同樣兩個 group,有 ${\bar y}{{~s}}=1-{\bar y}{{~s’}}$ and ${\bar y}{{~s}}>{\bar y}_{{~s’}}$,可以看到:

因爲設定 ${\bar y}{{~s}}=1-{\bar y}{{~s’}}$,可推得 ${\rm MSE}{{~s}}={\rm MSE}{{~s’}}$。同上一個論證,${\bar y}{{~s}}>{\bar y}{{~s’}}$,有 $P(c_q(j,j’))=1$。因此

and

也無法保證組間的公平性。

跨組的 MSE 直觀上是有價值的,但是如前文所寫,其對排序是不足的,MSE 沒有區分過度預測和預測不足,不過即使考慮到也還是沒用,因爲其忽略了相對排名。

3. Pairwise Regularization to Improve Fairness

如何學到一個推薦系統讓其滿足公平性呢?之前說過,目前生產環境上的推薦系統大多是 pointwise 的,去預測 y 和 z,所以我們提出一種建模方法且適用於現存技術。

先假設模型是通過 loss $L(f_{\theta}{q,v},(y,z))$ 訓練,比如用平方誤差,就是:

進一步,我們假設已知 $g({^y},{^z})$ 並且其是可微的,因此我們用一下目標訓練模型 fθ:

D 是原始訓練數據,P 是前文說的實驗數據由 $((q,j,y,z),(q’,j’,y’,z’))$ 組成。第二項是由 A B 計算來的相關性,都是來自 P 的隨機變量。

pairwise regularizer 會計算被點擊和未被點擊的項目之間的殘差與被點擊的項目的組成員的相關性。因此,如果模型預測某個組裏項目被點擊的能力優於另一個組,則該模型會受到懲罰。

爲保證有足夠的數據進行有意義的計算,重新平衡了下 P,讓其有一半的被點擊的 item 屬於 group s = 0,另一半屬於 group s = 1。根據目標我們可以進行更進一步的限制,如果我們關注組內公平,那麼我們可以限制 P 讓 $s_j\neq s’_j$

這種方法既適用於 pointwise 推薦系統,也適合 pairwise 推薦系統。

其不能證明能保證 pairwise fairness,但是它有很強的實驗效果並且易於應用,這對生產環境很重要。

Experiments

爲了理解 pairwise fairness 指標和提出的建模改進,我們研究了大規模生產環境推薦系統的效果。分析 sota 模型的性能以及我們的建模更改對系統的影響。

1. Experimental Setup

如前文,這是一個多個檢索系統+排序模型的級聯推薦系統。我們評估的是排序效果。排序模型是一個 muti-head 的多層 NN 模型,預測點擊 y 和後續轉化的交互 z,模型持續得由之前推薦的數據去訓練。這算是目前業界標配的搞法了。

我們研究了排序模型對於 sensitive subgroup 相對於其他數據 “not subgroup” 的效果。subgroup 大概佔了總 items 的0.2%,但其對於分析推薦系統公平性很重要。如之前隨機試驗所述,我們收集向用戶展示的相關 items 的隨機對數據集 P,並在用戶點擊其中一個項目時進行記錄。我們從數據集中隨機取一半用於 pairwise regularization,另一半用於評估模型。

比較兩個版本的模型:

(1) 不考慮任何公平性的生產模型

(2) 同樣結構但是用 pairwise regularization 去優化組間 pairwise 公平性的測試模型。

如下所示,我們聚焦於組間公平性,因爲這塊更待提高。

因爲敏感性,這裏就不寫絕對指標了,而是 subgroup 和其餘項的相對效果。簡單彙總平均了不同交互級別的 pairwise accuracy,並通過 not subgroup 的平均準確率除以 subgroup 得到相對準確率。所有繪圖將 engagement z 分爲四個級別並保持相同的 y 軸縮放,以便比較。

2. Baseline Performance

(1) pairwise fairness

(2) intra-group pairwise fairness

(3) inter-group pairwise fairness

圖2(a)可以看到,engagement 低的時候,subgroup 的 items 是 under-rank,當 engagement 高時是 over-rank。總體來說 non-subgroup 略優8.3%。

圖3(a)顯示 subgroup 在任意級別的 engagement,選被點擊 item 的效果更困難。non-subgroup 在 intra-group pairwise fairness 上優 14.9%。這部分是由於 subgroup 很小,而 non-subgroup 項目之間存在更多的差異,使得比較更容易。當移除 subgroup 裏很多高相似的,性能就沒有區別了。

因爲發現組間公平性很差,non-subgroup 優35.6%,所以我們聚焦提升組間 pairwise fairness。

3. Fairness Improvements

圖一顯示 pairwise regularization 基本使組間公平性對齊,正則化讓 non-subgroup 的 pairwise accuracy 下降了,使兩組間的差距從35.6%下降到2.6%,但是 non-subgroup 的精度下降是不好的,不過測試模型的 pairwise accuracy 還是和之前組間看到的 pairwise accuracy 大致相當。

圖2可以看到組間效果是提升的,差別從8.3%降到2.5%,但是 Intra-group accuracy 基本沒被 pairwise regularization 優化。

在線上實驗中,我們發現對於 engagement 指標是中性的,subgroup 在全局中也只是很小的一部分,取得公平性收益並沒有以全局效果爲代價。

4. How are improvements achieved?

結果可靠,但我們進一步進行分析,來了解正規化如何縮小 fairness gaps。我們檢查每組 item 的 exposure 和用戶偏好的比較,類似於粗略的 pairwise 校準分析。

圖4(a)顯示,不論什麼級別的 engament,subgroup 的點擊率一直比較差,但是高 engagement 的 item 相對點擊率到還好。

exposure:模型將一組 item 排到另一組 item 上的概率

圖4©中展現了正則項 subgroup 的 item 有更高的點擊率相對於自然學習來說,這也就給了 subgroup item 更多的被推薦機會。

Conclusion

這項工作提供了一種易於理解的方式來獲得推薦系統排序公平性的無偏差測量,通過成對實驗來觀察用戶偏好來做到。基於這些實驗數據,可以評估和分解推薦系統的公平性,以查看模型是否系統地對特定組中的項目進行錯誤排序或排名不足。我們證明這一指標與排序平性定義一致,但不包括 pointwise 公平性指標。我們最終提出了一種新穎的 pairwise regularization 方法,以提訓練期間推薦系統的公平性,並表明它顯著提高了大規模生產系統中的公平指標。

本文來自 DataFun 社區

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章