推薦系統中的NDCG

說到NDCG就需要從CG開始說起。

CG(cumulative gain,累計增益)可以用於評價基於打分/評分的個性推薦系統。假設我們推薦k個物品,這個推薦列表的CGk計算公式如下:
CGk=ikreliCG_k=\sum _i^k rel_i.
relirel_i 表示第kk個物品的相關性或者評分。假設我們共推薦kk個文檔,relirel_i可以是用戶對第ii部電影的評分。

比如豆瓣給用戶推薦了五部電影,

M1,M2,M3,M4,M5,M1,M2,M3,M4,M5,

該用戶對這五部電影的評分分別是

5, 3, 2, 1, 2

那麼這個推薦列表的CGCG等於
CG5=5+3+2+1+2=13.CG_5=5+3+2+1+2=13.
CGCG沒有考慮推薦的次序,在此基礎之後我們引入對物品順序的考慮,就有了DCGDCG(discounted CG),折扣累積增益。公式如下:

DCGk=i=1k2reli1log2(i+1).DCG_k=\sum_{i=1}^k \frac{2^{\text{rel}_i}-1}{\log_2(i+1)}.
比如豆瓣給用戶推薦了五部電影,

M1,M2,M3,M4,M5M1,M2,M3,M4,M5,

該用戶對這五部電影的評分分別是

5, 3, 2, 1, 2

那麼這個推薦列表的DCGDCG等於
DCG5=251log22+231log23+221log24+211log25+221log26=31+4.4+1.5+0.4+1.2=38.5DCG_5=\frac{2^5-1}{\log_2 2}+\frac{2^3-1}{\log_2 3}+\frac{2^2-1}{\log_2 4}+\frac{2^1-1}{\log_2 5}+\frac{2^2-1}{\log_2 6}=31+4.4+1.5+0.4+1.2=38.5
DCGDCG沒有考慮到推薦列表和每個檢索中真正有效結果個數,所以最後我們引入NDCGNDCG(normalized discounted CG),顧名思義就是標準化之後的DCGDCG

NDCGk=DCGkIDCGkNDCG_k=\frac {DCG_k} {IDCG_k}
其中IDCGIDCG是指ideal DCGDCG,也就是完美結果下的DCGDCG

繼續上面的例子,如果相關電影一共有7部

M1,M2,M3,M4,M5,M6,M7M1,M2,M3,M4,M5,M6,M7
該用戶對這七部電影的評分分別是

5, 3, 2, 1, 2 , 4, 0

把這7部電影按評分排序

5, 4, 3, 2, 2, 1, 0

這個情況下的完美DCG是
IDCG5=251log22+241log23+231log24+221log25+221log26=31+9.5+3.5+1.3+1.2=46.5IDCG_5=\frac{2^5-1}{\log_2 2}+\frac{2^4-1}{\log_2 3}+\frac{2^3-1}{\log_2 4}+\frac{2^2-1}{\log_2 5}+\frac{2^2-1}{\log_2 6}=31+9.5+3.5+1.3+1.2=46.5
所以

NDCG5=DCG5IDCG5=38.546.5=0.827NDCG_5 = \frac{DCG_5}{IDCG_5}=\frac{38.5}{46.5}=0.827
NDCG是0到1的數,越接近1說明推薦越準確。
下圖爲兩個變量的概念解析:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章