推薦系統(1)

原文鏈接:https://www.toutiao.com/i6725572037777031683/

有關推薦系統評測指標

什麼纔是好的推薦系統?這是推薦系統評測的需要解決的首要問題。那怎麼去判斷一個系統的好壞呢?一個好的推薦系統不僅僅能夠準確的預測用戶的行爲,而且還能夠擴展用戶的視野,幫助用戶發現那些他們可能會感興趣但卻不那麼容易發現的東西。

評價一個推薦系統的好壞一般有幾個不同的指標,這些指標包括:準確度、覆蓋度、新穎度、驚喜度、信任度等。這些指標中,有些是可以離線計算,有的只能在線計算,有些只能通過用戶反饋才能得到。下面將會依次介紹這些指標。

1、推薦系統實驗方法
介紹推薦系統的指標前,先看下計算和獲得這些指標的主要實驗方法。一般有三種:離線實驗、用戶調查和在線實驗。

1.1離線實驗:

(1)通過日誌系統獲得用戶行爲數據,並按照一定格式生成一個標準的數據集

(2)將數據集按照一個的規則分爲訓練集和測試集

(3)在訓練集上訓練用戶興趣模型,在測試集上進行預測

(4)通過事先定義的離線指標評測算法在測試集上的預測結果

1.2用戶調查:

用戶調查需要有一些真實的用戶,讓他們在需要測試的推薦系統上完成一些任務,在他們完成任務時,我們需要觀察和記錄用戶的行爲,並讓他們回答一些問題。最後,分析他們的行爲和答案瞭解測試系統的性能。

1.3在線實驗:

在完成離線實驗和必要的用戶調查後,可以將推薦系統上線做AB測試,將它和舊的算法進行比較。

一般來說,一個新的推薦算法最終上線,需要完成上面三個實驗:

首先,需要通過離線實驗證明它在很多離線指標上優於現在的算法;
然後,需要通過用戶調查確定它的用戶滿意度不低於現在的算法;
最後,通過在線的AB測試確定它在我們關心的指標上優於現有的算法。

2、評測指標
現在,開始介紹各種推薦系統的評測指標。這些評測指標可用於評價推薦系統各方面的性能。

2.1用戶滿意度

用戶作爲推薦系統的重要參與者,其滿意度是評價推薦系統的重要指標,一般來說,用戶滿意度主要通過用戶調查和在線實驗獲得。

用戶調查主要是通過調查問卷的形式。用戶對推薦系統的滿意度分爲不同的層次。

在線實驗可以通過分析用戶行爲的統計得到。比如用戶購買了推薦的物品,推薦網站設計滿意和不滿意反饋按鈕,還可以用點擊率、用戶停留時間和轉化率等指標度量用戶的滿意度。

2.2預測準確度

預測準確度是度量一個推薦系統或者推薦算法預測用戶行爲的能力。這個指標是一個重要的推薦系統離線評測指標。預測準確度可以分爲評分預測準確度和TopN推薦準確度。

評分預測:很多提供推薦服務的網站都有一個用戶給物品打分的功能,如IMDB電影網站就會有用戶給電影打分的功能。那麼,如果知道了用戶對物品的歷史評分,就可以從找那個學習得到用戶的興趣模型,並預測該用戶看到一個沒有評分過的物品時會給該物品評多少分。評分預測準確度一般通過均方根誤差(RMSE)和平均絕對誤差(MAE)計算。

opN推薦:網站在提付推薦服務時,一般是給用戶返回一個個性化的推薦列表,這種推薦叫做TopN推薦。TopN推薦的準確度一般通過準確率(precision)和召回率(recall)來度量。

2.3覆蓋率

覆蓋率描述一個推薦系統對物品長尾的發掘能力。覆蓋率有不同的定義,最簡單的定義爲推薦系統能夠推薦出來的物品佔總物品集合的比例。這裏對覆蓋率不做過多的介紹,有興趣的可以自行查資料瞭解。

2.4多樣性

用戶的興趣是廣泛的。比如說一個用戶喜歡看《海賊王》等一類的動漫,也可能喜歡看科幻片。那麼,爲了滿足用戶廣泛的興趣,推薦列表需要能夠覆蓋到用戶不同的興趣領域,即推薦結果需要具有多樣性。

多樣性描述的是推薦列表中物品兩兩之間的不相似性。

2.5新穎性

新穎的推薦是指給用戶推薦那些他們以前沒有聽過的物品。實現新穎性最簡單的方法是把那些用戶之前在網站中對其有過行爲的物品從推薦列表中過濾掉。但是過濾掉這些不能完全實現新穎性,有些無可能用戶在其他的地方有過行爲。而評測新穎度的最簡單的方法是利用推薦結果的平均流行度,因爲越不熱門的物品越可能讓用戶覺得新穎。因此,如果推薦結果中物品的平均流行度較低,那麼推薦結果就有可能有比較高的新穎性。

2.6驚喜度

驚喜度是最近幾年推薦系統領域熱門的話題。目前對驚喜度沒有公認的定義,一般認爲如果推薦結果和用戶的歷史興趣不相似,但卻讓用戶覺得滿意,那麼就可以說推薦結果的驚喜度很高,而推薦的新穎性僅僅取決於用戶是否聽過這個推薦結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章