用於推薦系統評估的概念與指標(1)

在推薦系統中,研究人員爲了能讓預測結果對用戶提供更多價值,會關注用戶滿意度。鑑於推薦系統除了讓用戶購買更多的相似產品外,還必須對用戶而言“有用”,研究人員還會關注用戶在使用系統時的交互體驗和消費體驗。 目前,研究人員正在通過評估不同的指標來解決這個問題,而不是簡單地通過預測準確度和機器學習技術。

推薦系統的性能應該由它爲用戶產生的價值來衡量。在推薦系統的評估問題上,目前有很多指標,比如說覆蓋率、新穎性、多樣性、驚喜度。這些評估方法名稱各不相同。

有些學者把推薦系統中的新穎性、相關性、驚喜度等稱其爲“概念(concept )”,另一些學者則稱其爲“維度(dimensions)”,還有些人稱其爲“推薦系統評估的方法(measures of recommender system evaluation)”。

在本文中,我們將使用“概念”一詞,指代評估推薦系統時的不同方面。在對現有概念歸類後,我們將其分爲了六大類:實用性、新穎性、多樣性、奇異性、覆蓋率、驚喜度和覆蓋率。但還有一些概念未提及,如:信任、風險、魯棒性、隱私、適應性和可擴展性。爲了方便讀者閱讀,我們會把這幾大概念用不同的篇幅呈現。

表1總結了本文在所有評估指標中使用的符號。

實用性

推薦系統的實用性有很多別稱,例如相關性、有用性、推薦價值和用戶滿意度等。《推薦系統手冊》(Recommender Systems Handbook)認爲,實用性代表了用戶在推薦時所獲得的價值。如果用戶喜歡推薦的項目,他/她收到的推薦就是有用的。實用性還被定義爲用戶消費偏好順序。如果用戶只消費他們最喜歡的東西,那麼推薦這些項目能幫助用戶更快找到心中所愛,從而達到推薦的實用性。

可以看出,大多數定義將實用性與用戶消費的願望與用戶滿意度掛鉤。在這樣的定義中,評估推薦系統的實用性應該集中在用戶對推薦系統生成的預測做何反應。我們可以通過評估用戶在消費物品後給出的評級,從而衡量推薦系統實用性。如果推薦結果爲用戶帶來了價值,這種方法似乎是可取的,但這涉及到了在線評估。而說到離線評估,部分學者建議使用基於準確度的指標來評估。

在本文中,我們使用符號𝑢𝑡𝑖𝑙(𝑅𝑢)util(Ru)來表示推薦系統的實用性,評估實用性的指標會在下文中一一介紹。

1. 誤差度量(Error metrics)

誤差度量被廣泛用於預測準確性。平均絕對誤差(MAE,Mean Absolute Error)能夠評估推薦系統預測的評級與用戶給出的評級之間的差異。

公式1顯示的是MAE指標。

此外,均方根誤差(RMSE,Root Mean Squared Error)是另一種誤差度量標準,用來計算評級預測中較大誤差之間的差異如公式2所示。

標準差是用來衡量一組數自身的離散程度,而均方根誤差是用來衡量觀測值同真值之間的偏差,它們的研究對象和研究目的不同,但是計算過程類似,都是在預測列表上計算的。

此外,還有其他誤差度量標準,例如平均RMSE (Average RMSE),平均MAE( Average MAE)和均方誤差(Mean Squared Error)。

2. 精確度(Precision)和召回(Recall)

推薦的精確度包括推薦列表中用戶消費(或評級)項目的數量,如公式3所述。精確度能夠​​測量推薦列表中用戶喜歡並消費的項目的比率。

召回是根據用戶消費的項目總數中,出現在推薦列表中的消費項目數計算得出的。公式4則指召回計算。

3. ROC曲線

ROC曲線的全稱是Receiver Operating Characteristic Curve,中文名字叫“受試者工作特徵曲線”,顧名思義,其主要的分析方法就是畫這條特徵曲線。

ROC曲線能夠測量推薦列表中用戶喜歡的項目的比率。與誤差度量、精確度和召回指標不同,ROC曲線的計算強調推薦但用戶不喜歡的項目。在不同情景下對算法的評估可以使用ROC曲線下的面積(AUC,Area under the ROC curve)。

4. 排序(Ranking score)

在評估推薦列表時引用排序指標很有用。推薦系統通常預測排名列表,然而用戶不太可能瀏覽所有的項目。因此,排序指標在測量實用性和排名信息時可能很有趣。排序靠前的項目更重要。

公式5指R-Score度量,其中𝑟(𝑖,𝑗)r(i,j)是等級中項目𝑖i的等級,𝑑d是中值等級,αα代表半衰期衰減值。

除了R-Score,還有其他排名指標,如 Kendall and Spearman rank correlation 和Normalized Distance-based Performance Measure

5. 基於實用性的在線評估指標

在在線評估中,還會同用戶一起評估推薦系統的實用性。研究人員通常會進行用戶試驗,來測試其推薦系統的實用性,或在行業應用時對其進行評估。

點擊率(CTR,Click-through-rate)是計算推薦商品數量中用戶已點擊/互動的推薦商品的比率。自網絡/移動廣告和在線營銷興起以來,點擊率就開始進入人們的視野。點擊率也是在推薦系統中的主要的度量標準,有助於研究用戶推薦項目的有效消費數量。

點擊率被用作推薦系統實用性評估指標的前提是,用戶如果點擊/交互/消費推薦項目,那麼該推薦對用戶而言有用。從商業角度來看,它顯示了推薦系統在預測方面的有效性。度量標準可以在公式6中看到。

存留(Retention)也是用於在線評估推薦系統的指標。存留能夠衡量推薦系統在保持用戶消費行爲或使用系統等方面的影響。存留一直是評估的焦點,已被應用於許多場景中。

值得一提的是,前面提到的推薦系統實用性評估指標同樣適用於在線評估。例如,基於準確度的指標(例如誤差度量、精確度、召回)也適用於在線評估。

閱讀更多:

如何解決推薦系統中的冷啓動問題?

推薦系統:算法概述

推薦系統:混合過濾

推薦系統:協同過濾及其利弊

推薦系統:基於內容的過濾及其利弊

推薦系統的工作流程

白話推薦系統

推薦系統相關術語知多少

入門推薦系統,你不應該錯過的知識清單

推薦系統簡論

薦是一款賦能媒體的AI產品,是集內容上傳、內容管理、內容分發、推薦干預、前端渲染於一體的一站式推薦服務可視化平臺,支持PC、WAP、APP全平臺接入,幫助媒體從0到1搭建推薦系統,顯著提升用戶活躍、留存、觀看時長等重要業務指標,在減少技術成本投入的同時,大幅提高媒體運營效率,從而實現業務智能化轉型。目前已服務人民日報、環球網、花瓣網、果殼網、段友、36氪、簡書等三百餘家內容平臺,其中在環球網web端的興趣推薦項目上,實現了點擊率58%的提升,同時訪問量和營收分別增長了69%、20%。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章