【特徵工程系列1】用戶評價信息的特徵化

原創

2020-02-20 22:55

在各種互聯網平臺中，或多或少都可以獲得用戶對商品、產品、服務等的評價信息（往往以星級或分數的形式展現）。通過這些信息，我們可以方便的提取這些商品、產品或服務的“質量”特徵。

對於“質量”特徵，常用的方法是求數學期望。例如，假設某一商品得到1星的次數是x1，2星的次數是x2，3星的次數爲x3，4星的次數爲x4，5星的次數爲x5，這樣，可以算出該商品的期望星數爲：

E(x)=1*x1/(x1+x2+x3+x4+x5)+2*x2/(x1+x2+x3+x4+x5)+3*x3/(x1+x2+x3+x4+x5)

+4*x4/(x1+x2+x3+x4+x5)+5*x5/(x1+x2+x3+x4+x5)

=(1*x1+2*x2+3*x3+4*x4+5*x5)/(x1+x2+x3+x4+x5)

這是通用直觀的方法，但是，仍然存在一個問題：往往4星或者5星的數量遠遠大於1星或者2星的數量，這樣直接拿星數統計計算概率時，1星和2星的概率很低，進而對最後計算期望星數幾乎不產生影響；在實際中，卻又是1星或2星的信息量更大，更能反映商品的問題。換句話說，各個星級的權重應該是不同的。

爲此，我們需要首先對各個星級出現的數量取對數log，以降低數目之間的極不均衡性；然後，再求對數期望，即

E(log(x))=(1*log(x1)+2*log(x2)+3*log(x3)+4*log(x4)+5*log(x5))

/(log(x1)+log(x2)+log(x3)+log(x4)+log(x5))

這種對數期望的好處是，各種商品的期望評分等級可以較分散的分佈在1~5星之間，而非對數期望往往使得各商品的期望評分等級較集中的分佈在4~5範圍內，這不利於後期的商品推薦系統的搭建。當然，在對數期望中，對數的基底是一個經驗參數，需要通過離線實驗來進一步的確定。

發佈了25 篇原創文章 · 獲贊 18 · 訪問量 18萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.