【特徵工程系列1】用戶評價信息的特徵化

       在各種互聯網平臺中,或多或少都可以獲得用戶對商品、產品、服務等的評價信息(往往以星級或分數的形式展現)。通過這些信息,我們可以方便的提取這些商品、產品或服務的“質量”特徵


       對於“質量”特徵,常用的方法是求數學期望。例如,假設某一商品得到1星的次數是x1,2星的次數是x2,3星的次數爲x3,4星的次數爲x4,5星的次數爲x5,這樣,可以算出該商品的期望星數爲:


E(x)=1*x1/(x1+x2+x3+x4+x5)+2*x2/(x1+x2+x3+x4+x5)+3*x3/(x1+x2+x3+x4+x5)

+4*x4/(x1+x2+x3+x4+x5)+5*x5/(x1+x2+x3+x4+x5)

=(1*x1+2*x2+3*x3+4*x4+5*x5)/(x1+x2+x3+x4+x5)


      這是通用直觀的方法,但是,仍然存在一個問題:往往4星或者5星的數量遠遠大於1星或者2星的數量,這樣直接拿星數統計計算概率時,1星和2星的概率很低,進而對最後計算期望星數幾乎不產生影響;在實際中,卻又是1星或2星的信息量更大,更能反映商品的問題。換句話說,各個星級的權重應該是不同的。

       爲此,我們需要首先對各個星級出現的數量取對數log,以降低數目之間的極不均衡性;然後,再求對數期望,即


E(log(x))=(1*log(x1)+2*log(x2)+3*log(x3)+4*log(x4)+5*log(x5))

/(log(x1)+log(x2)+log(x3)+log(x4)+log(x5))

        

       這種對數期望的好處是,各種商品的期望評分等級可以較分散的分佈在1~5星之間,而非對數期望往往使得各商品的期望評分等級較集中的分佈在4~5範圍內,這不利於後期的商品推薦系統的搭建。當然,在對數期望中,對數的基底是一個經驗參數,需要通過離線實驗來進一步的確定。

發佈了25 篇原創文章 · 獲贊 18 · 訪問量 18萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章