《Random Walk based Entity Ranking on Graph for Multidimensional Recommendation》論文閱讀

利用個性化PageRank實現一個新的高靈活性的基於圖的推薦

Abstract

  本文研究了推薦的靈活性,提出了一種基於圖形的多爲推薦方法。對該問題使用隱式反饋數據集構建圖上的實體排序問題。本文采用了個性化PageRank算法用於實體進行排序。
  優點:支持靈活性,可以利用圖中的間接關係
  缺點:處理稀疏性問題的能力


Introduction

  本文中提出的一種基於圖形的方法,提供了推薦的靈活性。將多維空間中的每個維看作實體的域,圖中的節點要麼是實體(eg.用戶個體),要麼是實體的組合(eg.用戶組)。使用隱式反饋數據集中隱含的實體關係分配節點的權值。
  多維推薦問題可以看作是對錶示給定查詢的目標域實體的節點進行排序的問題,該查詢也表示爲一組節點。
  利用圖數據模型進行推薦的優點:

  • 容易將各類信息合併到推薦中
  • 不僅可利用實體之間的直接關係,還可以利用間接關係,是解決數據係數問題。

  本文作者認爲隱式反饋數據集更適合於多維推薦,隱式反饋通常包含多維信息。

本文對比在二維空間中的ItemRank和PureSVD


Related Work

  本文模型可以歸類爲一種基於模型的協同過濾方法,首先使用隱式反饋數據集學習一個圖,然後使用圖進行推薦。
  本文目標是建立一個多爲推薦方法實現推薦的靈活性,可以支持各種類型的推薦請求。


Problem Formulation

只考慮二維空間不考慮多維空間

D1,D2,...,DnD_1,D_2,...,D_n——互斥的集合,每個DiD_i表示一個域Item\in Item(個人理解爲代表不同類型的物品域)
ei1,ei2,...,eikie_{i1},e_{i2},...,e_{ik_i}——一組實體
ε\varepsilon——D1D2...DnD_1\bigcup D_2\bigcup ...\bigcup D_n
QQ——ε\varepsilon 子集的查詢
u(Q,eij)u(Q,e_{ij})——表示查詢QeijQ與實體e_{ij}之間的相關性得分
{u1,u2,...,uk}USER\{u_1,u_2,...,u_k\}\in USER
在音樂上下文推薦中:
  llocationl\in location
  wweatherw\in weather
  queryQ={u,l,w}query Q=\{u, l, w\}
  DTsongD_T就是song


Modeling our method

數據模型

  首先定義實體函數u(Q,eij)u(Q,e_{ij})
將每個屬性視爲域,屬性的值視爲實體用e表示
定義L={v1,v2,...vnv}L=\{v_1,v_2,...v_{n_v}\},對於每個v都是一個元祖(eD1,eD2,...,eDn)(e_{D_1},e_{D_2},...,e_{D_n}),其中eDiDie_{D_i}\in D_i
舉個例子:

USER MOVIE DATE LOCAION
Matt Superman 09-16-2008 Seoul
Jack 300 09-17-2008 Seoul
Matt Rent 09-17-2008 Seoul

定義域
USER={‘Matt’, ‘Jack’}
MOVIE={‘Superman’, ‘300’, ‘Rent’}
DATE={‘09-16-2008’, ‘09-17-2008’, ‘09-17-2008’}
LOCATION={‘Seoul’}
我們可以定義L元組(‘Matt’,‘Superman’,‘09-16-2008’,‘Seoul’),(‘Jack’,‘300’,‘09-17-2008’,‘Seoul’),(‘Matt’,‘Rent’,‘09-17-2008’,‘Seoul’)

假定數據提供方提供了推薦因子F={f1,f2,...,fnF}wifiw1+w2+...+wnF=1F=\{f_1,f_2,...,f_{nF}\}定義{w_i}作爲{f_i}的權值,w_1+w_2+...+w_{n_F}=1,每個fif_i決定什麼影響推薦結果,每一個wiw_i決定因素對推薦的影響程度。

頂點V=V1V2...VTVifiVTDTV=V_1\bigcup V_2\bigcup...\bigcup V_T,其中V_i節點對應域域f_i匹配的組合,V_T中的節點對應目標域D_T的實體
定義了一個|V|*|V|加權鄰接矩陣M爲二部圖G={V,E},假設邊只存在於不在VT的節點到VT的節點之間。此假設保證了圖爲二部圖。

之後計算出泛化矩陣P

對圖中的實體進行排序

排序函數採用個性化PageRank算法對圖模型的排序進行調整。如果一個節點連接到更重要的節點,並且連接出去的鏈接較少,則節點PageRank得分會更高,得分計算公式爲:r=cPTr+(1c)1ne\vec r=cP^T\vec r+(1-c)\frac{1}{n}\vec e
n——是節點數
ri——排序分數
c——阻尼係數通常是0.85,(1-c)每個節點遊走的可能性
1ne\frac{1}{n}\vec e——替代個性化傳送t\vec t,這是表示用戶興趣的個性化偏置量
e=(1,1,...,1)T\vec e=(1,1,...,1)^T
由此計算出個性化PageRank是r=cPTr+(1c)t\vec r=cP^T\vec r+(1-c)\vec t這裏如果節點是用戶感興趣的則t爲1否則爲0。
計算出排序結果得到top-k

個性化PageRank的優勢

  • 可以利用傳播性和衰減性
  • 可以處理多維推薦中嚴重的稀疏性
  • 可以通過各種因素的影響找到目標實體的等級得分

實驗

使用了HR@k的度量標準進行評價,因爲它更適合於度量top-k推薦。
對比了:基於流行度(POP)、基於用戶的協同過濾(UKNN)、ItemRank(IRANK)、PureSVD(PSVD)
兩個實驗進行方法的評估:

  • 評估傳統推薦案例的推薦性能
  • 研究隱式反饋數據集中包含的多維信息的開放效果。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章