論文 | 翻譯 ——Resolving data sparsity and cold start problem in collaborative filtering ……(2019:協同過濾RS)

目錄 <SCI 2>

0.專有詞彙

0.Abstract

1.Introduction

2.Related works

2.1 Baseline estimation

2.2 Linked open data enabled recommendation system

3. Proposed approach: recommender system with Linked Open Data

3.1 LOD for cold start problem in CF (RS-LOD)

3.2 Enhanced matrix factorization model for data saprsity

3.3.Linked open data (LOD) similarity measure

3.4.Matrix factorization with hidden feedback and LOD similarity measure (MF-LOD)

4. Experimental analysis and results

4.1.Data set

4.2.Evaluation metrics and methods

4.3.Experimental results

5.Conclusion

6.論文鏈接


0.專有詞彙

data sparsity: 數據稀疏              cold start : 冷啓動

matrix factorization : 矩陣分解  knowledge base : 知識庫

accuracy : 準確性                       user profile : 用戶模型(畫像)

rating matrix : 評分矩陣             resource description framework(RDF) : 資源描述框架

key features : 關鍵特徵              latent factors : 潛在因子

semantic features : 語義特徵    distinctive features : 區別性特徵

ontological : 本體論的               heterogeneous nature : 異質性

representation, interoperability, and expressivity : 表示性、互操作性、可擴展性

real-time : 實時                          singular value decomposition (SVD) : 奇異值分解

Linked data semantic distance measurement :鏈接數據語義距離測量

incoming/outgoing links:    傳入/傳出鏈接

new entity : 新實體(新用戶/新商品)regulator : 調度器                 

query constructor : 查詢構造器

SPARQL query : SPARQL查詢(數據庫查詢命令)    information miner : 信息礦工

implicit feedback data : 隱式反饋數據

0.Abstract

1.Introduction

【論述過程】

推薦算法分類 → 協同過濾算法 → 數據稀疏/冷啓動 → LOD(Linked open data : 鏈接開源數據) → 解釋了一下相關概念:RDF\DBpedia(知識庫)\矩陣分解綜述 → 本文貢獻 → 後續文章內容安排

【研究創新點】

①將鏈接開源數據(LOD)與近鄰協同過濾推薦系統融合

②將鏈接開源數據(LOD)與矩陣分解相融合

③基於LOD的推薦系統框架是通用的

④Netflix和Movielens數據集上實驗結果較優

【文章觀點存在問題】

①推薦系統分類不妥

②知識庫會涉及用戶大量個人隱私數據(人口統計信息)

③評分值本身存在失真問題,文章並沒有進行處理

2.Related works

2.1 Baseline estimation

【論述過程】

介紹了一些近鄰協同過濾推薦算法的基本操作:①均值預測填充 → ②用戶/商品偏執項預測填充(最小二乘優化) → ③奇異值分解(SVD) → 提出問題

【引出文章研究問題】

基於現有SVD的推薦系統並未使用語義信息和交互數據進行未知評分的預測和冷啓動問題的處理

2.2 Linked open data enabled recommendation system

介紹了推薦系統與鏈接開源數據有關的研究,並引出文章研究問題:①鏈接數據語義距離度量 → ②Resim方法 → ③分塊信息內容語義相似度(PICSS) → ④Legato框架 →⑤語言鏈接開放數據(LLOD) → ⑥SemiLD框架 → ⑦SocialLink → ⑧XOSM框架 → ⑨BROAD-RSI → 引出文章研究問題

【引出文章研究問題】

現存所有方法並未充分利用LOD中的語義信息來解決數據稀疏和冷啓動問題

3. Proposed approach: recommender system with Linked Open Data

提出了一種新的基於開放鏈接數據的矩陣分解(MF-LOD)系統,該系統改進了基於隱式反饋數據和基於鏈接開放數據相似性度量的矩陣分解模型,解決了協同過濾中的數據稀疏問題。另一方面,開發了基於LOD模型的推薦系統(RS-LOD),該系統利用LOD雲中項目或用戶的語義特徵來處理推薦中的冷啓動問題

3.1 LOD for cold start problem in CF (RS-LOD)

【RS-LOD推薦系統框架運作過程】

①新實體(新用戶/新商品:new entity) → ②推薦系統接口(RS interface) → ③調度器(regulator) → ④查詢構造器(query constructor) →⑤SPARQL查詢(數據庫查詢語句) → ⑥LOD接口(LOD interface) → ⑦調度器(regulator) → ⑧信息礦工(information miner) → ⑨相似度計算(similarity calculation) → ⑩推薦列表(recommendation list)

3.2 Enhanced matrix factorization model for data saprsity

【enhanced-SVD算法的運作過程】

在SVD++算法(SVD 中融入用戶對物品的隱式行爲)基礎上添加了物品對用戶的隱式行爲→表達式還不完全)

提示

我們可以認爲 評分=顯式興趣 + 隱式興趣 + 偏見。那麼隱式興趣如何加入到模型中呢?首先,隱式興趣對應的向量也是 k 維,它由用戶有過評分的物品生成,因爲,評分的行爲從側面反映了用戶的喜好,可以將這樣的反映通過隱式參數的形式體現在模型中。

3.3.Linked open data (LOD) similarity measure

文章認爲:現存的近鄰協同過濾推薦系統當中的相似度計算方法僅僅依賴用戶-商品評分矩陣,由於該矩陣極其稀疏,所以性能表現欠佳。故,提出了一種語義相似度測量方法

①Pearson相關係數 → ②Pearson相關係數缺陷(未考慮重疊記錄項的數量對相似度的影響) → ③添加最低重疊記錄項懲罰闕值 → ④仍存在“未考慮商品語義特徵之間的相關性” → ⑤將Partitioned Information Content Semantic Similarity(PICSS)相似度進行改進:計算相似度的商品特徵改爲PCA提取特徵

3.4.Matrix factorization with hidden feedback and LOD similarity measure (MF-LOD)

本部分是在3.2和3.3的基礎上找到機器學習優化模型,並通過隨機梯度下降優化算法進行求解

 4. Experimental analysis and results

4.1.Data set

①兩個數據集:Movielens\Netflix → ②給出稀疏度定義公式 → ③DBpedi知識庫中PCA提取電影特徵:“subject”\“director”\“genre”\“stars” →④30%訓練集,70%預測集 →⑤5次重複實驗(隨機劃分訓練集和測試集)

【文章指明問題】

①在某些情況下,MovieLens和Netflix中存在的商品在DBpedia中沒有相應的條目

②並非MovieLens和Netflix中的個商品都與DBpedia有如此絕對的特徵映射(PCA提取的特徵)

4.2.Evaluation metrics and methods

文章驗證“基於鏈接開放數據的矩陣分解方法”有效性的對比算法有:

①基於偏見的SVD

②SVD++

③RS+ [PICSS+SVD]

④LOD相似性度量方法+[現有的其他度量方法]

⑤評價指標:精密度、召回率、F1分數、絕對平均誤差和均方根誤差

4.3.Experimental results

<1>Comparing various recommender methods

比較Open Linked Data based Matrix Factorization和 SVD / biased SVD / SVD++在兩個數據集上的性能

<2>Effect of latent factors, neighbor size, and penalty threshold

確定“潛在因子↓”、“鄰域大小↑”和“懲罰因子(100)”等參數的最優值

<3>Evaluation result for cold start issue

通過與“CF-U”、“CF-I”對比,體現“RS-LOD”框架的有效性。並給出“新商品”或“新用戶”的相似度計算公式,即3.3節中給出的sim(p,q)的一部分

<4>Issue on feature sparsity in the knowledge base

本部分驗證知識庫中的特徵稀疏性對文章所提推薦系統的影響(同樣分兩個數據集進行驗證)。比較的系統爲:RS-PICSS和MF-LOD,實驗結果表明:MF-LOD更優,因爲項目相似性度量是基於LOD知識庫的(PCA選擇後的特徵)

<5>Comparison of various similarity measures

驗證文章所提LOD-sim(p,q)相似度計算方法的有效性,比較算法有:Pearson、Jaccard、cosine、Improvised PCC、PICSS、LOD-sim

 

5.Conclusion

6.論文鏈接

鏈接:https://pan.baidu.com/s/1hnilZxbzRrs6RE3WIXWjcQ 
提取碼:iecd 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章