推薦系統概述、分類

一、推薦系統的基本思想

  • 知你所想,精準推送
    利用用戶和物品的特徵信息,給用戶推薦那些具有用戶喜歡的特徵的物品。
  • 物以類聚
    利用用戶喜歡過的物品,給用戶推薦與他喜歡過的物品相似的物品。
  • 人以羣分
    利用和用戶相似的其他用戶,給用戶推薦那些和他們興趣愛好相似的其他用戶喜
    歡的物品。

二、推薦系統的數據分析

1、用戶

  • 個人信息(註冊信息)
  • 喜好標籤(勾選)
  • 上下文信息(瀏覽過什麼,瀏覽記錄,用戶的行爲習慣)

2、物品

  • 內容信息(基本信息)
  • 分類標籤(類別)
  • 關鍵詞
    假如物品的特徵和用戶相匹配,即可。

3、行爲數據
用戶和物品之間的相互——>用戶的行爲數據,評分、標籤、評價、點擊、瀏覽、收藏、購買
具體來說,可以總結如下:

  • 要推薦物品或內容的元數據,例如關鍵字,分類標籤,基因描述等;
  • 系統用戶的基本信息,例如性別,年齡,興趣標籤等
  • 用戶的行爲數據,可以轉化爲對物品或者信息的偏好,根據應用本身的不同,可能包括用戶對物品的評分,用戶查看物品的記錄,用戶的購買記錄等。這些用戶的偏好信息可以分爲兩類:
    ----顯式的用戶反饋:這類是用戶在網站上自然瀏覽或者使用網站以外,顯式的提供反饋信息,例如用戶對物品的評分,或者對物品的評論。(存在數據庫中)
    ----隱式的用戶反饋:這類是用戶在使用網站是產生的數據,隱式的反應了用戶對物品的喜好,例如用戶購買了某物品,用戶查看了某物品的信息等等。(用戶日誌)

三、推薦系統的分類

1、根據實時性分類

  • 離線推薦
  • 實時推薦

2、根據推薦是否個性化分類

  • 基於統計的推薦(所有人都一樣,可以用於解決冷啓動問題)
  • 個性化推薦

3、根據推薦原則分類

  • 基於相似度的推薦(物以類聚,人以羣分)
  • 基於知識的推薦(標籤,定義)
  • 基於模型的推薦(發現、學習、訓練一個模型,機器學習)

4、根據數據源分類(一說,根據策略分類Strategies)

  • 基於人口統計學的推薦(數據源是關於用戶的,用戶畫像,可以用於解決冷啓動問題,用戶勾選)
  • 基於內容的推薦(數據源是物品item,建立用戶檔案,Content-based filtering,可以解決 data
    sparsity and cold-start問題)
  • 基於協同過濾(Collaborative filtering (CF))的推薦(數據來源基於行爲數據)
    ----基於近鄰(neighborhood-based)的協同過濾推薦(也叫基於內存Memory-based的方法,CiteULike,Youtube和Last.fm等實際應用程序中採用,但非常耗時)
    -----------基於用戶的協同過濾推薦(User-CF)
    -----------基於物品的協同過濾推薦(Item-CF)
    ----基於模型(model-based)的協同過濾推薦(可以將輔助信息side information饋入到預測模型中,從而助於解決數據稀疏和冷啓動問題)
    -----------潛在因子模型(latent factor models)
    -----------表示學習模型(representation learning models)
    -----------深度學習模型(deep learning models,最新的方法)
  • 混合推薦(Hybrid methods)
    ----加權混合
    ----切換混合
    ----分區混合
    ----分層混合

Content-based filtering.(CBF)

它主要利用用戶個人資料和商品說明來推斷用戶對商品的偏好。基本過程是根據用戶的個人屬性或對她已購買或喜歡的歷史項目的描述來建立用戶的檔案。通過將項目的內容與用戶個人資料進行匹配來創建建議。特別是,可以使用一系列輔助數據(例如類別,標籤,品牌和圖像)來構造商品的描述性特徵。由於這些方法主要依賴於用戶和項目的豐富內容功能,因此它們能夠更好地處理數據稀疏性和冷啓動問題。同時,它們使我們能夠深入瞭解最新算法如何利用輔助信息。

Collaborative filtering(CF)

該技術旨在通過從用戶與商品的歷史交互中學習來預測用戶對商品的偏好,這種互動可以是顯式反饋(例如評分和評論)或隱式反饋(例如點擊和查看)形式。通常,有兩種基於CF的技術:基於內存(memory-based)和基於模型(model-based)的方法。
memory-based approaches(neighborhood-based)
基於內存的方法(Hwang等,2012; Guo等,2012)通常利用原始的用戶-項目交互數據(例如,評分矩陣)通過彙總相似用戶(User-CF)或相似項目(Item-CF)的偏好來預測未觀察到的評分。
User-CF
Item-CF
缺點:耗時,不能用在大型數據集上

model-based approaches

基於模型的方法假定可以用低維潛矢量來表示用戶的喜好或商品的特徵。更具體地說,基於模型的方法從用戶-項目矩陣中學習用戶和項目的潛在特徵向量,並通過計算用戶和項目的潛在向量的點積來預測推薦(Koren等,2009; Mnih和Salakhutdinov 2008)。
基於模型的方法旨在通過在用戶項目評分矩陣上採用數據挖掘或機器學習技術來構建預測模型,以發現複雜的用戶行爲模式。然後,將學習到的模型用於預測用戶對未知商品的評分。除了用戶項目評分矩陣外,輔助信息還可以用作有價值的特徵,這些特徵可以饋入預測模型中,從而有助於解決數據稀疏性和冷啓動(data sparsity and cold start issues)問題。與基於內存的方法相比,基於模型的方法可以更好地適應並擴展到大規模數據集,從而顯着提高性能。通常,基於模型的成功推薦方法可分爲三類:

  • Latent factor models (LFMs)
    它們將高維用戶-項目評分矩陣分解爲低維用戶-項目潛在矩陣。由於效率高,LFM主導了最先進的推薦方法(Shi等人,2014)。 LFM的基本思想是,用戶和商品都可以通過一些潛在特徵來表徵,因此可以將預測計算爲用戶特徵和商品特徵向量的內積。許多有效的方法都屬於此類,例如矩陣分解(MF)(Koren等人2009),非負矩陣分解(NMF)(Zhang等人2006),張量分解(TensorF)(Bhargava等人2015)。 ),分解機(FM)(Rendle 2010,2012),SVD ++(Koren 2008),集合矩陣分解(CMF)(Singh and Gordon 2008)和SVDFeature(Chen et al.2012)。

  • Representation learning models (RLMs)
    通過對單個用戶的交互記錄中的項目共現進行建模,已證明它們可以有效地捕獲本地項目關係。 RLM最初是受詞嵌入技術啓發的,這種技術可以追溯到經典的神經網絡語言模型(Bengio等人,2003),以及Word2Vec技術的最新突破,包括CBOW和Skip-gram(Mikolov等人,2013)。 迄今爲止,已經提出了許多基於Word2Vec技術的基於Item2Vec(Barkan和Koenigstein 2016)的推薦方法(Wang等人2015a; Grbovic等人2015; Liang等人2016; Feng等人2017) 。

  • Deep learning models (DLMs)
    它們在計算機視覺,語音識別和自然語言處理等各個領域帶來了重大突破(LeCun和Bengio 1995; Socher等人2011; Krizhevsky等人2012; Luong等人2015; Wang等人2016) ),推薦系統也不例外。與LFM和RLM相反,DLM(例如AutoRec(Sedhain等人2015),NCF(He等人2017)和DMF(Xue等人2017))可以通過各種類型的激活函數來學習非線性潛在表示(例如,乙狀結腸,ReLU(Nair和Hinton,2010年)。例如,基於遞歸神經網絡(RNN)的方法(Hidasi等人2015; Jing和Smola 2017; Wu等人2017b; Hosseini等人2018)由於具有保存歷史信息的能力而顯示出強大的順序推薦功能隨着時間的推移。基於卷積神經網絡(CNN)的方法(Zhang等人2016; He等人2016b; He等人2016a)能夠提取局部特徵以捕獲更多的上下文影響。總而言之,DLM具有重要的優勢,並在推薦方面促進了活躍和進階的研究。

本質上,LFM(例如矩陣分解)和RLM(例如item2vec)都可以被視爲DLM的特例,即淺層神經網絡(He et al.2017)。例如,矩陣分解可以看作是一層神經網絡,它將一站式用戶-項目向量轉換爲具有這些向量的線性內積的密集表示,以進行預測。儘管DLM相對於其他基於模型的推薦方法而言,具有卓越的性能,但是如何有效地將各種輔助信息整合到DLM中的研究尚未充分發揮其潛力。相比之下,近幾十年來,對LFM和RLM的研究問題已經得到了很好的研究,這可能爲具有輔助信息的DLM的開發提供啓發。另一方面,與DLM相比,後者涉及更多的計算成本,但通常只能實現較小的性能提升,所以傳統的基於模型的方法(例如LFM和RLM)則有可能進一步發展以產生更好的推薦精度。因此,在推薦準確性和計算成本之間進行權衡是未來研究的重要方向,即需要對不同類型的推薦方法進行全面審查。爲此,我們對最先進的算法以及基本方法的發展進行了系統,全面的回顧,以便在該領域提供完整的信息。
經驗研究證明,在大多數情況下,基於模型的方法要優於基於內存的方法。但是,當用戶-項目交互數據非常稀疏時,數據稀疏和冷啓動問題會固有地阻礙基於CF的方法的有效性。作爲推薦的最成功的技術,這些方法使我們能夠對該領域中基本方法論的發展有一個全面的瞭解。

Hybrid methods

他們利用基於CF和基於內容的方法來彌補其缺點。混合不同推薦模型的技術有兩種:早期融合和晚期融合。前者是指將顯式內容(例如視覺,文本和知識感知功能)與歷史用戶項交互數據進行組合,然後將其饋入某些基於CF的方法中以提高推薦性能(Zhang et al.2016; Tuan和Phuong(2017)。另一方面,後期融合方法建立了專門針對每種信息的獨立推薦系統,然後結合了對這些系統的預測(Park等人,2006; Melville等人,2002; Pero和Horváth,2013)。衆所周知,混合推薦方法在經驗上優於純基於CF或基於內容的方法,特別是在解決數據稀疏性和冷啓動問題方面。我們的研究主要集中在最新的混合推薦方法上。它們中的絕大多數是在最近10年中開發的。總體而言,約95%的論文在2010-2019年發表,而近60%的論文在最近五年發表。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章