推薦系統:算法概述

如今,許多公司都會開發與自己業務息息相關的推薦系統。先薦作爲第四範式研發的一款智能推薦產品,已爲內容行業的衆多媒體客戶賦能,實現客戶的營收增長。在本文中,我們將會簡要介紹現有的主要推薦算法及其工作原理。

協同過濾

協同過濾(CF)是最常用的推薦算法之一,即使推薦系統小白也可以輕鬆上手,用它來構建屬於自己的個人電影推薦系統。

當我們想向用戶推薦某些內容時,最合乎邏輯的做法是找到與這個用戶興趣相似的其他用戶,分析他們的行爲,然後向我們的用戶推薦相同的物品。或者我們可以查看用戶的歷史行爲,推薦與它們類似的物品。

以上就是CF中的兩種基本方法:基於用戶(user-based)的協同過濾和基於項目(item-based)的協同過濾。

“最相似”在算法中意味着什麼?

已知每個用戶的偏好向量(矩陣R的每一行)和每個產品的用戶評級向量(矩陣R的每一列)。

首先,只留下已知的兩個向量的值。

其次,假設要比較Bill和Jane這兩位用戶,從圖中可以看到,用戶Bill沒有看過《泰坦尼克號》,用戶Jane也沒看過《蝙蝠俠》,所以我們只能通過《星球大戰》來測量二者之間的相似性。至於相似性,一般會採用餘弦相似性或用戶/項目矢量之間的相關性來測量。

最後一步,根據用戶相似度,採用加權算術平均值填充表格中的空白單元格。

推薦中的矩陣分解

另一種方法是使用矩陣分解,這種推薦算法相對更“優雅”。一般來說,當涉及到矩陣分解時,不會過多考慮哪些項目將保留在結果矩陣的列和行中。使用這種推薦算法,我們可以看到,u是第i個用戶的興趣向量,v是第j部電影的參數向量。

因此,可以把u和v的點積近似爲x(從第i個用戶到第j個電影的等級),用已知的分數構建向量並用它們來預測未知等級。

例如,在矩陣分解後,我們得到用戶Ted的矢量(1.4, 0.9)和電影A的矢量(1.4, 0.8),之後只要計算矢量(1.4, 0.9)和(1.4, 0.8)的點積,就能得到A-Ted的等級,結果是2.68。

聚類

以前的推薦算法相當簡單,這樣的算法通常適用於小型的推薦系統。那麼想象一下,我們正在建一個大型推薦系統,在這個系統中,協同過濾和矩陣分解會花很長時間。這時候我們應該做的第一件事就是聚類。

在業務開始時,缺乏用戶之前的評分,聚類是最好的方法。

在數據足夠多的時候,最好使用聚類作爲協同過濾中縮小相關選擇的第一步。除此此外,聚類還可以改善複雜推薦系統的性能。

每個羣集分別代表一類典型的用戶,基於用戶羣集中用戶的興趣畫像,羣集中的用戶也會收到對應的推薦結果。

推薦中的的深度學習方法

在過去的10年中,神經網絡技術取得了巨大的進步。現在,神經網絡被廣泛地應用於各個領域,並逐漸取代傳統的ML方法。接下來我們就分析一下YouTube是如何使用深度學習方法的。

毫無疑問,由於用戶規模大、動態語料庫和各種不可控的外部因素,爲這樣的業務場景搭建推薦系統是一項非常具有挑戰性的任務。

據相關研究Deep Neural Networks for YouTube Recommendations,YouTube推薦系統算法由兩組神經網絡組成:一組用於候選生成,一組用於排序。以下是這項研究的主要內容:

將用戶的歷史事件作爲輸入,通過候選生成網絡顯著減少視頻量,然後從大型語料庫中創建一組最相關的視頻。

生成的候選者與用戶相關性最高,之後預測候選者的等級。該網絡的目的是通過協同過濾提供個性化推薦。

在此步驟中會有少量與用戶相似的候選者。接下來我們需要越加仔細地分析這些候選者,以便做出最好的決策——該任務由排序網絡完成。

排序網絡可以根據目標函數爲每個視頻打分,該目標函數使用的是描述視頻的數據和與用戶行爲相關的信息。打分最高的視頻會按分數排序,呈現給用戶。

經過以上這兩個步驟,我們可以實現把龐大的視頻集精準推薦給用戶的操作,同時確保少數視頻仍是個性化推薦。

文章來源:Recommendation System Algorithms

以上內容由第四範式-先薦編譯。

閱讀更多:

推薦系統:混合過濾

推薦系統:協同過濾及其利弊

推薦系統:基於內容的過濾及其利弊

推薦系統的工作流程

白話推薦系統

推薦系統相關術語知多少

入門推薦系統,你不應該錯過的知識清單

推薦系統簡論

薦是一款賦能媒體的AI產品,是集內容上傳、內容管理、內容分發、推薦干預、前端渲染於一體的一站式推薦服務可視化平臺,支持PC、WAP、APP全平臺接入,幫助媒體從0到1搭建推薦系統,顯著提升用戶活躍、留存、觀看時長等重要業務指標,在減少技術成本投入的同時,大幅提高媒體運營效率,從而實現業務智能化轉型。目前已服務人民日報、環球網、花瓣網、果殼網、段友、36氪、簡書等三百餘家內容平臺,其中在環球網web端的興趣推薦項目上,實現了點擊率58%的提升,同時訪問量和營收分別增長了69%、20%。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章