推薦系統如何處理數據?

據統計,全球數據總量預計2020年達到44ZB,中國數據量將達到8060EB,佔全球數據總量的18%。現階段我們所討論的人工智能,很大程度上都是在談“人工智能”這個大概念下機器學習領域中的深度學習技術。它的底層原理相對簡單,對數據有很大的依賴性,本質上是一種基於大數據的統計分析技術。

推薦系統作爲人工智能的落地場景之一,對數據的依賴性不言而喻。企業通過前期的數據收集,全面瞭解自身的產品和目標用戶;之後,通過一系列的數據挖掘技術,對目標用戶進行分類,刻畫用戶畫像;最後,再通過數據決策,制定產品運營方案,並不斷迭代、優化產品細節。可以說,沒有前期的數據,之後的一系列操作無從談起。

那麼,推薦系統是如何處理數據的呢?

一個典型的推薦系統,處理數據通常會經歷以下四步:即數據收集、數據存儲、數據分析和數據過濾。

數據收集

實現推薦系統的第一步便是收集數據。這些數據可以是顯性數據,也可以是隱性數據。顯性數據就是指用戶主動輸入的數據,例如對內容的評論、點贊、轉發、下載等,隱性數據是指用戶的瀏覽歷史、閱讀時長、觀看記錄、搜索日誌等。後臺會爲每一個使用該產品/訪問該站點的用戶創建一個數據集。

用戶的行爲數據很容易收集,通過站點上的用戶行爲日誌就能獲取。如果用戶已經在使用APP,獲取用戶的行爲數據就不需要用戶的額外操作。但這種方法有一個缺點,獲取的數據分析起來很麻煩。比如說,從用戶的大量行爲日誌中過濾出真正需要的日誌非常麻煩。

由於每個用戶對產品的喜好不一,因此收集到的每位用戶的數據集也截然不同。隨着時間的推移,收集到的用戶數據也越來越多,通過一系列數據分析,推薦的結果也會越來越精準。

數據存儲

我們爲推薦算法提供的數據越多,推薦的效果就會越精準。這也就意味着,任何推薦問題都可以轉變爲大數據分析問題來解決。

用於創建推薦結果的數據類型可幫助我們確定應使用的數據存儲類型。我們可以選擇使用NoSQL(Not Only SQL)數據庫、標準SQL數據庫,甚至是某種對象存儲。根據不同的存儲目的如獲取用戶輸入/行爲,以及操作的難易程度、存儲的數量級、與其他環境的集成以及數據的可移植性等因素,選擇合適的數據存儲類型。

在保存用戶評級或評論時,可擴展和可託管的數據庫能夠最大限度地減少所需的任務量,將注意力聚焦在推薦結果上。 Cloud SQL可以滿足這兩種需求,還可以直接從Spark上加載數據。

數據分析

爲了獲取類似用戶參與度之類的數據,我們需要使用不同的分析方法過濾數據。如果想在用戶瀏覽產品時即時給出推薦結果,那麼需要更加靈活的數據分析方法。以下是分析數據的一些方法:

•實時分析

可以在創建數據的同時對其進行處理。這種類型的系統通常包含可以處理和分析事件流的工具。要想給出用戶實時的推薦結果,就要創建實時的數據分析系統。

•批量分析

要求定期處理數據。採用這種方法,意味着要有足夠的數據才能分析數據之間的相關性,例如每日閱讀量、關注量等。推薦結果可能會通過郵件形式發送給用戶。

•近實時分析

每隔幾分鐘或幾秒鐘刷新一次後可以快速收集數據,進行分析。近實時系統最適合在一次瀏覽會話期間給出推薦結果。

數據過濾

下一步便是過濾數據,獲取爲用戶提供推薦所需的相關數據。我們得先從上面的算法中選擇一種更合適的算法。比如說:

基於內容的過濾:推薦的產品具有與目標用戶喜歡的產品類似的特徵;

聚類:對目標用戶進行分類,處於某一個簇中的用戶會被當成一個整體來對待;

協同過濾:目標用戶喜歡其他用戶喜歡的某一產品,那他也可能喜歡其他用戶喜歡的其他產品。

協同過濾能夠使產品屬性理論化,並根據用戶的口味進行預測。協同過濾的假設基礎是:如果一位用戶喜歡另一位用戶喜歡的某一個產品,那麼現在或將來他也有可能喜歡這位用戶喜歡的另一個產品。

我們將產品和用戶作爲兩個不同維度,把有關評級或互動的數據表示爲一組矩陣。假設以下兩個矩陣相似,如果用數字1代替現有的評級,用0補上缺少的評級,就能得到第二個矩陣。生成的矩陣爲真值表,其中數字表示用戶與產品之間的交互。

我們可以使用K-Nearest算法、Jaccard係數、Dijkstra算法、餘弦相似性來更好地關聯用戶數據集,以便根據評級或產品特徵進行推薦。


最後,根據推薦類型的及時性,用戶就會得到相應的算法推薦結果。


閱讀更多:

推薦系統:算法概述

推薦系統:混合過濾

推薦系統:協同過濾及其利弊

推薦系統:基於內容的過濾及其利弊

推薦系統的工作流程

白話推薦系統

推薦系統相關術語知多少

入門推薦系統,你不應該錯過的知識清單

推薦系統簡論

薦是一款賦能媒體的AI產品,是集內容上傳、內容管理、內容分發、推薦干預、前端渲染於一體的一站式推薦服務可視化平臺,支持PC、WAP、APP全平臺接入,幫助媒體從0到1搭建推薦系統,顯著提升用戶活躍、留存、觀看時長等重要業務指標,在減少技術成本投入的同時,大幅提高媒體運營效率,從而實現業務智能化轉型。目前已服務人民日報、環球網、花瓣網、果殼網、段友、36氪、簡書等三百餘家內容平臺,其中在環球網web端的興趣推薦項目上,實現了點擊率58%的提升,同時訪問量和營收分別增長了69%、20%。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章