論文翻譯——用於大型社交網絡的推薦系統:主要挑戰及解決方案回顧

Recommender Systems for Large-Scale Social Networks: A review of challenges and solutions

Punished in: ELSEVIER, Volume 78, Part 1, January 2018, Pages 413-418
Author: Magdalini Eirinaki, Jerry Gao, Iraklis Varlamis, Konstantinos Tserpes
Keywords: Recommender systems Social networks Scalability Big data

概述

社交網絡對人們生活中的網絡、通信和內容分享都極爲重要。社交網絡每天都會產生難以計數的大量數據,其數據結構的異構性、龐大的數據和動態性構成了一個不斷髮展的研究領域。當使用推薦系統挖掘這些數據的內在價值,其產的成果可用於解決社交參與、成員招募和朋友推薦等一系列有趣的問題。
本次工作中,我們回顧了大型社交網絡推薦系統的各個方面——該領域存在的各種挑戰及其中一些問題的解決方案。

1. 介紹

在過去的幾十年間,人工智能和知識管理領域取得了長足的進步。通過分析原始數據以創建智能解決方案的做法已成功地應用於工商業、科學界及社交媒體等多個領域。在線社交網絡和推薦系統的結合不僅使商業公司推出更具影響力的產品和服務幫助它們推廣業務,同時也爲社交網絡平臺針對每個用戶提供個性化內容、改善使用體驗、吸引新用戶創造了機會。與此同時,這種改變也向該領域的研究人員提出了新的挑戰。大量在線社交互動造成了社交網絡的加速擴張;在線評論、相關排序和永久或臨時關聯引起的信息多樣化、對評論家及意見領袖的信任與否的數據變得更爲真實。以上這些方面還只是讓社交網絡與推薦系統的結合成爲大數據研究的理想案例的部分原因。

在這項工作中,我們專注於大規模推薦系統,包括利用潛在社交網絡優勢,專注社交聯繫的多樣性和波動性,處理社交圖譜擴展的速度和大小問題,測試傳統推薦系統和當前解決方案的可擴展性,以上這些將把推薦系統帶入一個新的高度。

2. 推薦系統和社交網絡

推薦系統中使用的最流行的技術是內容過濾和協同過濾。此類系統中的每個用戶通常都由一個用戶資料庫表示,其中包括該用戶已評分(或購買)的“商品”。在內容過濾中,建議根據新物品與用戶資料庫中已存在物品的相似性來推薦它們,爲此需要每個物品的詳細信息。另一方面,協同過濾方法對物品是“不可知”的。取而代之的是他們使用用戶給予的評分,根據其用戶評分模式查找相似的用戶(或物品)。協作過濾系統的通用性質是它們獲得廣泛成功的原因,因爲它們被用來推薦各種產品,例如電影、音樂、新聞、書籍、研究文章、搜索查詢、社交標籤等。

雖然包含評級的雙向用戶物品圖曾經是此類系統的唯一輸入,但這種結構已不足以表示所有可用信息,例如內容、上下文、社交信息和元數據。最終研究人員嘗試將更多用戶信息、上下文信息(空間、實際、社交等)及時間演變的信息融入推薦系統。

2.1 超越用戶項目評級:上下文感知推薦系統

情境感知推薦系統(CARS)通過使它們適應用戶的特定情境來生成更多相關的推薦。推薦系統必須考慮的上下文因素與目標用戶的時間、位置和目的有關。根據用戶上下文可以是靜態的或隨時間變化的[1] 。CARS承擔一個預過濾步驟,其中上下文信息用於選擇相關物品集;一個經典推薦步驟,根據預測的收視率對相關項目進行排名;一個上下文後過濾步驟,對輸出進行重新排序和過濾傳統推薦器[2]。

上下文感知系統結合了社交網絡中來自多個來源的信息,以優化上下文空間並解決主要的推薦系統問題,例如“可擴展性”和“冷啓動”問題[3]。 例如,上下文信息[4]以特定於用戶的和特定於項目的潛在因素編碼或反映出來。 通過對用戶和具有相似上下文的項目進行分組,將用戶項評分矩陣劃分爲多個分區,並將矩陣分解應用於生成的子矩陣。

一個上下文感知的多媒體推薦系統,該系統將用戶偏好(在前一項的元數據中),意見(用戶評論中的文字評論),行爲(過去的項的觀察和動作)和反饋(以評分的形式表示)一併考慮在內在[5]中提出了相同的框架。

2.1.1 時間感知推薦系統

可以將時間感知推薦系統(TARS)視爲專注於以時間形式利用上下文信息的專用CARS。 他們認爲,隨着新商品的出現和新趨勢的出現,用戶的偏好會隨着時間的流逝而變化,並且用戶的品味會不斷髮展。 反過來,這會影響商品的流行度,而商品的流行度不斷變化,將舊商品帶到用戶偏好的尾巴,而將新商品推向高潮[6]。

在推薦系統中處理用戶偏好的時間動態帶來了新的挑戰,因爲每個用戶興趣的變化都不同於概念漂移問題[7]。 在具有多個用戶和項目的社交網絡中,許多不同的功能會同時發生變化並相互影響,而在一般概念漂移問題中,僅跟蹤單個概念。 使用滑動窗口和首選項衰減函數會增加已經稀疏的問題的稀疏性(因爲過去的信息被丟棄或丟失),通常可以避免。 在文章[8]中,Koren擴展了靜態矩陣分解模型和相關的基線預測變量,其功能可以捕獲用戶和項目偏見的逐漸漂移,並引入了timeSVD ++算法,該算法優於其前身。

文獻中已經使用了幾種技術,通過提高最近的評級並懲罰較舊的評級來採用CF算法進行時間變化,例如離散時間窗[9]或連續衰減函數[10]。 最近,已經提出了一種基於關聯規則和社區識別方法的算法來處理推薦系統中的漂移問題[11]。 貝葉斯概率張量分解[12]也被證明是一種合適的時間CF模型。

2.1.2 位置感知推薦系統

正如Chen和Tsai[13]所討論的,位置感知推薦系統(LARS)主要通過旅行和旅遊業中的場所推薦系統而變得流行。諸如Facebook Places和Foursquare之類的基於位置的社交網絡(LBSN)的出現,爲研究人員增加了可用數據和挑戰[14]。 LARS在通過空間標準劃分用戶位置雙向評級圖表時利用位置評級,以便採用空間上靠近用戶的位置,而忽略距離較遠的位置,以最大程度地提高系統可擴展性而不犧牲推薦質量的方式[15]。 LARS由兩個組件組成,一個離線建模組件,它通過捕獲項目共現模式並利用項目內容來學習每個用戶的興趣和每個位置的本地偏好,以及一個在線推薦程序組件,該組件自動組合所學到的知識。用戶的本地偏好併產生前k個推薦[16,17]。

時間是位置感知推薦系統中的關鍵因素,因此位置或活動推薦的最新方法採用統一的時空框架[18-20]。

2.1.3 社區感知或社交推薦系統

社區意識或“社交推薦系統”已獲得研究人員的關注,因爲他們利用社交關係來改善推薦流程。 在文章[21]中的作者將社交推薦的定義狹義地定義爲“任何以在線社交關係作爲附加輸入的推薦,即通過附加的社交信號增強現有推薦引擎”。 文獻[22]的更廣泛定義是指針對社交媒體領域的推薦系統。

該研究領域的主要前提是,用戶的偏好比未知用戶的偏好受其朋友的偏好的影響更大。 假設項目等級可用並且用戶網絡內存在某種形式的影響/信任傳播,則此類嘗試會增強社交數據的典型推薦過程。 例如,一種常見的方法是通過使用從用戶的評分和/或他們的社交關係得出的相似性來形成用戶的鄰居,從而增強基於內存的協作過濾過程,重點是信任。

社區感知系統採用用戶偏好,用戶連接性或任何其他社交信息,以便檢測用戶羣,從而將推薦問題劃分爲較小的問題。基於社交網絡中同質性的概念,用戶的喜好可能與她的朋友的喜好相似或受其影響,這樣的系統設法填補了冷啓動問題的空白並找到了用戶之間的相似之處[23]。這可以通過協同分解來完成,其中假設用戶在評級和社交空間中都共享相同的偏好矢量(例如[24]),採用集成方法,其中推薦結果是通過以下方法的線性組合得出的:兩個系統(例如[25])或正則化,其中優先考慮基於社交的評分(例如[26])。例如,在文獻[27]中,作者提出了一種偏好感知的社區檢測方法,以根據用戶的社交關係對其進行分組,而在文獻[28]中,則使用用戶的社交信息(用戶到用戶的友誼網絡)對用戶進行分類。將大型的用戶到項目的二分圖分成較小的分區,並在較窄的社交環境中執行協作過濾。當用戶屬於多個社區(即我們有重疊的社區)時,在用戶-用戶圖上使用基於多標籤傳播的方法[29]。

2.2 超越簡單物品推薦

推薦系統(RS)變得很流行,因爲它們可以通過提供自動推薦來個性化用戶體驗。它們首先出現在電子商務站點[30]中,用於推薦單個項目,即客戶可能感興趣的產品。 然而,在過去的幾年中,它們的使用已經跨越了多個其他領域,從數字館藏(例如新聞和研究文章[31]到數據庫查詢[32,33]甚至是網絡服務[34,35])。

2.2.1 分組和打包推薦

包裝推薦系統通過向用戶建議一組項目(包裝)而不是單個項目來擴展傳統RS。套餐推薦在許多應用領域中非常有用(例如,向學生推薦學術課程套餐,每週飲食套餐,旅行套餐以及電影或書籍集)。在文章[36]中,作者提出了一個系統,以推薦一個具有一組預定義技能和最低溝通成本的專家團隊。在文章[37]中,基於最大流量算法的課程推薦系統用於個性化斯坦福大學課程。在文章[38]中,作者創建了旅行套餐,可以最大化用戶偏好得分並滿足給定的用戶約束。最後,在文章[39]中,作者提出了一種包裝建議的通用框架,可以滿足用戶的喜好並同時滿足一些預算和時間限制。

爲了解決主要影響以新用戶爲目標的推薦系統性能的冷啓動問題,已經提出了組推薦系統[40,41],用於推薦可以由同一組用戶立即體驗的項目。位置(物理或虛擬)[42]。小組推薦還被用於構建某些“刻板印象”,可以將其應用於單用戶推薦。團體推薦系統提出了許多具有挑戰性的問題[43],例如,成員需要相互檢查彼此的偏好,並就推薦項目進行談判並做出最終決定[44]。

2.2.2 用戶推薦/鏈接預測

向社交網絡的用戶推薦其他用戶(即新連接)的問題已得到廣泛研究[45,46]。當有明確的用戶對用戶信任信息可用時,可以使用信任傳播模型來推斷社交網絡成員之間哪些新交互可能在不久的將來發生,並向用戶推薦新連接[47-50]。在沒有明確的用戶對用戶評分的情況下,已經採用了利用隱式用戶反饋的潛在因素模型[51]。

從算法的角度來看,鏈接預測算法在不同方向上執行圖形遍歷(基於路徑或基於隨機遊走的算法),以便計算頂點或邊的最終排名,從而推薦鏈接。 爲了處理大規模網絡,提出的方法[52,53]對初始鄰接矩陣進行分區,然後計算每個分區(即對角線塊)的低秩近似,然後將其應用於鏈路預測 。在其實現中,他們使用諸如MapReduce [54],Fork Join [55],Spark [56],Pregel[57]或GraphLab[58]之類的框架處理大規模圖形。

2.3 超越簡單的評估指標

開發有效的推薦系統不僅限於預測用戶偏好並向每個用戶推薦最突出的項目[31,59]。尤其是在電子商務系統中,新商品的添加速度非常快,對於推薦系統,僅使用少數幾個可用的評分,從流行商品到具有類似功能的新商品就變得很重要。該挑戰在文獻中被定義爲“長尾巴”問題[60],可以使用基於內容的方法來利用該挑戰來定義流行商品和新商品之間的相似性,並用新商品替換流行商品,或者將商品聚類到 長尾巴,並使用每個羣集的彙總評分來利用稀疏評分[61]。通常,解決冷啓動問題的相同方法用於解決長尾問題。

考慮到以上限制,從業務角度來看,建議的“多樣性”和“新穎性”具有有效的RS的關鍵功能[62]。 爲了增加新穎性,文章[63]中的作者顛倒了推薦任務,而不是選擇要推薦給用戶的項目,他們的系統決定應推薦用戶推薦給每個項目的用戶。 爲此,他們對評級矩陣求逆,引入了最近鄰算法的有趣重新表示形式,進而引入了新的鄰居選擇策略。

3. 大型推薦系統的主要挑戰

利用社交網絡結構來增強推薦過程的大規模推薦系統的主要挑戰是:(a)利用所有可用信息來分析所形成的社交,評分和內容相似度圖, (b)適應動態演化的圖,(c)縮放至大圖[28]。

3.1 數據多樣性

困擾推薦系統的兩個最主要問題是數據稀疏性和對新用戶的冷啓動推薦的性能不佳。社交網絡及其爲用戶保留的大量個人和偏好信息,通過隱式用戶偏好提取,有助於緩解冷啓動問題並填補了用戶項偏好數據中的許多空白[64]。

但是社交網絡中所有可用信息都爲用戶所用,這使得最先進的協作過濾算法(例如矩陣分解[65])不足以處理新信息的數量和複雜性。因此已經提出了對流行模型的修改和擴展以便將潛在偏好或簡檔信息合併到現有模型中(例如,在矩陣分解中)。社會正規化[66]和基於社會的矩陣分解[67,68]是用來描述這一方向的方法的關鍵術語。

3.2 數據波動性

從捕獲用戶興趣漂移的推薦系統的早期工作[69,70]到建模活動流中用戶興趣動態的最新工作[71],用戶偏好的波動性是設計廣告活動時要考慮的參數推薦系統。社交推薦系統蓬勃發展,這些推薦系統以流式交易格式生成數據,而證據表明捕獲用戶偏好的時間動態可提高推薦性能,這使得數據波動性成爲現代推薦系統的主要挑戰[72]。

文章[73]中的作者提出了一種基於流的建議的半監督框架,該框架通過在運行時向矩陣添加新維度並執行半監督學習的能力擴展了矩陣分解算法。同樣[74]中的作者提出了一種新的協作進化模型,該模型基於用戶項目評分矩陣的概率分解。用戶和項目的因子矩陣會隨着時間而變化,以便通過稀疏的歷史數據來捕獲用戶配置文件的演變,並能夠輸出未來的預期用戶配置文件。

3.3 數據容量

爲了應對不斷增長的社交網絡數據量,研究人員將重點放在並行和分佈式系統上,並致力於將現有推薦算法轉換爲並行環境。而且由於協作過濾(CF)可能是推薦系統最流行的基於模型的技術,因此在並行和分佈式框架上開發了CF算法的幾種實現。

在爲方便處理大量數據而開發的衆多框架中,CF常用的框架包括用於共享內存並行編程的OpenMP,Pthread和Java Thread,以及用於GPU計算的CUDA和OpenCL。在分佈式解決方案中,基於MapReduce[76]的“鍵-值對”模型的Hadoop[75]已成爲更新的分佈式框架(例如Mahout[77]和Spark [78])的基礎。Storm[79]和GraphLab[58]分別是基於圖的實現和算法的競爭框架,這些圖基於圖的實現和算法分別基於主工作者和批量同步並行(BSP)模型。

文章[80]中的工作概述了處理大量數據的社交網絡數據分析工具所面臨的挑戰,而文章[81]中的工作則對協作過濾算法的並行和分佈式實現進行了全面調查。

文章[5]中的作者開發了針對大型社交網絡的上下文感知推薦系統,該系統考慮了社交網絡中可能發生的所有可能的用戶與內容之間的關係。 該系統已使用Hadoop技術堆棧,AllegroGraph Triplestore和SPARK SQL工具在Apache Spark上實現。

4. 大型社交網絡的推薦系統本特刊接受文章的簡要回顧

從Sarwar等人的早期工作開始。 文章[82]關於可擴展的協作過濾算法,直到今天,社交網絡的增長和大量的用戶偏好數據已經產生了對推薦器系統的需求,該推薦器系統可以同時處理由大型社交網絡生成的數據的多樣性,易變性和數量。

本期特刊包含的研究工作超出了傳統的用戶項目評分信息,並利用了從社交網絡中提取的信息。從與社交數據的多樣性和數量以及用戶偏好隨時間變化的各種大數據角度研究了提出的解決方案。

在[83]中,Rezaeimehr等。提出一個稱爲時間的推薦系統TCARS。 TCARS推薦算法基於識別重疊的用戶社區併爲用戶偏好動態建模,以最大程度地減少稀疏性影響並保持社區隨時間的更新。使用TCARS所獲得的結果與最新方法相當。

在文章[53]中,Corbellini等。提出了一種新穎的圖形處理模型,稱爲分佈式分區合併(DPM)。 DPM是用於處理大型社交網絡的混合模型,它結合了Fork-Join編程風格的簡單性以及Pregel框架的性能和可伸縮性。 DPM已針對快速計算大型網絡頂點的基於路徑和基於隨機遊走的排名的能力進行了評估,因此其在社交網絡中的用戶推薦系統中可用作鏈接預測組件的能力。

在文章[84]中,Guo等。解決了電子商務環境中用戶興趣的波動性,其中用戶購買歷史記錄是順序模式挖掘算法的輸入,該算法爲不同類別的用戶興趣漂移建模。通過結合多類別購買間隔和價格偏好信息,建議的模型使建議多樣化,並提高了建議的準確性。後者使用模糊集理論進行建模,並使用真實的購買記錄對建議的推薦系統進行評估,這些記錄顯示出相對於競爭方法的改進性能。

在文章[33]中,Margaris等人。提出了一種基於社交網絡的查詢個性化算法,該算法在搜索個性化信息時會考慮來自用戶社交網絡的影響。該算法通過(a)利用社交圖來提高個性化質量和(b)提出一種有效的查詢重寫技術來擴展現有查詢個性化算法的狀態,該技術可處理個性化過程結果的映射。作者在典型的電影信息數據庫中評估他們的方法,在該數據庫中,過去的用戶偏好和其他網絡用戶的影響被用來過濾匹配用戶查詢的長結果列表。例如,當用戶搜索演員出演特定時間段的電影時,電影的排名取決於與用戶偏好以及用戶的朋友偏好相匹配的查詢。該算法在性能,結果排序的準確性以及令人鼓舞的結果方面均經過實驗驗證。

在文章[85]中,Gan等。分析三角形圖案與社會關係之間的相關性,並得出結論,如果一個人具有大量的社會關係,那麼他的朋友之間的聯繫也將很大。他們發現潛在的社會關係與共同的聯繫相關,並證明了融合全球和地方協會的必要性。作者開發了一種新穎的方法,稱爲FLOWER(將全球和地方協會融合到個性化的社會推薦中),以整合全球和地方協會,並表明,基於FLOWER的方法在各種類型的社交網絡設置中的社會推薦效果明顯優於其他方法。

在文章[68]中,古里尼等人。提出了一種新穎的社交網絡人對人推薦系統,該系統基於對用戶態度的識別:情感,數量和客觀性。爲了在傳統的社交網絡上大規模地執行此操作,該系統採用了三維矩陣分解模型(每個態度一個維度),並且在分解模型中考慮了用戶態度的時間變化。評估表明,推薦者的準確性和多樣性隨着態度和時間特徵的增加而增加。

5. 結論——未來方向

爲了解決評分信息的稀疏性和困擾傳統協作過濾算法的冷啓動問題,最近在文獻中引入了幾種深度學習方法,這些方法將項目評分與來自其他來源的項目主題信息相結合。例如文章1中的分層貝葉斯模型,該聯合貝葉斯模型對內容信息進行深度表示學習,對評分矩陣進行協同過濾,或者在文章[87]中對堆疊降噪自動編碼器進行深層網絡訓練,其中每一層都經過訓練以最小化 重建其輸入(這是上一層的輸出)時出錯。

深度學習也爲新型建議開闢了道路,例如使用遞歸神經網絡爲點擊會話數據建模的基於會話的建議文章[88],跨領域推薦系統,其中項目被映射到聯合潛在空間[89]。 ,或[90]的社交信任集成學習模型。

大量的協作過濾研究工作超出了矩陣完成度[91],它基於評級矩陣的非負矩陣分解(NMF)[92]和張量分解[93,94]。還提出了加權和圖正則化NMF來將來自社交圖的信息合併到評級模型中,並且爲了減少大圖的內存需求並避免過度擬合,已將圖正則化的拉普拉斯矩陣替換爲其他 正則化(例如Tikhonov [95])。

最終,隨着可能的建議列表的增加,既有效又新穎的建議算法的重要性不斷提高[96]。 除了準確性之外,推薦項的多樣性,偶然性,新穎性和新鮮度[97]以及用戶對它們的熟悉度[98]以及避免用戶無聊[71]是評估推薦質量的一些新標準。


  1. 86 ↩︎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章