個性化智能推薦技術研究總結

文章轉載自:http://blog.csdn.net/zolalad/article/details/16344183

個性化智能推薦技術研究總結

    隨着網絡與信息技術的飛速發展,互聯網爲用戶提供越來越多的信息和服務,用戶在得到便利的同時也不得不面臨大量的垃圾信息無意義數據,即所謂的信息超載問題。面對海量的網絡資源,個性化推薦系統一種極具潛力的解決信息超載的服務技術,它利用用戶的偏好信息自動的向用戶推薦符合其興趣特點的對象。這搜索引擎提供的“一對多”式的信息服務不同,個性化推薦系統輸出的結果更符合用戶需求,同時系統自動運行,用戶參與度也更低,從而使得用戶尋找信息的成本大大降低。

    這些在線的推薦服務無需用戶介入,具有較強的自學習能力和實時能力,有效地克服了信息超載的問題。

    例如 AmazoneBay,淘寶,豆瓣,噹噹網等,都在不同程度上採用了個性化推薦系統。在這些商務網站中,推薦系統能夠根據用戶的歷史購買記錄,以及瀏覽、檢索和評論行爲等,分析用戶的興趣並向其主動推薦商品,實現在線導購功能;高質量的推薦系統能夠增強用戶的購物體驗,提高對網站的忠誠度。同時,電子商務推薦系統提供的個性化服務能夠挖掘用戶潛在興趣,有效地提高商品的交叉銷售能力,在競爭日趨激烈的環境下帶來了顯著的經濟效益。

    個性化推薦引擎和搜索引擎的區別是:  個性化推薦引擎的本質是更符合人們使用習慣的信息發現,而搜索引擎的本質是用戶簡單的目標明確的數據檢索!

 個性化推薦技術的應用方式:
  買過還買過:基於用戶歷史行爲及偏好,推薦瀏覽當前商品的其它相似用戶購買過該商品以後在一定時間內又購買的商品。可幫助用戶快捷找到下一個可能感興趣的商品,增加商家的復購率、客單價、動銷比。
  強力推薦:基於當前用戶瀏覽類別和用戶歷史行爲及偏好以根據相關產品銷售量的排行推薦列表的形式推薦符合用戶興趣的產品。可知道幫助用戶根據銷售熱度參考和與自己相似的用戶在該類別的購買行爲來激發用戶的購買慾望,可幫助商家提高轉化率和用戶體驗。
  猜你喜歡:基於用戶的歷史行爲以及偏好推薦符合用戶興趣和需求的商品。可幫助商家增加商品曝光率、提高轉化率、訪問深度及用戶體驗、減少首頁跳出率。
  經常一起購買:原理是分析購物車中經常出現的商品。可幫助用戶快捷的找到下一個可能需要購買的商品,幫助商家的復購率、客單價、動銷比。
  看過最終購買:基於當前用戶瀏覽類別和用戶歷史行爲及偏好以根據相關產品銷售量的排行推薦列表的形式推薦符合用戶興趣的產品。可知道用戶選擇最可能滿足需求及剛興趣的商品,增加商家的復購率、客單價、動銷比。
    近些年來,隨着個性化信息服務成爲互聯網行業應用的熱點,推薦系統在電子商務、新聞、電影、音樂、網頁、社交網絡等各種類型的
web站點都取得了廣泛的應用。

    在這些個性化推薦技術中常見的關鍵技術有:特徵提取,特徵建模,特徵降維技術,相似性度量方法,奇異值分解,聚類(k-均值),協同過濾算法等等。
    智能推薦大都基於海量數據的計算和處理,然而我們發現在海量數據上高效的運行協同過濾算法以及其他推薦策略這樣高複雜的算法是有很大的挑戰的,在面對解決這個問題的過程中,大家提出了很多減少計算量的方法,而聚類無疑是其中最優的選擇之一(即先對海量數據進行聚類計算,然後再運行協同過濾算法,這樣可以大幅度降低計算規模)。 聚類 (Clustering) 是一個數據挖掘的經典問題,它的目的是將數據分爲多個簇 (Cluster),在同一個簇中的對象之間有較高的相似度,而不同簇的對象差別較大。聚類被廣泛的應用於數據處理和統計分析領域。聚類分析還可以作爲其他算法的預處理步驟,簡化計算量,提高分析效率!

一、      個性化推薦技術:

    在衆多推薦技術中,研究最多的是基於內容的推薦協同過濾推薦

   在這些個性化推薦技術中常見的關鍵屬於有:特徵提取,特徵建模,特徵降維技術,相似性度量方法,奇異值分解,聚類(k-均值),協同過濾算法等等。

1.1 基於關聯規則的推薦(Association Rules)【啤酒與尿布的故事】

    啤酒和尿布的購買有關係嗎?答案是,跟尿布一起購買最多的商品就是啤酒。據沃爾瑪的分析調查,美國的太太們常叮囑她們的丈夫下班後爲小孩買尿布,而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。對於隱藏在啤酒和尿布這類表面上風馬牛不相及的商品背後的關聯,如果不通過數據挖掘的技術,是沒有辦法靠拍腦袋的辦法想出來的。這就是關聯規則挖掘中最經典的例子。

    商品之間關聯規則可以分爲空間關聯和時間關聯兩種,時間關聯又可以分爲週期關係和順序關聯兩種。在一般研究中提到的關聯規則,其實僅僅是空間關聯,也就是在同一個時間(同一次購買)裏,對消費者經常一起購買的商品進行分析,這也是所謂“購物籃分析”的主要支撐技術。

   最常見的空間關聯規則挖掘技術,是所謂的“支持-置信”分析。以消費者在超市購買商品爲例,如果把每一個消費者的一次購買看作一個事件,考慮從商品X到商品Y的關聯規則,支持度是指在所有事件中同時購買商品X和商品Y的比例,置信度則是在所有購買了商品X的事件中也購買商品Y的比例。如果支持度和置信度都超過了相應的閾值,則從XY的規則被認爲是有效的。

    基於關聯規則的推薦,關聯規則關注用戶行爲的關聯模式,可以發現不同商品在銷售過程中的相關性,從而增加商品的組合銷售。常用的關聯規則方法有 Apriori 算法以及基於Apriori算法改進的 FP-Growth算法等。關聯規則技術在數據挖掘領域中主要用來處理關係型事物數據庫,在電子商務領域被成功應用到購物籃數據中,可以發現不同商品在銷售過程中的相關性,從而增加商品的組合銷售能力。

關鍵詞語:(最小)支持度,(最小)置信度,閾值,生成頻繁項集(那些支持度大於最小支持度閾值的項集稱之爲頻繁項集(frequent item set)),獲得關聯項集,推薦項。

    關聯規則常用的方法是 Apriori算法,其用於推薦的原理是:算法首先通過挖掘用戶的歷史紀錄來產生聚集樹,獲得用戶行爲的頻繁項集,然後定義推薦因子爲關聯規則的置信度乘以距離,最終通過推薦因子的大小確定推薦項。  

       關聯規則推薦簡單、高效,可以離線建模,因此能夠保證推薦系統的實時性要求,同時,由於是通過挖掘用戶的歷史瀏覽記錄來產生推薦,因此可以應用於不同的領域。但是該算法的也存在着較爲明顯的缺陷,例如如果關聯規則的支持度和置信度閾值選取不合適,往往會在增加建模時間成本的同時還會降低推薦質量;新項目(New Items)由於缺乏歷史記錄而無法獲得推薦;此外隨着系統規模的進一步擴大,基於關聯規則得到的結果往往過於複雜,影響了推薦的質量。這種方法通常被限制在容易分析內容的商品的推薦,而對於一些較難提取出內容的商品,如音樂CD、電影等就不能產生滿意的推薦效果。

1.2 基於內容的推薦(Content-based

    基於內容的推薦是信息過濾技術(Information Filtering)的延續和發展,系統無須獲取用戶對項目的評價意見,而僅僅通過學習用戶的對歷史選擇項目的信息,來進行新項目的推薦。同時,受限於信息獲取技術的發展,基於內容的推薦系統也受到了很多的約束,例如在自動提取一些視頻文件、圖像、聲音文件等多媒體信息的特徵時,面臨着較大的技術困難,從而也限制了相關領域的應用。此外基於內容的過濾技術只能向用戶推薦與其歷史興趣內容屬性相似的項目,缺乏對用戶潛在興趣的挖掘能力,在實際應用中存在一定的侷限性。

    由於基於內容的推薦算法的根本在於信息提取和信息過濾,屬於文本處理的研究範疇(特徵提取,降維處理,特徵建模,相似性計算)理論上的研究也比較成熟,因此現有很多基於內容的推薦系統都是通過分析產品的文本信息進行推薦的。最常用方法就是信息過濾中TF-IDF算法,還有常用的相似性計算方法-餘弦相似性計算,阿基米德相似性計算等

總結來說,基於內容的協同過濾有如下優點:

1) 不需要考慮其它用戶的興趣愛好數據,從而也就不存在用戶-項目評價矩陣稀疏的問題;

2) 能處理項目冷啓動問題。當一個新項目加入到系統後,可以通過對項目特徵的提取,通過匹配用戶的歷史選擇信息來對特定用戶產生推薦,同時推薦結果也能兼顧一些不是很流行的項目;

3) 由於推薦的結果是根據項目的特徵進行選擇的,因此可以解釋爲什麼推薦這些項目。

4) 已有較爲完善的理論體系,如關於文本處理和信息分類學習方面的技術已相當成熟。

其不足之處:

此外基於內容的過濾技術只能向用戶推薦與其歷史興趣內容屬性相似的項目,推薦的結果往往會造成過度特殊化(Over-specializationProblem)的問題,缺乏對用戶潛在的挖掘能力;最後,當一個新用戶進入到推薦系統時,由於在系統上沒有任何歷史記錄,會導致無法正確且實時的做出有效的

1.3        協同過濾推薦(Collaborative Filtering

   協同過濾技術是目前推薦系統中最成功和應用最廣泛的技術,在理論研究和實踐中都取得了快速的發展,它根據用戶的歷史選擇信息和相似性關係,收集與用戶興趣愛好相同的其他用戶的評價信息來產生推薦。

    協同過濾也稱爲社會過濾,它計算用戶間偏好的相似性,在相似用戶的基礎上自動的爲目標用戶進行過濾和篩選,其基本思想爲具有相同或相似的價值觀、思想觀、知識水平和興趣偏好的用戶,其對信息的需求也是相似的。因此相對於傳統的推薦方法,協同過濾技術體現出的一個顯著的優勢是能夠推薦一些難以進行內容分析的項目,比如信息質量、個人品味等抽象的資源對象。另外協同過濾技術能夠有效的使用其他興趣相似用戶的評價信息,從而利用較少的用戶反饋,加快了個性化學習的速度,同時利於發現用戶的隱藏興趣。從 1992 年該技術的思想首次被提出以來,協同過濾技術以其廣闊的應用價值,受到了越來越多學者的關注,併成爲一個重要的研究熱點。

    協同過濾技術是利用戶間的興趣偏好相似性來產生推薦,且推薦的過程是完全自動的,即推薦結果的產生是系統從用戶的購買行爲或瀏覽記錄等隱式信息中得到的,無需用戶通過填寫調查表格等方式來明確自己的興趣信息。

    相對於其它的推薦技術,由於協同過濾不依賴於抽取推薦對象的特徵信息來了解用戶的興趣,並能夠發現用戶的潛在興趣,具備較高的個性化程度,因此協同過濾技術受到越來越多研究者的關注,並廣泛應用於在電子商務推薦領域。

1.3.1與傳統文本過濾相比,協同過濾有下列優點:

1. 能夠過濾難以進行機器自動基於內容分析的信息。如藝術品、音樂;

2. 能夠基於一些複雜的,難以表達的概念(信息質量、品位)進行過濾;

3. 推薦的新穎性。正因爲如此,協同過濾在商業應用上也取得了不錯的成績。AmazonCDNowMovieFinder,都採用了協同過濾的技術來提高服務質量。

    因此,協同過濾的基本出發點可以總結爲:(1)用戶是可以按興趣分類;(2)用戶對不同的信息評價包含了用戶的興趣信息;(3)用戶對一個未知信息的評價將和其相似(興趣)用戶的評價相似。這三條構成了協同過濾系統的基礎。

1.3.2傳統系統規律算法的步驟如下所示:

(1)評分標示:

   傳統協同過濾推薦算法的輸入數據是一個m× n的用戶-項目評分矩陣

2)緊鄰選擇:

    協同過濾算法的推薦原理就是查找與目標用戶相似的近鄰用戶,通過近鄰用戶的評價對目標用戶產生推薦。近鄰用戶的選擇方法如下:計算目標用戶與推薦系統中其他所有用戶的相似性,根據相似性排序從大到小依次選擇前面的K個最相似的用戶作爲目標用戶的近鄰集合。

這其中,相似性度量方法的選擇對於推薦精度有着至關重要的影響,常用的相似性度量方法:歐幾里得距離、皮爾遜相關(PearsonCorrelation Similarity)、餘弦相似性(Cosine Similarity)、Tanimoto係數即修正的餘弦相似性(Adjusted Cosine Similarity

3)產生推薦

    協同過濾算法一個基本的假設就是具有相似喜好的用戶對於同一個項目會給出相似的評分。因此,目標用戶的近鄰集合生成後,就可以根據近鄰集合中用戶的評分,來預測目標用戶對於未評分項目的評分。

1.3.3總結:

    協同過濾技術在推薦系統中取得了廣泛的應用和巨大的成功,但是隨着互聯網的發展和普及,用戶人數和商品、網絡資源的爆增,站點結構複雜度的增加,以及網絡信息安全的不斷升級,協同過濾推薦系統也面臨着如下諸多問題和挑戰:

1) 數據稀疏

2) 冷啓動問題:冷啓動問題包含新用戶問題(new user problem)和新項目問題(new itemproblem)兩種情況。新用戶問題是指當一個新用戶加入到推薦系統時,由於沒有該用戶的歷史評分數據,因此無法根據評分信息對新用戶進行推薦服務。新項目問題是指當一個全新的商品加入到推薦系統中後,由於沒有用戶對其進行過評價,則在系統運行的初期,它將很難獲得推薦。新項目問題可以通過結合基於內容的推薦(項目的屬性信息)等方法,來緩解冷啓動問題。

3)可擴展性問題

4)魯棒性問題:推薦系統能否識別此種情況,去除惡意用戶及異常數據,提高推薦系統的可靠性,這也是目前推薦系統魯棒性方面所需要重點關注的問題。

5)隱性喜好發現

1.3.4、常用協同過濾算法:

基於內存的協同過濾

    1.1基於item的協同過濾(item-based CF):通過用戶對不同item的評分來評測item之間的相似性,基於item之間的相似性做出推薦;

     1.2基於user的協同過濾(user-based CF):通過不同用戶對item的評分來評測用戶之間的相似性,基於用戶之間的相似性做出推薦;

基於模型的協同過濾

混合式協同過濾

1.4    混合推薦技術(Hybrid Recommendation

    鑑於各種推薦方法都有優缺點和技術特點,且具有將強的互補性,因此在實際推薦系統中,通常採用組合推薦(Hybrid Recommendation)的方式來對用戶做出推薦。目前的組合推薦方法中,較爲流行的是將協同過濾和基於內容推薦相結合,最簡單的做法就是用協同過濾推薦方法和基於內容的方法分別得到一個推薦結果,最終結果由這兩者然後按照一定的原則組合產生。

1.5 各推薦技術應用


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章