推薦系統?淘寶?

目錄

• 推薦系統概念

• 淘寶的數據

• 淘寶推薦系統應用場景

• 淘寶推薦系統核心算法

• 淘寶推薦系統的設計


• 推薦系統概念

• 淘寶的數據

• 淘寶推薦系統應用場景

• 淘寶推薦系統核心算法

• 淘寶推薦系統的設計

推薦系統定義

維基百科:

form or work from a specific type of information filtering system technique that attempts to recommend information items (item, music, books, news, images etc.) or social elements (e.g. people, events or groups) that are likely to be of interest to the user.

推薦系統作用

• 從用戶角度: 提高用戶忠誠度 幫助用戶快速找到寶貝

• 從網站角度: 提高網站交叉銷售能力 提高成交轉化率

• 好的推薦系統更像一個有經驗的網站導購 員

分類

• 個性化推薦

• 非個性化推薦

推薦與搜索

• 相同點: 幫助用戶找到商品

• 不同點: 搜索是通過用戶主動輸入的關鍵字進行查詢。 推薦則是用戶在瀏覽網站的過程中,不一定需要 用戶輸入,根據當前網頁的上下文進行個性化的 信息輸出。

推薦與廣告

相同點: – 基於用戶行爲

• 不同點: – 廣告目的是幫助商家推廣商品等 – 推薦系統幫助用戶找到想要的商品等

推薦與SNS

相同點:它們都有基於人羣的共同點產生 推薦

• 不同點:一個是機器,一個是人工

推薦系統的核心

推薦系統產品

• 同類或者相關商品、店鋪推薦

• 買了還買、看來還看等

• 猜你喜歡

• 羣體信息披露

• 熱門排行榜

• etc

大型網站推薦系統組成

• 數據

• 算法(online & offline)

• Messaging system

• Search engine

• NoSQL

• 分佈式計算

• 效果評測

數據

• explicit(顯式) :能準確的反應用戶對物品的真實喜好,但 需要用戶付出額外的代價 用戶收藏 用戶評價
• Implicit(隱式):通過一些分析和處理,才能反映用戶的喜 好,只是數據不是很精確,有些行爲的分析存在較大的噪音 用戶瀏覽 用戶頁面停留時間、訪問次數

算法

• 算法計算方式 離線: 用戶類目偏好、用戶購買力分析、 關聯性分析、相似矩陣計算等等 在線:排序、過濾、增量計算
• 算法配合大量業務規則 • 沒有最好,只有更好!

Messaging system

• 大型系統不可或缺的重要組成部分

• 與其他系統解耦,消息轉發

Search engine

文本分析 抽取關鍵詞

• 作爲推薦系統的一個信息檢索技術 內容相 關性匹配

NoSQL

• 簡單

• 高性能

• 方便定製

分佈式計算

• 大規模數據統計和運算 • 大數據集合的ETL
MapReduce , Hive、Hadoop 

• 推薦系統概念

• 淘寶的數據

• 淘寶推薦系統應用場景

• 淘寶推薦系統核心算法

• 淘寶推薦系統的設計

淘寶數據特點

• 數據量巨大

數百萬店鋪

數億激活用戶

數億的在線商品

數十億的收藏信息 …… 

  • 商品問題

同一類商品多個賣家

標類

非標類

類目屬性正確性

惡意收藏、刷信譽

• 推薦系統概念

• 淘寶的數據

• 淘寶推薦系統應用場景

• 淘寶推薦系統核心算法

• 淘寶推薦系統的設計

應用場景

目前覆蓋大小場景60多個,

主要包括

Detail 瀏覽了還瀏覽

收藏夾彈出層推薦

  購物車彈出層推薦 

已買到寶貝 你可能感興趣 

淘寶無線應用 

EDM(重複購買提醒) 

各個垂直頻道 

個性化list排序 

開放平臺api  。。。

淘寶推薦產品

• 淘寶業務產品豐富,推薦功能穿插其中

• 推薦功能涵蓋的範圍更廣

• 很多場景推薦算法與業務規則相關

• 推薦系統概念

• 淘寶的數據

• 淘寶推薦系統應用場景

• 淘寶推薦系統核心算法

• 淘寶推薦系統的設計

淘寶推薦系統算法

• 基礎算法 聚類算法,預測算法,分類算法等,主要 用於產生基礎知識庫 • 推薦算法 content-based,collaborative-based, Association Rules等等

基礎算法

• 預測算法 logistic 迴歸,通過以點擊率爲目標,以商品,賣家等因 素作爲指標,建立預測模型構建淘寶優質寶貝庫

• 分類算法 樸素貝葉斯 商品性別判斷(男性,女性,中性) 用戶性別判斷
• 聚類算法 人羣,用戶細分 用於降維

推薦算法

• 基於內容推薦 通過給用戶和商品標註Tag,通過內容匹配算法,推薦商 品給用戶
優點:簡單,搜索引擎支持,解決部分冷啓動問題 缺點:難以區分商品信息的品質,而且不能爲用戶發現新的 感興趣的商品,只能發現和用戶已有興趣相似的商品

• 協同思想 優點:新奇特,個性化程度高 缺點:冷啓動,稀疏性

• 關聯規則 類目的相關性、商品相關性、人的相關性

效果評測

• 推薦系統的效果需要數據來評測 Offline:

給定輸入輸出,驗證系統的輸出 Online : ABTest
衡量指標 CTR  GMV  轉換率

• 推薦系統概念

• 淘寶的數據

• 淘寶推薦系統應用場景

• 淘寶推薦系統核心算法

• 淘寶推薦系統的設計

淘寶推薦系統設計

• 提供統一的平臺管理各個推薦模塊

• 提供高性能分佈式存儲

• 提供算法的AbTest和效果統計

• 提供靈活算法配置

分佈式存儲

Treasure存儲的數據

• 存儲雲梯(hadoop)上對用戶、商品等原 始數據分析的結果

• 雲梯週期性同步,無實時更新

• 爲推薦系統提供ABTest存儲支持

• 可直接存儲部分推薦算法的結果供推薦使 用

• 動態部署

調度系統

• 負責週期性雲梯(hadoop)任務調度

• 分佈式

• 生產者 消費者

協調系統

• Zookeeper集羣

• 智能路由

• 線上與線下聯動通知

• Job依賴通知

• 推薦系統是需要不斷創新

• 推薦系統與場景和行業相關

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章