今日頭條推出強化學習新成果：首次改進DQN網絡，解決推薦中的在線廣告投放問題

原創

深度传送门

2019-10-15 08:04

本文來自“深度推薦系統”專欄，這個系列將介紹在深度學習的強力驅動下，給推薦系統工業界所帶來的最前沿的變化。本文主要介紹今日頭條推出的強化學習應用在推薦的最新論文[1]，首次改進DQN網絡以解決推薦中的在線廣告投放問題。

背景介紹

隨着最近RL研究的火熱，在推薦平臺上在線廣告投放策略中如何利用RL引起了大家極大的興趣。然而，大部分基於RL的在線廣告投放算法只聚焦於如何使廣告收益最大化，卻忽略了廣告對推薦列表的用戶體驗可能會帶來的負面影響。在推薦列表中不適當地插入廣告或者插入廣告太頻繁都會損害推薦列表的用戶體驗，與此同時插入太少的廣告又會減少廣告收入。

因此本文提出了一種全新的廣告投放策略來平衡推薦用戶體驗以及廣告的收入。在給定推薦列表前提下，本文提出了一種基於DQN的創新架構來同時解決三個任務：是否插入廣告；如果插入，插入哪一條廣告；以及插入廣告在推薦列表的哪個位置。實驗也在某短視頻平臺上驗證了本文算法的效果。

DQN架構

在深入本文具體的算法架構前，我們先來簡單回顧下DQN的兩種經典結構：

圖a的DQN接受的輸入是state，輸出是所有可能action對應的Q-value；
圖b的DQN接受的輸入是state以及某一個action，輸出是對應的Q-value。

這兩種經典架構的最主要的問題是隻能將action定義爲插入哪一條廣告，或者插入廣告在列表的哪個位置，無法同時解決上述提到的三個任務。

當然，從某種程度上來說將插入位置與插入哪一條廣告通過某種表示形式譬如one-hot編碼來建模action是一種使用上述經典DQN的方式，這樣的話action的空間會變成O(A*L)，其中A是廣告的空間，L是插入列表的位置空間。這樣的複雜度對於實際線上的廣告系統是不太能夠接受的。

改進的DEAR架構

因此，本文提出了一種改進的DQN框架DEAR用來解決上述推薦系統中在線廣告投放問題。該框架試圖同時解決上述提到的三個任務。也就是說，本框架會同時針對所有可能的插入位置的Q-value進行預估。

如下左圖所示，其實是融合了上述提到了兩種經典DQN結構的結合，輸入層包含State以及Action（插入哪條廣告），輸出層則是廣告插入推薦列表的L+1位置對應的Q-value（假設推薦列表長度爲L，則可以插入廣告的位置爲L+1種可能）。與此同時，使用一個特殊插入位置0用來表示不進行廣告插入，因此輸出層的長度擴展成爲L+2。

DEAR框架詳細的架構如下右圖所示，輸出層Q函數被拆解成兩部分：只由state決定的V函數；以及由state和action同時決定的A函數。其中，

state包含了使用GRU針對推薦列表和廣告進行用戶序列偏好建模的p；當前用戶請求的上下文信息c；以及當前請求展示的推薦列表item的特徵進行拼接轉換形成的低維稠密向量rec；
action則包含兩部分：一部分是候選插入廣告ad的特徵；另一部分則是廣告插入的位置；其中這裏的前半部分會被當做輸入層。

reward函數。Reward函數也包含兩部分：一部分是廣告的的收入r^ad；另一部分則是用戶是否繼續往下刷的獎勵。基於下圖的reward函數，最優的Q函數策略便可以通過Bellman等式求得。

Off-Policy訓練

本文基於用戶交互歷史的離線日誌，採用 Off-policy的方式進行訓練得到最優的投放策略。如下圖所示，針對每一次迭代訓練：

（第6行）針對用戶請求構建state；
（第7行）根據標準的off-policy執行action，也就是選取特定ad；
（第8行）根據設計好的reward函數，計算reward；
（第10行）將狀態轉移信息（s_t，a_t，r_t，s_t+1）存儲到replay buffer；
（第11行）從replay buffer中取出mini-batch的狀態轉移信息，來訓練得到最優的Q函數參數。

實驗

由於沒有同時包含推薦列表和廣告item的公開數據集，本文基於從某短視頻網站獲取的自2019年3月的數據集訓練得到模型，該數據集包含兩種視頻：正常推薦列表的視頻和廣告視頻。正常視頻的特徵包含：id、點贊數、播放完成率、評論數等；廣告視頻的特徵包含：id、圖片大小、定價等。

實驗對比上本文主要挑選瞭如下的幾個代表性的baseline進行效果對比，爲了實驗對比的公正性，所有對比算法使用的特徵完全一致。

W&D。本文稍微針對W&D進行了擴展來預估是否插入廣告以及預估插入廣告的CTR。
DFM。DeepFM是在W&D基礎上改進而來的一種可以額外學習特徵間低階交互的一種架構。本文的實驗也表明DFM的表現好於W&D。
GRU。GRU4Rec使用GRU來建模用戶的歷史行爲針對用戶是否點擊進行預估，本文同樣也進行了擴展支持實驗場景。本文的實驗表明GRU4Rec效果好於W&D和DFM。
HDQN。HQN是一個層級DQN結構，高階DQN決定插入位置；低階DQN選擇特定ad進行插入。本文的實驗表明HDQN效果好於GRU，因爲GRU只是最大化當前請求的immediate獎勵，而HDQN則是最大化長期收益。
DEAR。本文提出的DEAR框架效果好於HDQN，因爲層級的RL架構在使用off-policy方式進行聯合訓練時有穩定性問題。詳細的效果對比，如下圖所示。

參考

Deep Reinforcement Learning for Online Advertising in Recommender Systems

本文授權轉載自知乎專欄“深度推薦系統”。原文鏈接：https://zhuanlan.zhihu.com/p/85417314

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

今日頭條推出強化學習新成果：首次改進DQN網絡，解決推薦中的在線廣告投放問題

背景介紹

DQN架構

改進的DEAR架構

Off-Policy訓練

實驗

參考

深度學習網絡調參技巧

如何實現支持多值、稀疏、共享權重的DeepFM

谷歌大規模多目標排序實踐：Youtube視頻推薦核心技術

今日頭條最新論文，首次改進DQN網絡解決推薦中的在線廣告投放問題

從3/4層拓展到56層，如何訓練超級深層的圖卷積神經網絡？

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結