【論文筆記】M-Walk: Learning to Walk over Graphs using Monte Carlo Tree Search

原創

2020-07-04 03:33

本文用了強化學習，在知識圖譜上游走，尋找目標節點。

一、簡介

大概意思就是，在知識圖譜上，給出一個起始節點和查詢（query） $n_{s},q$ ，然後找到目標節點 $n_{T}$ 。

$G=(N,\varepsilon )$ 圖G包含節點 $N=\{n_{i}\}$ 和邊 $\varepsilon =\{e_{ij}\}$ 。

如下圖，給出起始節點Obama，query：citizenship，目標節點是USA。

我們要學習一個方法 $f(G,n_{s},q)$ 來預測 $n_{T}$ 。

我們我們將f作爲強化學習力的agent。他要學習搜索策略（search policy）

訓練的時候，我們給出 $(n_{s},q,n_{T})$ ，讓f自己學習路徑，如果他走到 $n_{T}$ ，就給他一個正的reward，或者0分。學完後只給出 $n_{s},q$ ，預測 $n_{T}$ 。

所以設計了一個神經網絡的agent，叫M-walk。用RNN將歷史路徑轉化爲一個向量，用來學policy和Q function 。reward稀疏，所以用帶蒙特卡洛樹搜索的RNN，生成路徑。

二、用馬爾科夫決策過程來進行圖的遊走

（S，A，R，P） s是state，a是action，r是reward function，p是state transition probability

初始狀態s0和下一個狀態的表示，如上圖所示。

$\varepsilon _{n_{t}}$ 是連接點nt的所有邊， $N_{n_{t}}$ 是nt的所有鄰居節點。

si由1）該節點和連接它的邊、它的鄰居 2）t-1時刻的動作 3）初始query q構成。

集合S由所有可能出現的st構成。

在狀態st，agent有以下動作可以選擇：1）選擇 $\varepsilon _{n_{t}}$ 中的一條邊，他連接到點 $n_{t+1}$ 2）選擇STOP，則 $n_{t}$ 就是要預測的 $n_{T}$ 。

動作集合由下圖表示

輸出

如果輸出是 $n_{T}$ （即輸出了正確的答案），則reward=1，否則爲0.

這可以看出來，reward是非常稀疏的，只有走到正確的位置纔有reward。但是由於圖是已知靜態確定的，所以如果確定了上一個狀態和動作，那麼下一個狀態時確定的。（文中說這有助於解決reward稀疏。）

π是policy（給出狀態s，選擇動作a），Q是Q function（在狀態s下選擇動作a，它的Q value是多少，即之後的長期收益是多少）

三、M-walk agent

3.1π和Q的神經網路結構

用RNN獲得當前狀態st的表達ht

ht分爲三個部分：

1）將上個時間的狀態、動作、當前節點，綜合。

2）綜合了nt的鄰居n'節點，以及nt和n'之間的邊e，代表第n'個候選動作（包括STOP動作）

3）綜合了 $\varepsilon _{n_{t}}$ 和 $N_{n_{t}}$ ，用來判斷STOP的概率。

所以π和Q的計算。

u0是將hst，hAt通過一個full-connected neural network。（這裏沒說這兩個h要怎麼整合到一起，可能是拼接吧）

un'是hst和hn't做內積（即點乘，對應位相乘，求和）

u0（STOP的分數）,un'（鄰居的分數）都是一個數字

Q是對每個數字做sigmoid

π是做溫度參數爲τ的softmax

關於溫度參數

3.2 訓練算法

傳統的使用蒙特卡羅方法的REINFORCE，需要sample一個完整的序列，sample的效率很低，而且reward稀疏。所以sample的時候使用PUCT算法的變體。

π是上面提到的策略分數（softmax算的），c和β用來控制探索的程度。N是visit count。W是走(s-a)這條邊上的蒙特卡羅樹的total action reward。

PUCT算法最開始傾向於選擇在狀態s下出現少的action（式子的前半部分），後來傾向於選擇分數高的（式子的後半部分）。

當PUCT算法選擇了STOP，或者到達了最大探索數（應該是強行選擇STOP），則停止。使用

用下面的式子，更新上一個式子中的N和W。γ是衰減因子（discount factor）.

主要目標就是多生成reward爲正的路徑。

然後用DQN網絡，尋找更好的π就是max Q

3.3預測算法

已知（ns，q）求nT。利用π在G上尋找nT。

我們利用上面已經生成好的蒙特卡羅樹。但是可能有多路徑到達同一個節點n。走不同路徑，就有不同的

這些路徑上各個葉子狀態sT。怎麼比較選擇哪個n（n需要綜合多條路徑），需要算一個分數，排序。

N是蒙特卡羅樹的總模擬數量

求和是在所有有關同一個節點n上的子狀態sT，是對於同一個候選n的平均權重。

在所有的候選節點中，我們選擇score最大的。

3.4 RNN encoder

qt約等於右邊的（因爲s0的原因）

所以st大約可以寫成

st由兩部分組成 1） $\varepsilon _{n_{t}}$ $N_{n_{t}}$ 代表候選動作（包括STOP） 2）qt代表歷史

所以用兩個不同的神經網絡去編碼他們

前面說過，ht分爲三個部分：

1）將上個時間的狀態、動作、當前節點，綜合。

2）綜合了nt的鄰居n'節點，以及nt和n'之間的邊e，代表第n'個候選動作（包括STOP動作）

3）綜合了 $\varepsilon _{n_{t}}$ 和 $N_{n_{t}}$ ，用來判斷STOP的概率。

求 2）的方法很簡單，就是邊和點的表達通過full-connected neural network

求 3）的方法，就是max 2）的結果，因爲每一次的節點數可能都不一樣，這樣可以得到統一的結果

求1）就是編碼qt 使用gru的思想

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

代碼高手的過節祕籍：CodeArt Snap幫寫代碼，靈感彈指間實現

本文分享自華爲雲社區《【端午特輯】代碼高手的過節祕籍：CodeArt Snap幫寫代碼，靈感彈指間實現》，作者：華爲雲社區精選。端午將至，糉葉飄香，你卻還在爲一行行代碼頭疼？與bug纏鬥不休？現在，基於盤古大模型技術打造的華爲雲智能開

2024-06-07 22:57:17

一文教你在MindSpore中實現A2C算法訓練

本文分享自華爲雲社區《MindSpore A2C 強化學習》，作者：irrational。 Advantage Actor-Critic (A2C)算法是一個強化學習算法，它結合了策略梯度（Actor）和價值函數（Critic）的方法。A2

2024-06-07 10:56:57

京東商家智能助手：Multi-Agents 在電商垂域的探索與創新

電商助手是一款集合了多種電商經營決策功能的工具軟件，旨在幫助電商從業者完成從商品發佈到訂單管理、客服溝通、數據分析等一系列電商運營任務。京東零售基於 Multi-Agents 理念搭建了商家助手大模型在線推理服務架構，這一系統的核心是算法

2024-05-23 23:57:25

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練

本文分享自華爲雲社區《MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練》，作者： irrational。半獵豹（Half Cheetah）是一個基於MuJoCo的強化學習環境，由P. Wawrzyński

2024-04-29 10:33:13

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

隨着人工智能技術的日益成熟，大模型成爲了衆多領域的研究熱點。大模型通過龐大的數據量和複雜的網絡結構，實現了對數據的深度挖掘和高效處理。然而，大模型的龐大體積和高計算成本也限制了其在一些實際場景中的應用。爲了解決這一問題，文心大模型ERNIE

2024-04-18 11:29:53

RAG 修煉手冊｜一文講透 RAG 背後的技術

在之前的文章中《RAG 修煉手冊｜RAG敲響喪鐘？大模型長上下文是否意味着向量檢索不再重要》，我們已經介紹過 RAG 對於解決大模型幻覺問題的不可或缺性，也回顧瞭如何藉助向量數據庫提升 RAG 實戰效果。今天我們繼續剖析 RAG，將爲大

2024-04-10 21:20:11

文心千帆：從PPT製作到數字人主播，ERNIE-Bot|BLOOMZ大模型調優與RLHF訓練全攻略

隨着人工智能技術的不斷髮展，文心千帆作爲一款領先的人工智能模型，已經在多個領域展現出其強大的實力。無論是PPT製作，還是數字人主播，文心千帆都能夠爲用戶提供驚豔的應用體驗。而背後支撐這一切的，正是ERNIE-Bot|BLOOMZ大模型的強大

2024-03-29 00:01:17

大模型在推薦系統中的精準推薦策略與實踐

引言推薦系統在現代互聯網應用中佔據了極其重要的位置。無論是電商平臺、社交媒體、音樂和視頻流媒體服務，還是新聞和內容推薦系統，推薦系統都在提高用戶體驗和平臺收益方面發揮着關鍵作用。近年來，隨着人工智能和機器學習技術的迅猛發展，大模型（如G

2024-06-06 23:55:10

音頻鏈接抓取技術在Lua中的實現

前言隨着數字音樂的普及，越來越多的用戶選擇在線音樂平臺來享受音樂。網易雲音樂作爲國內領先的音樂服務平臺，不僅提供了豐富的音樂資源，還擁有獨特的社交屬性，吸引了大量的用戶。在衆多的音樂服務中，音頻鏈接的抓取技術成爲了一個重要的需求。無論

2024-05-28 00:07:25

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

深度解析大模型推理框架：原理、應用與實踐

在當今數據驅動的時代，大模型推理框架已經成爲人工智能領域的重要支柱。本文將通過簡明扼要、清晰易懂的方式，帶領讀者深入瞭解大模型推理框架的原理、應用領域和實踐經驗，幫助讀者更好地掌握這一技術，並在實際工作中發揮其價值。一、大模型推理框架簡介

2024-04-11 23:28:49

華爲雲GeminiDB，廣告RTA的“登雲梯”

本文分享自華爲雲社區《華爲雲GeminiDB，廣告RTA的“登雲梯”》，作者： GeminiDB-Redis博客。行話說，廣告RTA要想效果好，數據庫挑戰少不了。那麼，廣告RTA對數據庫究竟有哪些挑戰？在上篇文章《究竟什麼樣的數據庫，才能

2024-04-09 10:32:19

24小時熱門文章

最新文章

最新評論文章