摘要

本文綜述了深度強化學習（DRL）在通信和網絡中的應用。現代網絡中的實體需要在網絡環境不確定的情況下在本地進行決策，以使網絡性能最大化。強化學習被有效地用於使網絡實體在狀態空間和行爲空間較小的情況下獲得動作的最優選擇。然而，在複雜的大規模網絡中，狀態空間和動作空間往往很大，強化學習可能無法在合理的時間內找到最優策略。因此，強化學習與深度學習相結合的DRL可克服這一不足。在本次調查中，我們首先提供了從基本概念到高級模型的DRL知識。然後，我們回顧了爲解決通信和網絡中的新問題而提出的DRL方法。這些問題包括動態網絡接入、速率控制、無線緩存、數據卸載、網絡安全和連接留存，這些都是下一代通信網絡要解決的重要問題。此外，我們呈現了DRL在流量路由、資源分享，數據收集方面的應用。最後，我們強調了應用DRL的重要挑戰，待解決的問題和未來的研究方向。

因本paper內容過多，本博客僅對自己感興趣的方面進行了記錄，如有需要可以查看原文

介紹

在不確定且隨機的環境下，大多數決策問題都可以用馬爾可夫決策過程來建模（MDP）。採用動態規劃或其他算法（比如數值迭代）或者RL來解決MDP。然而，現代網絡規模龐大且複雜，計算複雜度變德難以控制。因此，DRL方法提供了以下優點：

可解決複雜問題。能讓網絡控制單元在無完整和準確的網絡信息情況下，解決非凸和複雜的問題
使網絡實體可以在不知道信道模型和移動模式的情況下學習最優策略
網絡實體可以在本地進行觀察並得到最優動作，減少通信開銷，提高網絡安全性和健壯性
DRL的學習速度快

本文主要調查DRL如何解決通信和網絡中的問題，如圖2所示。主要討論的問題包括：網絡接入、數據速率控制、無線緩存、數據卸載、網絡安全、連接預留、流量路由、數據收集。本文還調查了DRL相關的工作，如圖1所示。從中可以看出DRL解決通信問題的研究主要集中在蜂窩網和無線緩存、卸載方面。

深度強化學習：概覽

本節講馬爾可夫決策過程、強化學習、深度學習的基礎知識，並回顧了DRL的最新模型及其擴展。

馬爾可夫決策過程MDP

MDP是一個離散時間隨機控制過程。MDP爲決策問題的建模提供了一個數學框架，其中的結果是部分隨機的並且受決策者（agent）的控制。MDPs有助於研究動態規劃和強化學習技術所能解決的優化問題。通常，MDP由元組（S，a，p，r）定義，其中S是有限的狀態集，a是有限動作集，p是從狀態s到狀態s'的轉移概率，r爲動作a執行後的即時獎勵。我們把“策略”用 $\pi$ 表示，它是從一個狀態到一個動作的映射。MDP的目標是找到一個最優策略，使報酬函數最大化。MDP可以是有限的或無限的時間界限。對於時間有界MDP，可以最大化加權獎勵或者最大化平均獎勵，其中前者表示爲，後者表示爲。

部分可觀測MDP

普通的MDP中，我們假設系統狀態是可以被agent完全可觀測的。然而在很多情況下，agent只能觀測到系統狀態的一部分，因此部分可觀測MDP（POMDPs）就可以用來解決這種順序決策問題。一個典型的POMDP模型被一個六元組所定義 $(\mathcal{S}, \mathcal{A}, p, r, \Omega, \mathcal{O})$ ，其中 $\Omega$ 和 $\mathcal{O}$ 分別表示觀測結果和觀測概率。在每個時點，agent在狀態s獲取觀測值o，該觀測值經過一個函數b得到對環境的感知b(s_t)，當動作執行後，agent將獲得對於新狀態s‘的感知b(s’)。

其中O是agent在狀態s執行動作a到達新狀態s’並觀察到o的概率。

馬爾可夫博弈 Markov Games（個人感覺和所謂的多主體RL一樣）

一個隨機博弈由多個players參與，並且是一個有轉移概率的動態過程。這種的我們稱之爲Markov game。一個典型的馬爾可夫博弈模型2可以被建模爲 $\left(\mathcal{I}, \mathcal{S},\left\{\mathcal{A}^{i}\right\}_{i \in \mathcal{I}}, p,\left\{r^{i}\right\}_{i \in \mathcal{I}}\right)$ ，第一項是agent的集合；第二項是個向量，爲agent的狀態空間；第三項爲agent i的動作空間；第四項p是轉移概率；第五項r是agent的獎勵。

在這樣的Markov game中，agent對環境觀察後，同時選擇他們的動作。在這個博弈過程中，所有agent嘗試去得到他們的最優policy以最大化他們各自的長期平均獎勵的期望。當狀態和agent個數均有限時，Markov Game通常可以在有限步後達到納什均衡。

強化學習 RL

RL作爲機器學習的重要分支，被廣泛用於解決MDP問題。在強化學習方法中，agent作爲動作主體與環境互動進而學習它的最優動作準則（policy）。具體來講，agent首先觀測當前狀態，然後採取行動，並從環境中獲得即時收益(reward)和一個新狀態(s')，如圖4（a）所示，觀測值（包括reward和s'）用來修正agent的policy，這個進程將會被重複直到agent的policy達到最優。在RL中，Q-learning是最有效的方法（甚至個人感覺沒有RL是不用Q-learning的，Q-learning的方法已經和RL融合在一起），下面對其進行描述。

Q-Learning

在一個MDP中，我們的目標是求解最優policy $\pi'$ ： $\mathcal{S}\rightarrow \mathcal{A}$ ，這個 $\pi'$ 可以使長期收益的期望最大化。相對應的，我們首先定義價值函數 $\mathcal{V^{\pi}}: \mathcal{S}\rightarrow \mathbb{R}$ ，它代表了在policy $\pi$ 下，每個狀態s的價值。對於policy $\pi$ 來說， $\mathcal{V}$ 用來衡量它的好壞，用數學式表述如下：

在每個狀態的最優動作因此可以通過下式得到： $\mathcal{V}^{*}(s)=\max _{a_{t}}\left\{\mathbb{E}_{\pi}\left[r_{t}\left(s_{t}, a_{t}\right)+\right.\right.\gamma\mathcal{V}^\pi(s_{t+1})]\}$

此外，我們定義（稱爲最優Q函數），其用來評價狀態-動作對的好壞，其與V函數的關係爲。現在，問題被簡化成了求解Q函數的最優值的問題，而這個問題也將通過迭代過程求解。具體來講，Q函數可以根據如下規則被更新：

這部分不詳細描述了，具體可見這篇博文（較簡明）或者這篇博文（較詳細）

SARSA(一種在線Q-Learning算法)

Q-Learning是一種離線的算法，具體來講，算法1僅在Q值收斂後得到最優策略。因此，這一節呈現一種在線的學習算法：SARSA，其潤許agent以一種在線的方式獲取最優policy。

與Q-learning不同，SARSA允許agent在算法收斂之前在每個是不選擇最優的動作。在Q-learning算法中，policy根據可用動作的最大獎勵來更新，而不管用了哪種種策略。與之相反，SARSA與環境交互並直接從所採取的動作來更新policy。即SARSA時通過五元組Q（s, a, r, s', a'）來更新Q值。

Q-Learning for Markov Games 馬爾可夫博弈中的Q-Learning

爲了將QL用於馬爾可夫博弈，首先要定義i號agent的Q函數： $\mathcal{Q}_i(s, a^i, a^{-i})$ ，其中 $a^{-i}$ 表示i號agent以外的所有agent的動作。i號agent的納什Q函數如下定義：

其中 $(\pi_1^*, ..., \pi_I^*)$ 爲聯合納什均衡策略，r是agenti的即時reward，V是在聯合納什均衡策略下的狀態s’的累積reward。

[17]Hu J, Wellman M P. Nash Q-learning for general-sum stochastic games[J]. Journal of machine learning research, 2003, 4(Nov): 1039-1069.

在參考文獻[17]（是一篇03年的paper，目前引用了800+次）中，作者提出了一個用於馬爾科夫博弈的多主體QL算法，該算法允許智能體給予對當前Q值得納什均衡行爲進行更新。具體來講，i號agent將在博弈開始的時候通過構造隨機的cancel來學習Q值。在每個時點t，i號agent觀測當前狀態並採取動作a^i，之後其收到即時收益r^i和他人採取的行動a^(-i)，他人的即時獎勵和新狀態s'。最後，i號agent爲狀態博弈計算一個納什均衡，Q值由下式得到：

其中\alpha是學習速率， $\mathscr{N}_{t}^{i}\left(s^{\prime}\right) \triangleq \mathcal{Q}_{i}^{t}\left(s^{\prime}\right) \times \pi_1(s') \times ... \times \pi_I(s')$ 。

爲計算納什均衡，i號agent需要直到其他agent得Q值，然而這對於其是不可知的。爲此，代理i將在遊戲開始時設置有關其他人的Q值得估計值，如。隨着博弈進行，agent i觀察其他agent得即使收益和之前做過的動作。這些信息可以用來修改agent關於其他agent的Q函數的猜想。之後，作者證明了在一些關於狀態博弈的限制性假設下，所提出的多主體QL算法是收斂的。

深度QL

QL算法當動作/狀態空間較小時可以迅速地得到一個最優策略。然而實際中系統模型非常複雜，狀態空間和動作空間經常很大。因此DQL（深度Q-learning）被提出來克服這個困難。直觀來講，DQL通過DQN（深度Q網絡）來實現，用以取代原先的Q表，來表徵對於的近似值，如圖4c所示。

[41]V . Mnih et al., “Human-level control through deep reinforcement learning,” Nature, vol. 518, no. 7540, pp. 529–533, 2015.

如文獻[41]所述，即便我們使用非線性函數逼近時，強化學習算法仍然的平均獎勵仍可能不穩定併發散。這是因爲Q值得微小變化可能會極大地對policy造成影響，因此，數據分佈和Q值和目標值之間的相關性會發生變化，爲解決這個問題，兩個機制被提出，分別是目標Q網絡和經驗重播。

經驗重播（Experience replay mechanism）：算法首先初始化重播內存 D，其格式爲 $(s_t,a_t,r_t,s_{t+1})$ （稱作experience），這些是隨機生成的（比如使用 $\epsilon$ -貪心算法）。之後算法從 D 中隨即地選擇樣本（如：minibatches）來訓練DNN。用訓練後的DNN所獲得的Q值用來獲取新的experience並存儲在D中。這個機制允許DNN以一種更加高效的方式學習舊的experience和新的experience。此外，通過使用experience replay，狀態轉移將更加獨立且分佈均因，以此消除觀測值之間的相關性。
Fixed target Q-network：在訓練過程中，Q值可能會發生偏移，因此如果使用一組不斷變化的值來更新Q網絡那麼值估計可能會脫離我們的控制。這導致算法的不穩定，爲解決這個問題，目標Q網絡用於頻繁但緩慢地更新primary Q網絡的值。通過這種方法，目標值和估計的Q值之間的相關性將被顯著降低，從而使算法穩定。

$Y(m, n, t)=\sum_{i=0}^{d} \sum_{j=0}^{d} \sum_{k=0}^{c_{i n}} S(X(m+i, n+j, k), F(i, j, k, t))$

算法2中展示了經驗重播和固定的目標Q網絡的用法，表二總結了DQL方法與其他算法的不同。

先進的DQL模型

技術	論文	年份	關鍵特點	好處	劣處	應用
Double Deep Q-Learning	Deep reinforcement learning with double Q-learning	2016	使用兩個Q函數同時選擇和評估動作價值	易收斂易實現	沒有考慮MDP特殊的特點	適用於大多數MDP
Prioritized Experience Replay	Prioritized experience replay	2016	在replay memory中對experience排列優先級	更快地收斂	在replay memory時需要關於experience的優先級信息	當experience存在優先級差異是非常有效
Dueling Deep Q-Learning	Dueling network architectures for deep reinforcement learning	2016	使用2個DNN同時估計動作和狀態價值函數	比以上兩者快得多	當動作和狀態空間小的時候複雜度高、效率低	狀態空間和動作空間大的時候效率很高
Asynchronous Multi-Step Deep Q-Learning	Asynchronous methods for drl	2016	使用多個agent並行訓練DNN	通過多個agent進行訓練，學習速度很快	對於硬件需求高、複雜度高	對於狀態和動作空間非常大的MDP效率很高
Distributional Deep Q-Learning	A distributional perspective on reinforcement learning	2017	使用分佈式函數來更新Q值函數	評估Q函數更加精確	需要知道不同狀態和動作的獎勵函數的分佈	適合在MDP獎勵函數的分佈已知的場景中實現
Deep Q-Learning With Noisy Nets	Noisy networks for exploration	2018	訓練時在DNN加入了一個高斯噪聲層	對於環境的探索更加高效	增加高斯噪聲層的效率有待商榷	對於狀態和動作空間非常大的MDP，其效率很高
Rainbow Deep Q-Learning	Rainbow: Combining improvements in deep rein- forcement learning	2018	把之前用到的RL技術匯在一起	集成了所有RL算法的有限	極其高的複雜性和對於MDP非常多的要求	僅適合大狀態/動作空間並且已知一些先驗特徵的MDP

Deep Deterministic Policy Gradient Q-Learning	Continuous control with deep reinforcement learning Deterministic policy gradient algorithms(DPG)	2016 2014	使用了DPG算法	可用於動作空間連續的情景使用低維度的觀測值學習競爭policy		適用於學習高維度、連續的動作空間
Deep Recurrent Q-Learning for POMDPs	Deep recurrent Q-learning for partially observable MDPS	2015	使用LSTM層來替換卷積DQ2N的第一個全連接層	對觀測值質量的變化不敏感； LSTM能以任意長的歷史記錄估計當前狀態		適用於環境僅可部分觀測的問題
Deep SARSA Learning	Deep reinforcement learn- ing with experience replay based on SARSA	2016	以在線的方法進行學習；使用CNN獲得Q
Deep Q-Learning for Markov Games	Towards cooperation in sequential prisoner’s dilemmas: A deep multiagent reinforcement learning approach	2017	分成在線和離線兩個階段			多個動作主體的順序決策
Neural Fictitious Self-Play (NFSP)	Deep reinforcement learning from self-play in imperfect-information games	2016	有兩個網絡，一個用DRL，一個用監督學習；			不完全信息下的決策

應用層技術

這裏本來應該是按照圖2的應用分類進行描述的，因本文過長（42頁），因此僅對與個人課題相關的部分進行歸納和整理，本篇博客的來源是一篇不錯的文章，如果有需要可以查看原文

論文	年份	模型	優化目標	特點	研究內容	狀態	動作
DECCO: Deep-learning enabled coverage and capac- ity optimization for massive MIMO systems	2018 (felow寫的)	policy network（from 148）			分配資源塊給BS和移動用戶	平均頻譜效率	調度的參數
A deep reinforce- ment learning based framework for power-efficient resource allocation in cloud RANs	2017 ICC	DQL	最小化功率損耗 QoS要求	第一階段決定哪些RRH工作；第二階段決定怎麼分配資源	雲端接入網的動態資源分配	用戶需求 RRH的工作狀態	RRH的工作與否分配給RRH的權重
Deep reinforcement learning for distributed dynamic power allocation in wireless networks	2018	DQN+FNN	BS的傳輸速率		基站的功率控制	其他基站的干擾	選擇發射功率
Reinforcement learning based QoS/QoEaware service function chaining in software-driven 5G slices		DQN+CNN	QoE gain			網絡拓撲、QoE/QoS狀態、
Deep reinforcement learning for network slicing	2018	DQN+FNN	頻譜效率和QoE		優化頻譜資源塊的分配
A Deep-Learning-Based Radio Resource Assignment Technique for 5G Ultra Dense Networks	2018	DL+LSTM			使BS預測流量負載；調整上下行比例以防止擁塞

【論文筆記】Applications of Deep Reinforcement Learning in Communications and Networking: A Survey

摘要

介紹

深度強化學習：概覽

馬爾可夫決策過程MDP

部分可觀測MDP

馬爾可夫博弈 Markov Games（個人感覺和所謂的多主體RL一樣）

強化學習 RL

Q-Learning

SARSA(一種在線Q-Learning算法)

Q-Learning for Markov Games 馬爾可夫博弈中的Q-Learning

深度QL

先進的DQL模型

應用層技術

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

C# 代碼學習

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

創新工具：2024年開發者必備的一款表格控件（二）

車牌識別控制檯可快速整合二次開發

[轉載]Reinforcement Learning：Sarsa和Q-learning

[環境配置]給遠端服務器配置tensorflow環境

[環境配置]給遠端服務器安裝screen

[論文筆記]DECCO: Deep-Learning Enabled Coverage and Capacity Optimization for Massive MIMO Systems

[轉載]李宏毅RL網課筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結