[精簡論文筆記]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

原創

2020-05-13 16:18

本文針對曼哈頓V2V網絡中長期性能，通過結合信息年齡的資源管理進行了優化。通過觀察每個時隙的全局網絡狀態，RSU將爲VUE對分配頻帶並調度包的傳輸。本文將隨機決策過程建模爲一個離散時間MDP。技術難題包括：交通信息到達的高移動性和時變性帶來的最優控制問題。解法爲，首先將原始MDP分解爲一系列VUE對的MDP。對於VUE在局部網絡狀態空間中的部分可觀測性和高維詛咒，通過基於LSTM和DQN的算法加以解決。利用該算法，RSU根據部分觀測在每個調度時隙以分佈式的方式進行最優頻帶分配和分組調度。

介紹

V2V很重要，但RRM（無線資源管理）是一個問題，有很多人嘗試解決，但研究都集中在即使性能優化上，而忽略了網絡的動態性，如通信質量和交通信息的時空變化。

MDP被廣泛用於V2V網絡長期RRM中，有很多人嘗試用基於學習的方法加以解決，但都沒有考慮車輛的移動性，因爲移動性提供了在不同組的VUE對之間共享頻率的可能性。

本文已曼哈頓V2V爲場景，設定交通信息時變，結合AoI(信息年齡)對系統長期性能進行了優化，本文主要貢獻如下：

將RRM問題建模爲單代理MDP，RSU週期性地對頻帶分配和分組調度進行規劃，以優化VUE對的長期性能
爲處理VUE對增加帶來的決策動作空間過大的問題，將MDP分解
爲解決移動性導致局部狀態空間大的問題，假設VUE僅可觀察部分環境，通過LSTM和DRL手段使用部分觀測獲取最優行動。算法使用在RSU的離線集中訓練，和VUE的分佈式測試。

系統描述

網絡和信道模型

如上圖所示，車輛密度一定，有K個VUE對，共享B個正交頻帶，時間被分成時隙（每個時隙長 $\tau$ ，用j編號）

信道模型分爲三類：LOS，WLOS（兩車在臨近交叉口l內的垂直道上），NLOS。用表示信道狀態，k表示VUE對的編號，j表示時隙編號。

AoI 的演進

發送端在每個預分配時隙的開端，通過頻帶將時間關鍵信息發送到接收端。用f表示k號VUE對是否在j號時隙分配到了b號頻帶。

用F表示k號VUE在j號時隙是否分配到了頻帶。對於信息更新到達有一些假設：僅在開始發生，獨立分佈在VUE上，以速率 $\lambda$ 平均分佈在時隙上。表示k號VUE在j號時隙的數據包到達數量。

f爲k號VUE在j號時隙得到的頻率分配。VUE對的功率消耗爲：

C爲干擾，W爲頻帶帶寬，\mu爲包的尺寸，R爲包的數量，其最大爲：

因爲時間期限丟失數據包的個數爲：

用A表示k號VUE對的Ao：

若當前時隙五數據包傳輸，則將VUE對的AoI在下一個時隙設置爲\tau。

VUE對聚簇

爲減輕傳輸中VUE對間的干擾，根據地理位置將其聚簇，共有G簇。將B個頻帶分給一簇中的VUE，不同簇間的頻帶重用。

用高斯相速度矩陣D表示地理距離信息。

簇之間的功率爲：

問題陳述

本節將結合AoI的RRM問題描述爲一個單代理MDP

考慮AoI的RRM

VUE對的局部狀態信息表示爲，包含地理位置，信道狀態H，數據包X，AoI A。表示全局狀態信息， $\pi=(\pi(F), \pi(R))$ 表示控制策略，分別表示頻帶分配策略和包調度策略。效用函數爲：

可知全局網絡狀態在時間尺度來看是Markov的，其狀態轉移概率爲：

其中P爲事件發生的概率。每個VUE對的長期效用函數爲：（即狀態價值函數）

（13）爲每個VUE對的優化目標。將結合AoI的RRM建模爲但代理的MDP：

其中U爲RSU視角關於所有VUE對的瞬時效用，V爲狀態價值函數。

通解

使用貝爾曼方程解決。

主動式DRL解法

如上圖所示，先將原始的MDP分解爲一系列關於單一VUE對的MDP，之後通過分佈式SARSA算法求解。對於代理面對的局部觀測數據和狀態空間高維的問題，使用LSTM的DEL求解。

線性Q函數分解

用於最優控制策略的主動式DRL

後記：耗時2.5h，最近在寫開題報告只關注問題的建模方法，後期算法有空補上

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一文教你在MindSpore中實現A2C算法訓練

本文分享自華爲雲社區《MindSpore A2C 強化學習》，作者：irrational。 Advantage Actor-Critic (A2C)算法是一個強化學習算法，它結合了策略梯度（Actor）和價值函數（Critic）的方法。A2

2024-06-07 10:56:57

京東商家智能助手：Multi-Agents 在電商垂域的探索與創新

電商助手是一款集合了多種電商經營決策功能的工具軟件，旨在幫助電商從業者完成從商品發佈到訂單管理、客服溝通、數據分析等一系列電商運營任務。京東零售基於 Multi-Agents 理念搭建了商家助手大模型在線推理服務架構，這一系統的核心是算法

2024-05-23 23:57:25

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練

本文分享自華爲雲社區《MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練》，作者： irrational。半獵豹（Half Cheetah）是一個基於MuJoCo的強化學習環境，由P. Wawrzyński

2024-04-29 10:33:13

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

隨着人工智能技術的日益成熟，大模型成爲了衆多領域的研究熱點。大模型通過龐大的數據量和複雜的網絡結構，實現了對數據的深度挖掘和高效處理。然而，大模型的龐大體積和高計算成本也限制了其在一些實際場景中的應用。爲了解決這一問題，文心大模型ERNIE

2024-04-18 11:29:53

RAG 修煉手冊｜一文講透 RAG 背後的技術

在之前的文章中《RAG 修煉手冊｜RAG敲響喪鐘？大模型長上下文是否意味着向量檢索不再重要》，我們已經介紹過 RAG 對於解決大模型幻覺問題的不可或缺性，也回顧瞭如何藉助向量數據庫提升 RAG 實戰效果。今天我們繼續剖析 RAG，將爲大

2024-04-10 21:20:11

文心千帆：從PPT製作到數字人主播，ERNIE-Bot|BLOOMZ大模型調優與RLHF訓練全攻略

隨着人工智能技術的不斷髮展，文心千帆作爲一款領先的人工智能模型，已經在多個領域展現出其強大的實力。無論是PPT製作，還是數字人主播，文心千帆都能夠爲用戶提供驚豔的應用體驗。而背後支撐這一切的，正是ERNIE-Bot|BLOOMZ大模型的強大

2024-03-29 00:01:17

人工智能大模型原理與應用實戰：自動駕駛技術的飛躍

一、人工智能大模型的基本原理人工智能大模型，尤其是深度學習模型，通常由多層神經網絡組成。這些神經網絡通過海量的參數來建立輸入數據和輸出數據之間的複雜映射關係。在訓練過程中，模型通過反向傳播算法不斷調整參數，使得模型的預測結果與真實結果儘可

2024-03-15 00:33:20

阿里雲PAI-靈駿大模型訓練工具 Pai-Megatron-Patch 正式開源！

Pai-Megatron-Patch是什麼 Pai-Megatron-Patch工具是阿里雲機器學習平臺PAI算法團隊研發，基於阿里雲智算服務PAI-靈駿平臺的大模型最佳實踐解決方案配套工具，旨在幫助大模型開發者快速上手靈駿產品，完成大語

2023-10-07 12:29:41

快速成長的祕訣｜學會自我培養和培養他人

快速成長總共三篇，分別是《完成自我認知升級》、《自我成長好方法》和《自我培養和培養他人》。本篇是第三篇，篇幅較長。針對長文的閱讀方式，依舊建議在《完成自我認知升級》中提到的閱讀方式：“在一個不被打擾的時間做好隻字不差閱讀，用批判性思維思考和

2023-09-13 01:22:12

BeautifulPrompt：PAI 推出自研 Prompt 美化器，賦能 AIGC一鍵出美圖

背景 Stable Diffusion（SD）是一種流行的AI生成內容（AI Generated Content，AIGC）模型，能在文字輸入的基礎上生成各種風格多樣的圖像。在目前的AIGC方向，SD是開源社區最熱門的模型。然而，SD能夠

2023-06-21 12:25:47

我在京東做研發 | 從好玩到好用，爆火ChatGPT前沿分享

| 嘉賓：吳友政，京東集團高級總監、京東科技語音語言算法部負責人。 2006年中科院自博士畢業後，先後在日本國立信息通信研究機構、英國愛丁堡大學、索尼中國研究院從事自然語言處理相關研究工作，主要聚焦自然語言處理、人機對話、語音識別、機器翻

2023-02-24 23:41:13

強化學習入坑總結

總結一下自己入坑強化學習的經驗。在入坑之前，自己對強化學習基本一無所知，所以對於強化學習的學習基本上是從零開始。下面總結一下自己學習強化學習所看的網課，教材，論文，代碼網課莫煩的強化學習教程。這個教程真的是通俗易懂，完全針對初

2021-12-25 21:10:24

谷歌發佈生態系統RLDS，可在強化學習中生成、共享和使用數據集

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-20 10:53:54

24小時熱門文章

最新文章

最新評論文章