[精簡論文筆記]Age of Information Aware Radio Resource Management in Veh Net: A Proactive DRL Perspective

本文針對曼哈頓V2V網絡中長期性能,通過結合信息年齡的資源管理進行了優化。通過觀察每個時隙的全局網絡狀態,RSU將爲VUE對分配頻帶並調度包的傳輸。本文將隨機決策過程建模爲一個離散時間MDP。技術難題包括:交通信息到達的高移動性和時變性帶來的最優控制問題。解法爲,首先將原始MDP分解爲一系列VUE對的MDP。對於VUE在局部網絡狀態空間中的部分可觀測性和高維詛咒,通過基於LSTM和DQN的算法加以解決。利用該算法,RSU根據部分觀測在每個調度時隙以分佈式的方式進行最優頻帶分配和分組調度。

 

介紹

V2V很重要,但RRM(無線資源管理)是一個問題,有很多人嘗試解決,但研究都集中在即使性能優化上,而忽略了網絡的動態性,如通信質量和交通信息的時空變化。

MDP被廣泛用於V2V網絡長期RRM中,有很多人嘗試用基於學習的方法加以解決,但都沒有考慮車輛的移動性,因爲移動性提供了在不同組的VUE對之間共享頻率的可能性。

本文已曼哈頓V2V爲場景,設定交通信息時變,結合AoI(信息年齡)對系統長期性能進行了優化,本文主要貢獻如下:

  • 將RRM問題建模爲單代理MDP,RSU週期性地對頻帶分配和分組調度進行規劃,以優化VUE對的長期性能
  • 爲處理VUE對增加帶來的決策動作空間過大的問題,將MDP分解
  • 爲解決移動性導致局部狀態空間大的問題,假設VUE僅可觀察部分環境,通過LSTM和DRL手段使用部分觀測獲取最優行動。算法使用在RSU的離線集中訓練,和VUE的分佈式測試。

系統描述

網絡和信道模型

如上圖所示,車輛密度一定,有K個VUE對,共享B個正交頻帶,時間被分成時隙(每個時隙長\tau,用j編號)

信道模型分爲三類:LOS,WLOS(兩車在臨近交叉口l內的垂直道上),NLOS。用H^j_k表示信道狀態,k表示VUE對的編號,j表示時隙編號。

AoI 的演進

發送端在每個預分配時隙的開端,通過頻帶將時間關鍵信息發送到接收端。用f表示k號VUE對是否在j號時隙分配到了b號頻帶。

用F表示k號VUE在j號時隙是否分配到了頻帶。對於信息更新到達有一些假設:僅在開始發生,獨立分佈在VUE上,以速率\lambda平均分佈在時隙上。X_k^j表示k號VUE在j號時隙的數據包到達數量。

f爲k號VUE在j號時隙得到的頻率分配。VUE對的功率消耗爲:

C爲干擾,W爲頻帶帶寬,\mu爲包的尺寸,R爲包的數量,其最大爲:

因爲時間期限丟失數據包的個數爲:

用A表示k號VUE對的Ao:

若當前時隙五數據包傳輸,則將VUE對的AoI在下一個時隙設置爲\tau。

VUE對聚簇

爲減輕傳輸中VUE對間的干擾,根據地理位置將其聚簇,共有G簇。將B個頻帶分給一簇中的VUE,不同簇間的頻帶重用。

用高斯相速度矩陣D表示地理距離信息。

簇之間的功率爲:

問題陳述

本節將結合AoI的RRM問題描述爲一個單代理MDP

考慮AoI的RRM

VUE對的局部狀態信息表示爲S_k^j,包含地理位置,信道狀態H,數據包X,AoI A。S^j表示全局狀態信息,\pi=(\pi(F), \pi(R))表示控制策略,分別表示頻帶分配策略和包調度策略。效用函數爲:

可知全局網絡狀態在時間尺度來看是Markov的,其狀態轉移概率爲:

其中P爲事件發生的概率。每個VUE對的長期效用函數爲:(即狀態價值函數)

(13)爲每個VUE對的優化目標。將結合AoI的RRM建模爲但代理的MDP:

其中U爲RSU視角關於所有VUE對的瞬時效用,V爲狀態價值函數。

通解

使用貝爾曼方程解決。

主動式DRL解法

如上圖所示,先將原始的MDP分解爲一系列關於單一VUE對的MDP,之後通過分佈式SARSA算法求解。對於代理面對的局部觀測數據和狀態空間高維的問題,使用LSTM的DEL求解。

線性Q函數分解

用於最優控制策略的主動式DRL

 

後記:耗時2.5h,最近在寫開題報告只關注問題的建模方法,後期算法有空補上

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章