台部落Love_marginal

Sarsa算法 Sarsa的算法如下： Sarsa算法是on-policy方法，其原始策略和更新策略是一致的，而其更新策略和MC不一樣的是其策略更新不需要採樣一個完整的軌跡，在執行完一個動作後就可以更新其值函數。 Q-learni

2020-07-06 15:57:44

前情提要個人需要跑一個基於Tensorflow的py代碼，之前都是在PC上運行但是使用多主體的強化學習時，迭代到1600左右就不動了，考慮到實驗室還有服務器資源，遂想將tf、anaconda、conda等環境配置到遠端服務器上。在此記錄

2020-07-06 15:17:48

序使用遠端服務器的時候，一般都是跑需要運行數小時甚至數天的大程序，在這種情況下，如果我們將連接服務器的PC關閉，那麼遠端服務器的進程也會中斷。這時候就希望當我們在PC啓動遠端服務器的進程後，即便關閉PC，遠端服務器的程序仍可正常運行，

2020-07-06 15:17:48

序這是一篇來自IEEE ACCESS的paper（影響因子19年3.745），18年4月發表，到本博客的時間點被引了18次，值得一提的或許是這文的一作是一個IEEE的Fellow YANG YANG。摘要覆蓋範圍和系統容量的折衷及聯

2020-07-06 15:17:48

李宏毅深度強化學習課程 https://www.bilibili.com/video/av24724071 李宏毅深度強化學習筆記（一）Outline 概述強化學習，及policy-based、value-based的方法李宏毅深度強化

2020-07-06 15:17:48

序：這是一篇來自IEEE Network的期刊論文(影響力8.808)，18年11月發表，到20年7月已經被引了45次。在UDN、大規模MIMO、波束賦形的場景下研究（但是個人感覺好像沒有突出其特點…），主要是應用LSTM來預測網絡流量

2020-07-06 15:17:48

以下部分來自於知乎文章：據說，科研汪看文獻的姿勢都是同一款......，個人覺得十分受用，摘錄如下，有需要請左轉原文想要搞好科研，閱讀文獻資料、獲取前人的經驗是必不可少的。但是“經驗”的核心是“沒有經驗”！看再多別人的經驗，沒

2020-07-06 15:17:48

摘要本文綜述了深度強化學習（DRL）在通信和網絡中的應用。現代網絡中的實體需要在網絡環境不確定的情況下在本地進行決策，以使網絡性能最大化。強化學習被有效地用於使網絡實體在狀態空間和行爲空間較小的情況下獲得動作的最優選擇。然而，在複雜的大

2020-07-06 15:17:48

前言：這是一篇關於V2X的文章，裏面主要對通信的標準演進進行了說明，牽扯較多的通信名詞和知識，在看的時候一頭霧水，因此本博客整理文章的內容外還將對一些通信知識進行補足。 CODE;001 受益於LTE系統的普及，3GPP正逐步推進基

2020-06-24 14:51:37

Kinematic Information Aided User-Centric 5G Vehicular Networks in Support of Cooperative Perception for Automated Drivi

2020-06-24 14:51:26

隨機接入隨機接入流程是執行在attach流程（用於完成UE在網絡的註冊，RPC對該UE默認承載的建立）之前，用於UE與eNB建立無線鏈路，獲取/恢復上行同步。由於用戶的隨機性、無線環境的複雜性決定了這種接入的發起及採用的資源也具有隨機

2020-06-24 14:51:26

目前大部分工作將網絡、緩存、計算分立研究並優化，但本文將這三者進行聯合優化，提出一個集成的動態管理架構。本文將此框架中的資源分配策略指定爲一個聯合優化問題，其綜合考慮了網絡、緩存、和計算的效用。對於系統的複雜性使用DRL的方法加以解決。

2020-06-24 14:51:19

前言 [作者自留，非內容相關，可跳過]本文是使用機器學習方法解決車聯網問題系列的第二彈blog，看題目感覺會提出一種結合機器學習的車聯網的新架構，比起上一篇綜述，這篇文章看起來乾貨滿滿（但是頁數也比較長…），注意筆記的寫作邏輯並儘

2020-06-24 14:51:19

前言感謝李師兄推薦Le Liang這位作者，通過查找可以看到他所著的許多將機器學習和通信結合起來的文章，從這篇博文開始的幾篇博文內容將更偏向通信與機器學習的交叉，論文的閱讀順序根據引用次數年份標題暫時安排如下：2018_用於車聯網的

2020-06-24 14:51:19

本文的研究目標是車在網絡中的頻譜資源分配問題，具體來講是如何實現多個V2V鏈路重用V2I鏈路的頻譜。車載鏈路中環境的快速變化使傳統的在基站處收集CSI信息以進行集中式資源管理成爲難題，而本方法將資源共享建模爲多主體強化學習問題，並使用適合

2020-06-24 14:51:19