原创 第18講

文章目錄三重積分計算球面座標系(打一套拳)1 第一型曲線積分1.1 圖解: 就是把定積分的底部給掰彎了1.2 p279 1.18.6 2_36:192. 第一型曲面積分(投影,一投二代三換掉dS)(求一個面的質量, 面上各個點面密

原创 MADDPG

文章目錄雜項知識點Agent學不到東西MA的體現策略集合優化(policies ensemble)公式與代碼看論文不懂的句子(自己英語渣吧)1 DDPG預備知識LSTMHierarchy RL重要句子 雜項知識點 Agent學不到

原创 What works for RL

文章目錄在穩定的環境下(如封閉環境的物流) 在穩定的環境下(如封閉環境的物流)

原创 明日復明日, 明日何其多

文章目錄3.1 看一下smac論文,看一下那個星際咋用來訓練的, 學一下 docker , 3.1 看一下smac論文,看一下那個星際咋用來訓練的, 學一下 docker ,

原创 混合動作空間(Dis_Conti_Hybrid)

混合動作空間 參考文獻   與離散動作空間或連續動作空間不同,擁有混合動作空間的智能體在每一步執行動作時都需要選擇一個離散動作以及該離散動作對應的一個或多個連續性動作參數的值, 舉個例子, 比如在實際應用場景機器人足球世界盃中,一

原创 艾賓浩斯遺忘曲線遺(Forgetting curve)學習法

文章目錄記憶週期3.3120張宇強化班 第二型曲線(格林公式, 封閉與不封閉問題)積分路徑換一條(積分與路徑無關, 不用格林公式, 因爲不封閉)4.1方向導數(函數沿着某個方向(一般是向量)的變化率)倆類曲線積分轉換空間曲線 非斯

原创 Game_Theory

文章目錄Zero-Sum(每玩一局都有一個玩家會贏和一個玩家會輸, 看名字, 我理解爲比如倆個玩家, 每個人得到的獎勵加起來爲0, 即一定有人輸有人贏)純策略(確定性選擇一個策略)混合策略(基於agent所有可能行爲的概率分佈,

原创 CFR

文章目錄0在線課程1. 綜述2. 非完全信息Code Explanation求和3. CFR+“直覺”(DeepStack) 0在線課程 吳老師 1. 綜述 參考文獻 2. 非完全信息 參考文獻   在圍棋這種完全信息的零和博弈中

原创 熟詞僻義

文章目錄1. land in 獲得 1. land in 獲得

原创 Hierarchy_RL

文章目錄0 爲了應對Sparse Reward,高層agent老師設置目標, 低層agent學生去完成它 0 爲了應對Sparse Reward, 高層agent老師設置目標, 低層agent學生去完成它 如果低一層的agent沒

原创 TJU_Postgraduate

文章目錄9012017疑問題 廣度優先生成樹(我覺得應該畫一棵樹,答案只給了一個序列)20201. 考試的總體要求2. 考試的內容及比例2.1 數據結構考試的內容包括:( 佔總分50%)2.2 程序設計考試的內容包括:( 佔總分5

原创 MA_Policies

文章目錄1. decentralised policies2. population-based training(evolution) 1. decentralised policies However, RL methods

原创 AC_PolicyOpti_in_PartObserv_MAEnvi

文章目錄one-shot game(since each player only makes a single choice 比如猜拳)perfect recall (原來的a, s 都記住了) one-shot game(sin

原创 郭絲用的

前向傳播, 三層神經網絡 def init_network(): network = {} network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])

原创 Deep Deterministic Policy Gradient

文章目錄參考的大佬們numpyReplayBuffer 參考的大佬們 很詳細的參考 numpy print(np.random.normal(size=6)) # 默認標準正態分佈 μ=0, σ=1, shape = 6 [ 1