台部落Coop_Multi-Agent

文章目錄三重積分計算球面座標系(打一套拳)1 第一型曲線積分1.1 圖解: 就是把定積分的底部給掰彎了1.2 p279 1.18.6 2_36:192. 第一型曲面積分(投影,一投二代三換掉dS)(求一個面的質量, 面上各個點面密

2020-06-21 12:19:45

文章目錄雜項知識點Agent學不到東西MA的體現策略集合優化（policies ensemble）公式與代碼看論文不懂的句子(自己英語渣吧)1 DDPG預備知識LSTMHierarchy RL重要句子雜項知識點 Agent學不到

2020-06-21 12:19:44

文章目錄在穩定的環境下（如封閉環境的物流）在穩定的環境下（如封閉環境的物流）

2020-06-21 12:19:44

文章目錄3.1 看一下smac論文,看一下那個星際咋用來訓練的, 學一下 docker , 3.1 看一下smac論文,看一下那個星際咋用來訓練的, 學一下 docker ,

2020-06-21 12:19:44

混合動作空間參考文獻與離散動作空間或連續動作空間不同，擁有混合動作空間的智能體在每一步執行動作時都需要選擇一個離散動作以及該離散動作對應的一個或多個連續性動作參數的值, 舉個例子, 比如在實際應用場景機器人足球世界盃中，一

2020-06-21 12:19:44

文章目錄記憶週期3.3120張宇強化班第二型曲線(格林公式, 封閉與不封閉問題)積分路徑換一條(積分與路徑無關, 不用格林公式, 因爲不封閉)4.1方向導數(函數沿着某個方向(一般是向量)的變化率)倆類曲線積分轉換空間曲線非斯

2020-06-21 12:19:44

文章目錄Zero-Sum(每玩一局都有一個玩家會贏和一個玩家會輸, 看名字, 我理解爲比如倆個玩家, 每個人得到的獎勵加起來爲0, 即一定有人輸有人贏)純策略(確定性選擇一個策略)混合策略(基於agent所有可能行爲的概率分佈,

2020-06-21 12:19:44

文章目錄0在線課程1. 綜述2. 非完全信息Code Explanation求和3. CFR+“直覺”（DeepStack） 0在線課程吳老師 1. 綜述參考文獻 2. 非完全信息參考文獻在圍棋這種完全信息的零和博弈中

2020-06-21 12:19:44

文章目錄1. land in 獲得 1. land in 獲得

2020-06-21 12:19:44

文章目錄0 爲了應對Sparse Reward,高層agent老師設置目標, 低層agent學生去完成它 0 爲了應對Sparse Reward, 高層agent老師設置目標, 低層agent學生去完成它如果低一層的agent沒

2020-06-21 12:19:44

文章目錄9012017疑問題廣度優先生成樹(我覺得應該畫一棵樹,答案只給了一個序列)20201. 考試的總體要求2. 考試的內容及比例2.1 數據結構考試的內容包括：（佔總分50%）2.2 程序設計考試的內容包括：（佔總分5

2020-06-21 12:19:44

文章目錄1. decentralised policies2. population-based training(evolution) 1. decentralised policies However, RL methods

2020-06-21 12:19:44

文章目錄one-shot game(since each player only makes a single choice 比如猜拳)perfect recall (原來的a, s 都記住了) one-shot game(sin

2020-06-21 12:19:44

前向傳播, 三層神經網絡 def init_network(): network = {} network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])

2020-06-21 12:19:44

文章目錄參考的大佬們numpyReplayBuffer 參考的大佬們很詳細的參考 numpy print(np.random.normal(size=6)) # 默認標準正態分佈 μ=0, σ=1, shape = 6 [ 1

2020-06-03 06:28:42