台部落无聊的人生事无聊

文章目錄一、定義1、馬爾可夫決策過程2、部分馬爾可夫決策過程3、強化學習的目的4、簡化表示5、在意期望二、強化學習算法1、算法模塊總覽2、無模型、基於價值的算法3、有模型的算法三、Q函數與V函數1、Q函數2、V函數3、Q函數與V函

2020-06-15 06:54:10

近日研讀了一篇發表在ICLR 2018上的文章:《LEARNING LATENT PERMUTATIONS WITH GUMBEL- SINKHORN NETWORKS》, 其介紹了一種能夠將二維張量以可微分的形式轉變爲轉置矩陣

2020-06-15 06:54:10

文章目錄一、摘要二、模型三、實驗結果一、摘要以前我們已經提到過一篇結合字典進行中文命名實體識別的文章《Chinese NER Using Lattice LSTM》. 這個方法能夠一定程度解決分詞錯誤。然而，這個方法有一個重要

2020-06-15 06:54:10

文章目錄一、策略梯度法1、評估策略2、優化策略3、直觀理解4、高方差問題二、方差削減一、策略梯度法 1、評估策略在前面的學習中，我們已經瞭解到了，強化學習的目標是求解下式: θ∗=argmax⁡θEτ∼pθ(τ)[∑tr(st

2020-06-15 06:54:10

You shall know a word by the company it keeps ——J. R. Firth 1957: 11(開創現代統計NLP的核心思想)”

2020-06-15 06:54:10

前言: 學習高數多年，昨天被朋友問到n階微分方程的通解爲什麼含有n個獨立任意常數，一時間倒也不知道如何回答，發現似乎自己從來沒注意過這個問題，因此回爐重造一下，倒是有一些新的收穫。文章目錄一、定義1、微分方程2、微分方程的階3、

2020-06-15 06:54:10

文章目錄一、從監督學習到決策二、模仿學習三、模仿學習的問題四、獎勵/代價函數參考文獻一、從監督學習到決策首先來看一個標準的監督學習的例子，給定一張圖片，然後通過CNN對其進行分類。但是，在強化學習的世界裏，重點是Agent

2020-06-15 06:54:10

文章目錄一、課程內容二、什麼是深度強化學習三、真實世界中的決策需要解決什麼問題四、應該如何構建一個智能體參考資料一、課程內容從監督學習到決策強化學習中的無模型算法:Q-Learning，Policy Gradients,

2020-06-15 06:54:10

文章目錄圖示代碼圖示代碼 import matplotlib.pyplot as plt import numpy as np def plot_epoch_for_performance_and_loss(mode

2020-06-15 06:54:10

前言：這是一篇關於Text to Entity Mapping(以下簡稱TEM)的文章，也是筆者瞭解的第一篇關於該任務的文章，自己是抱着瞭解該任務的目的來的，因此只是很淺層的理解，也沒有摳細節。這篇文章是自然語言處理——知識圖

2020-06-15 06:54:10

前言 Capsule網絡，又稱爲膠囊網絡，被深度學習之父Hinton於17年提出。本質上將神經網絡中一個細胞蘊含的變量改爲了向量，並將細胞稱之爲膠囊。向量可以代表特徵，向量的模長代表特徵顯著的。並且網絡傳播過程即是特徵的聚類過程。

2020-06-15 06:54:10

文章目錄一、相關資料二、公開課筆記一、相關資料強化學習筆記總結: 知乎強化學習筆記總結: 劉健平 CS294-112視頻: 嗶哩嗶哩課程資料:PDF，作業深度強化學習（資源篇）作業代碼參考二、公開課筆記 1、I

2020-06-15 06:54:10

文章目錄一、任務定義二、數據集三、評測指標四、相關工作一、任務定義 Text-to-entity mapping是將文本和知識圖譜中實體概念關聯起來的任務。二、數據集筆者只是抱着瞭解該任務的目的，只是對數據集的最初步理解。

2020-06-15 06:54:10

文章目錄一、任務定義二、相關文章一、任務定義開放式對話系統，即聊天機器人給出的回答是多樣的，不受限制的二、相關文章序號會議作者論文閱讀筆記源碼復現創新點 [1] ACL 2019 FaceBook

2020-06-15 06:54:10

文章目錄一、任務定義二、數據集三、評價指標四、相關工作一、任務定義 Knowledge graph completion旨在給定(1)關係(2)其中一個實體，然後預測另外一個實體。如: 給出(創建:r，蘋果:o)，然後模型給出喬

2020-06-15 06:54:10