原创 CS294-112: Introduction to Reinforcement Learning

文章目錄一、定義1、馬爾可夫決策過程2、部分馬爾可夫決策過程3、強化學習的目的4、簡化表示5、在意期望二、強化學習算法1、算法模塊總覽2、無模型、基於價值的算法3、有模型的算法三、Q函數與V函數1、Q函數2、V函數3、Q函數與V函

原创 排列問題的重參數技巧

近日研讀了一篇發表在ICLR 2018上的文章:《LEARNING LATENT PERMUTATIONS WITH GUMBEL- SINKHORN NETWORKS》, 其介紹了一種能夠將二維張量以可微分的形式轉變爲轉置矩陣

原创 論文筆記:Simplify the Usage of Lexicon in Chinese NER Minlong

文章目錄一、摘要二、模型三、實驗結果 一、摘要 以前我們已經提到過一篇結合字典進行中文命名實體識別的文章《Chinese NER Using Lattice LSTM》. 這個方法能夠一定程度解決分詞錯誤。然而,這個方法有一個重要

原创 CS294-112: Policy Gradients

文章目錄一、策略梯度法1、評估策略2、優化策略3、直觀理解4、高方差問題二、方差削減 一、策略梯度法 1、評估策略 在前面的學習中,我們已經瞭解到了,強化學習的目標是求解下式: θ∗=argmax⁡θEτ∼pθ(τ)[∑tr(st

原创 自然語言處理名言

You shall know a word by the company it keeps ——J. R. Firth 1957: 11(開創現代統計NLP的核心思想)”

原创 數學: n階微分方程的通解爲什麼含有n個獨立任意常數

前言: 學習高數多年,昨天被朋友問到n階微分方程的通解爲什麼含有n個獨立任意常數,一時間倒也不知道如何回答,發現似乎自己從來沒注意過這個問題,因此回爐重造一下,倒是有一些新的收穫。 文章目錄一、定義1、微分方程2、微分方程的階3、

原创 CS294-112: Supervised Learning of Behaviors

文章目錄一、從監督學習到決策二、模仿學習三、模仿學習的問題四、獎勵/代價函數參考文獻 一、從監督學習到決策 首先來看一個標準的監督學習的例子,給定一張圖片,然後通過CNN對其進行分類。 但是,在強化學習的世界裏,重點是Agent

原创 CS294-112:Introduction and Course overview

文章目錄一、課程內容二、什麼是深度強化學習三、真實世界中的決策需要解決什麼問題四、應該如何構建一個智能體參考資料 一、課程內容 從監督學習到決策 強化學習中的無模型算法:Q-Learning,Policy Gradients,

原创 可視化: Python—MatPlotLib—折線圖帶子圖

文章目錄圖示代碼 圖示 代碼 import matplotlib.pyplot as plt import numpy as np def plot_epoch_for_performance_and_loss(mode

原创 論文筆記: Generating Knowledge Graph Paths from Textual Definitions using Sequence-to-Sequence Models

前言: 這是一篇關於Text to Entity Mapping(以下簡稱TEM)的文章,也是筆者瞭解的第一篇關於該任務的文章,自己是抱着瞭解該任務的目的來的,因此只是很淺層的理解,也沒有摳細節。 這篇文章是自然語言處理——知識圖

原创 網絡模型: Capsule

前言 Capsule網絡,又稱爲膠囊網絡,被深度學習之父Hinton於17年提出。本質上將神經網絡中一個細胞蘊含的變量改爲了向量,並將細胞稱之爲膠囊。向量可以代表特徵,向量的模長代表特徵顯著的。並且網絡傳播過程即是特徵的聚類過程。

原创 CS294-112: 深度強化學習

文章目錄一、相關資料二、公開課筆記 一、相關資料 強化學習筆記總結: 知乎 強化學習筆記總結: 劉健平 CS294-112視頻: 嗶哩嗶哩 課程資料:PDF,作業 深度強化學習(資源篇) 作業代碼參考 二、公開課筆記 1、I

原创 自然語言處理——知識圖譜——Text-To-Entity Mapping

文章目錄一、任務定義二、數據集三、評測指標四、相關工作 一、任務定義 Text-to-entity mapping是將文本和知識圖譜中實體概念關聯起來的任務。 二、數據集 筆者只是抱着瞭解該任務的目的,只是對數據集的最初步理解。

原创 自然語言處理——知識圖譜——開放式對話系統

文章目錄一、任務定義二、相關文章 一、任務定義 開放式對話系統,即聊天機器人給出的回答是多樣的,不受限制的 二、相關文章 序號 會議 作者 論文 閱讀筆記 源碼復現 創新點 [1] ACL 2019 FaceBook

原创 自然語言處理——知識圖譜——Knowledge graph completion

文章目錄一、任務定義二、數據集三、評價指標四、相關工作 一、任務定義 Knowledge graph completion旨在給定(1)關係(2)其中一個實體,然後預測另外一個實體。如: 給出(創建:r,蘋果:o),然後模型給出喬