原创 【論文筆記】Attention總結二:Attention本質思想 + Hard/Soft/Global/Local形式Attention

Attention總結二: 涉及論文: Show, Attend and Tell: Neural Image Caption Generation with Visual Attentio(用了hard\soft atten

原创 【讀書筆記】《深度學習入門——基於python的理論與實現》

筆記結構索引提高學習效果tips參數optimizers:尋找最優權重參數最優化方法權重參數初始值設定超參數過擬合函數激活函數輸出層函數損失函數im2col函數層Affine層Softmax-with-loss層Batch Nor

原创 【論文筆記】MRC綜述論文+神經閱讀理解與超越基礎部分總結

Machine Reading Comprehension(主要是NRC) MRC:數據集與技術——主要是神經閱讀理解 數據集(詳細數據集見論文 or 筆記圖) 抽取答案數據集: triviaQA\ SQUAD1.0/2.0;

原创 【兼容調試】AttributeError: 'NoneType' object has no attribute 'loader'

anaconda我更新了一下以後報錯,如下 Error processing line 1 of E:\envs\anaconda3\envs\tfenv\lib\site-packages\zope.interface-4.6.0-p

原创 【論文筆記】ULMFiT——Universal Language Model Fine-tuning for Text Classification

0 一些術語 tranductive transfer 直推遷移學習 inductive transfer 歸納遷移學習 sample transfer learning 樣本遷移學習 1 Introduction 對於歸納遷移學

原创 【總結向】預訓練模型小結

大綱1 語言模型2 XLNetXLNET好處XLNet 創新點應用3 Transformer-xl3.1 segment-level recurrence mechanism3.2 relative positional enco

原创 【論文筆記】Attention總結一:基於論文Neural Machine Translation by Jointly Learning to Align and Translate

0 Attention背景知識總結 encoder-decoder 這part的背景來源於這篇:https://blog.csdn.net/u012968002/article/details/78867203 這篇attenti

原创 【論文筆記】Bi-DAF(待修)——BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION

0 摘要 represents the context at different levels of granularity uses bi-directional attention flow mechanism to obt

原创 【論文筆記】ELMo:Deep contextualized word representations

Abstract 介紹一種新型的深度語境化(deep contextualized)詞表示: 模擬了複雜的詞特徵的使用(例如,語法和語義) 模擬了詞在不同語境中的使用(use vary across linguistic con

原创 【論博文筆記】XLNet總結

結合 XLNet結合了Bert、GPT 2.0和Transformer XL 它通過PLM預訓練目標,吸收了Bert(AE)的雙向語言模型; GPT2.0更多更高質量的預訓練數據,這也被XLNet吸收進來; 引入Transfor

原创 【總結向】從CMRC2019頭部排名看中文MRC

文章目錄0 預備知識數據集中文MRC任務要點(融合CMRC2018-2019)任務類型數據增強與擴充數據處理文本向量化表達特徵融合訓練方法預訓練模型預測目標其他:trick & 問題實用工具應用1 冠軍:平安金融綱要策略核心連貫性

原创 【博文筆記】AoA Reader_Attention-over-Attention Neural Networks for Reading Comprehension

介紹 論文地址:Attention-over-Attention Neural Networks for Reading Comprehension 參考博文: https://www.imooc.com/article/2998

原创 【閱讀筆記】機器閱讀理解(中)——架構篇

文章目錄一、MRC模型架構總體架構編碼層詞表向量字符編碼上下文編碼交互層互注意力自注意力上下文編碼輸出層多項式選擇答案生成區間式答案自由式答案生成注意力機制的應用拷貝生成機制二、常見MRC模型BiDAFR-net融合網絡單詞歷史全

原创 【論文筆記】GPT-1:Improving Language Understanding by Generative Pre-Training

Abstract 核心思想: generative pre-training + discriminative fine-tuning 1 Introduction 爲了獲取更多annotation,利用linguistic in

原创 【源碼閱讀】BERT pytorch源碼結構關係圖

如圖,模型基本結構是BERT,是model,而BERTLM集成了Bert,NSP,MLM,是模型結構的核心。 在數據的處理中,核心是BERTDataset 訓練或者評估的時候,調用了BERTTrainer,他使用了BertDat