Attention is all you need

一、基礎積累

1序列問題(Sequence Problem)
2序列模型(Sequence Models)
(1)輸入輸出均爲序列數據的模型,序列模型將輸入序列數據轉換爲目標序列的數據
(2)形式:one to many,many to many(seq2seq),many to many
(3)常見的CNN模型:Neural GPU,ByteNet,ConvS2S,帶有注意力的CNN模型。
(4)通過RNN模型:

在這裏插入圖片描述
在這裏插入圖片描述

(5)瞭解什麼時自注意力機制,以及seq2seq的編碼與解碼的過程。

二、論文

1、論文的結構
(1)第一遍主要閱讀摘要和模型的構造部分,說明和背景會給初讀者帶來很多未知的困擾
(2)附錄的公式和分析的圖進行記錄,幫助自己以後寫論文
(3)快速瞭解文章的大意(Abstract+Model)+ 復現論文+分析(Why this Model+Appendix)+背景學習(Introduction+Background)

在這裏插入圖片描述

2、傳統的模型結構
(1)Rnn只能解決定長的結構問題,研究之後出現了編碼解碼機制,最後出現了注意力機制
(2)常用的權重函數(相似度函數):多層感知機(Multi-layer perceptron)、雙線性(Bilinear)、點乘(Dot Product)、放縮的點乘(Scaled Dot Product)
(3)Cnn實現編碼解碼的模型
3、本文模型
(1)編碼層:6層編碼層進行編碼,整句話進行編碼
在這裏插入圖片描述
(2)解碼層:每一個字符每一個字符進行解碼

在這裏插入圖片描述

在這裏插入圖片描述
(3)自注意力機制與注意力機制的區別

在這裏插入圖片描述
(4)自注意力與卷積的區別
在這裏插入圖片描述
在這裏插入圖片描述
(5)多頭注意力機制:

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述
不同顏色代表相關性的關係強弱

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章