李宏毅——transformer

原創

2020-06-27 00:07

李宏毅——transformer

導讀

什麼是transformer：

對於序列，常用的是RNN
RNN的問題，不容易並行處理。
所以有人提出了，用CNN來替代RNN。
圖中每一個三角形代表一個filter。
但是CNN只能考慮有限的信息，比如圖中只有三個，這種可以通過上層的疊加來考慮更多的信息。
這種的好處是可以並行化，但是缺點是要疊很多層，才能看到長期的諮詢。

所以的做法是self-attention
它也可以輸入是sequence，輸出是sequence，它可以看到整個輸入的序列，也可以同時計算。

self-attention

首先出現在attention is all you need

是如何做平行化的呢？

multi-head self-attention

mult-head的優點是不同的head可以關注不同的信息，每個head各司其職

順序問題

對self-attention來說，輸入的次序是不重要的
原paper中，使用人工設置的positional vector ei
也可以在xi上append一個one-hot的vector，但是實際的效果是一樣的。

Wp可以學習，但是實際上也是手工設置的
如下圖

seq2seq with attention

seq2seq由encoder和decoder組成

其中的RNN可以由self-attention取代

具體思想可參考動畫

transformer

網絡架構

attention visualization

下面的head只考慮臨近的關係，上面的考慮更多遠的關係

例子

基本上可以用seq2seq的都可以用transformer
比如從文章集合中生成wikipedia

universal transformer
在深度上做RNN，每一層都是一樣的transformer
transformer最早用在文字上，現在也可以用在圖像上

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Chapter6_Vocoder

文章目錄1 Introduction2 WaveNet2.1 WaveNet的架構2.2 Softmax Distribution2.3 Causal Convolution和Dilated Convolution2.4 Gate

2020-07-05 05:24:14

李宏毅——對抗模型 attack and defence

李宏毅——對抗模型 attack and defencemotivation攻擊例子如何找出特製的噪聲限制how to Attack實例攻擊方法FGSM（Fast Gradient Sign Method）白盒和黑盒黑盒攻擊衍生研

2020-06-27 00:07:41

李宏毅——異常檢測anomaly detection

李宏毅——異常檢測anomaly detection異常檢測問題什麼是anomaly應用fraud detectionnetwork instrusion detectioncancer detection如何做異常檢測binar

2020-06-27 00:07:41

李宏毅——GAN

李宏毅——GANGAN的類型標準GAN條件GANunsupervised conditional gan GAN的類型標準GAN 基本的GAN：以二次元任務爲例，輸入vector，輸出高緯度的vector 在訓練的過程中，

2020-06-27 00:07:30

李宏毅——終身學習lifelong learning

李宏毅——終身學習lifelong learning導讀要解決的問題如何解決遺忘問題Elastic Weight Consolidation（EWC）基本思想理解EWC的變形其他方法生成數據新增類knowledge transfe

2020-06-27 00:07:30

李宏毅——Flow-based Generative Model

李宏毅——Flow-based Generative Model導語已經介紹的生成模型數學背景jacobian MatrixDeterminantchange of Variable Theoremflow-based gener

2020-06-27 00:07:30

李宏毅——元學習meta learning1

李宏毅——元學習meta learning1導語meta-learningmeta-learning的步驟什麼叫一組learning algorithm如何評價一個F的好壞meta learning vs machine lear

2020-06-27 00:07:30

圖神經網絡---臺大李宏毅老師助教---聽課筆記

野生蘑菇菌

2020-05-11 13:50:53

深度學習 -- 1天搞懂深度學習，李宏毅，lecture 3

born-in-freedom

2020-02-20 18:03:23

深度學習 -- 1天搞定深度學習，李宏毅，lecture 4

born-in-freedom

2020-02-20 18:03:23

Chapter6_Vocoder

文章目錄1 Introduction2 WaveNet2.1 WaveNet的架構2.2 Softmax Distribution2.3 Causal Convolution和Dilated Convolution2.4 Gate

2020-07-05 05:24:14

李宏毅——對抗模型 attack and defence

李宏毅——對抗模型 attack and defencemotivation攻擊例子如何找出特製的噪聲限制how to Attack實例攻擊方法FGSM（Fast Gradient Sign Method）白盒和黑盒黑盒攻擊衍生研

2020-06-27 00:07:41

李宏毅——異常檢測anomaly detection

李宏毅——異常檢測anomaly detection異常檢測問題什麼是anomaly應用fraud detectionnetwork instrusion detectioncancer detection如何做異常檢測binar

2020-06-27 00:07:41

李宏毅——GAN

李宏毅——GANGAN的類型標準GAN條件GANunsupervised conditional gan GAN的類型標準GAN 基本的GAN：以二次元任務爲例，輸入vector，輸出高緯度的vector 在訓練的過程中，

2020-06-27 00:07:30

李宏毅——終身學習lifelong learning

李宏毅——終身學習lifelong learning導讀要解決的問題如何解決遺忘問題Elastic Weight Consolidation（EWC）基本思想理解EWC的變形其他方法生成數據新增類knowledge transfe

2020-06-27 00:07:30

24小時熱門文章

最新文章

最新評論文章