通過理解全連接神經網絡 理解了attention

MLP
以往理解的全連接神經網絡的作用,是個memory,是用來分類,

而近期發現,全連接神經網絡其實是學到了 L層每個輸入節點 對 L+1層每個輸出節點 的加權求和貢獻比,每個邊是一個權重也就是一個輸入節點到一個輸出節點的貢獻

其實就是attention

回想transformer裏的K、V、Q,是可以把attention matrix看成全連接層的,
[batch,seq_len1,seq_len2] 矩陣乘 [batch,seq_len2,hidden_size] = [batch,seq_len1,hidden_size]
即attention matrix [batch, seq_len1, seq_len2]是在學輸入的seq_len2個節點對輸出的seq_len1個節點的加權求和貢獻比

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章