貪心學院transformer模型講解記錄

1.FFN層和z1和z2層是不同的,FFN層是隔開的,權重不共享的,而Z1和Z2不是隔開的

2.Q,K,V是借鑑了搜索的思維在裏面,Q是query的意思,<K,V>是<key,value>的意思,Q值就是word應該映射一會進行搜索的值,K是搜索的目標,V是目標值,類似K是文檔的主題,V是文檔的向量,Q是搜索文檔的文本。這樣就能訓練得到word與word之間的關係,不同的W就表示搜索的維度不一樣

3.借鑑ResNet思想,embedding層可以越過normalize處理結果,防止梯度消失,因爲添加上面可以直接反饋到最下面一層

4.decode部分,可以看出翻譯的時候,翻譯結果的attention是依次輸入的使用masked Multi-Head Attention進行attention,而等後面的Multi-Head的時候才進行接入encode的結果,接入過程是q是使用encode的記過跟Wq進行計算得到的,而k和v都是使用Multi-Head Attention進行計算,這樣就是使用encode進行檢索想要翻譯的結果,就是decode的思想

5.decode的mask multi-Head Attention是什麼?

因爲不能利用翻譯後的結果,只能使用已經翻譯完成的單詞作爲輸入,翻譯後面的單詞

6.layer normalization和BN的區別和聯繫是什麼?

https://blog.csdn.net/liuxiao214/article/details/81037416

LN可以避免BN的batch大小對結果的影響

7.Position Encoding的計算過程和想要得到的實際效果?

position Encoding的設置初始化後,離自己近的單詞的歐式距離小於離自己遠的單詞的歐式距離,使用cos和sin進行初始化就是要達到這種效果

pos就是詞的位置["我","愛","中國"],[0,1,2]

座標的2i表示偶數位置,2i+1表示奇數位置(奇數和偶數位置是指在假如embedding的維度是4,位置就表示embedding中的位置dmodel表示embeddin的size)

我們也可以自己設置position embedding,通過模型學習,也可以使用上面的方式

發佈了358 篇原創文章 · 獲贊 113 · 訪問量 82萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章