貪心學院transformer模型講解記錄

原創

勿在浮沙筑高台LS

2020-02-22 00:47

1.FFN層和z1和z2層是不同的，FFN層是隔開的，權重不共享的，而Z1和Z2不是隔開的

2.Q,K,V是借鑑了搜索的思維在裏面，Q是query的意思，<K,V>是<key,value>的意思,Q值就是word應該映射一會進行搜索的值，K是搜索的目標，V是目標值，類似K是文檔的主題，V是文檔的向量，Q是搜索文檔的文本。這樣就能訓練得到word與word之間的關係，不同的W就表示搜索的維度不一樣

3.借鑑ResNet思想，embedding層可以越過normalize處理結果，防止梯度消失，因爲添加上面可以直接反饋到最下面一層

4.decode部分，可以看出翻譯的時候，翻譯結果的attention是依次輸入的使用masked Multi-Head Attention進行attention，而等後面的Multi-Head的時候才進行接入encode的結果，接入過程是q是使用encode的記過跟Wq進行計算得到的，而k和v都是使用Multi-Head Attention進行計算，這樣就是使用encode進行檢索想要翻譯的結果，就是decode的思想

5.decode的mask multi-Head Attention是什麼？

因爲不能利用翻譯後的結果，只能使用已經翻譯完成的單詞作爲輸入，翻譯後面的單詞

6.layer normalization和BN的區別和聯繫是什麼？

https://blog.csdn.net/liuxiao214/article/details/81037416

LN可以避免BN的batch大小對結果的影響

7.Position Encoding的計算過程和想要得到的實際效果？

position Encoding的設置初始化後，離自己近的單詞的歐式距離小於離自己遠的單詞的歐式距離，使用cos和sin進行初始化就是要達到這種效果

pos就是詞的位置["我","愛","中國"]，[0,1,2]

座標的2i表示偶數位置，2i+1表示奇數位置（奇數和偶數位置是指在假如embedding的維度是4，位置就表示embedding中的位置dmodel表示embeddin的size）

我們也可以自己設置position embedding，通過模型學習，也可以使用上面的方式

勿在浮沙築高臺LS

發佈了358 篇原創文章 · 獲贊 113 · 訪問量 82萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Twitch表情中的情緒分析

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Martin Anderson

2021-12-07 16:00:03

達摩院AliceMind上新！首箇中文表格預訓練模型發佈，已向業界開源

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 18:18:58

在元宇宙裏怎麼交朋友？Meta發佈跨語種交流語音模型，支持128種語言無障礙對話

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-23 14:03:53

人工智能時代，如何硬核玩音樂？| InfoQ《大咖說》

直播內容：在人工智能技術迅速發展的當下，越來越多的領域被這項技術注入新的活力。作爲多媒體領域中不可缺少的組成部分，音樂對於人類的重要性不言而喻。值得一提的是，人工智能在音樂領域的研究早在多年前就已經開始了，並且也落地了很多成熟應用。當前

InfoQ 中文站

2021-11-12 14:23:49

不是隻有數字化水平高，纔可以落地知識圖譜

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-11-11 15:23:53

騰訊發佈超大預訓練系統派大星，聚焦解決BERT等超大模型訓練時的“GPU內存牆”問題

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-02 13:38:53

微軟和英偉達推出訓練語言模型MT-NLG：5300億參數量，是GPT-3的3倍

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-10-12 14:13:53

谷歌推出Translatotron 2，一種沒有深度僞造潛力的語音到語音直接翻譯神經模型

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-09-10 14:09:01

放心，GPT-3不會“殺死”編程

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-09-03 17:58:55

爲什麼神經網絡不適合理解自然語言？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-08-04 16:13:54

易聊科技宣佈在線客服系統IM永久免費，透視智能客服的商業化潛力

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-07-27 17:33:49

5個流行的自然語言處理庫及入門用法

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-07-26 10:43:50

AI虛擬人多模態交互落地難題如何破解？我們在樂享A.I.技術沙龍成都站找到了答案

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-06-24 16:18:54

官宣！達摩院開源祕藏深度語言模型體系AliceMind，NLP正在走向大工業時代

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-06-22 14:48:49

讓普通人秒會編程？微軟在Power平臺上集成GPT-3，將自然語言直接變成現成代碼

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-05-28 17:48:57

24小時熱門文章

Nginx R31 doc 官方文檔-01-nginx 如何安裝

最新文章

最新評論文章