Encoder-Decoder架構與注意力機制

原創

2020-06-19 22:55

`Encoder-Decoder`架構模型，如下圖：

Encoder會利用整個原始句子生成一個語義向量，Decoder再利用這個向量翻譯成其它語言的句子。這樣可以把握整個句子的意思、句法結構、性別信息等等。

Encoder對X 進行非線性變換得到中間語義向量c　：

$c=G(x_{1},x_{2},...,x_{n})$

Decoder根據語義c 和生成的歷史單詞 $(y_{1},y_{2},...,y_{i-1})$ 來生成第個單詞　：

$y_i=f(c,y_1,y_2,...,y_{i-1})$

Encoder和Decoder具體使用什麼模型，都可以自己選擇。通常有CNN，RNN，BiRNN，GRU，LSTM， Deep LSTM。

當句子較長時，所有語義完全通過一箇中間語義向量來表示，單詞自身的信息已經消失，會丟失更多的細節信息。

Attention Model的架構如下：

生成每個單詞時，都有各自的語義向量，不再是統一的C 。

$y_i=f(C_i,y1,...,y_{i-1})$

普通注意力機制

將編碼器和解碼器的隱含狀態用來求解打分函數：

Local-based ，沒有外部的關注對象，自己關注自己。

General，有外部的關注對象，直接乘積，全連接層。

Concatenation-based，有關注的對象，先concat或相加再過連接層。

注意力分數經過softmax層：

Soft Attention 是對所有的信息進行加權求和。Hard Attention是選擇最大信息的那一個。若是使用軟性注意力選擇機制，求得編碼器的隱含狀態與歸一化分數的加權平均：

串聯得到帶有注意力的解碼器隱含狀態：

通過注意力隱狀態得到預測概率：

多頭注意力

Multi-head Attention利用多個查詢Ｑ來並行地從輸入信息中選取多個信息。每個注意力關注輸入信息的不同部分。

比如Attention Is All You Need。

硬性注意力

硬性注意力是只關注到一個位置上。選取最高概率的輸入信息，在注意力分佈上隨機採樣。

缺點：loss與注意力分佈之間的函數關係不可導，無法使用反向傳播訓練。一般使用軟性注意力。

需要：硬性注意力需要強化學習來進行訓練。

鍵值對注意力

輸入信息：鍵值對(Key, Value)。 Key用來計算注意力分佈 $\alpha_i$ ，Value用來生成選擇的信息。

結構化注意力

如果輸入信息，本身就有層次化的結構，詞、句子、段落、篇章等不同粒度的層次。這時用層次化的注意力來進行更好的信息選擇。

也可以使用一種圖模型，來構建更加複雜的結構化注意力分佈。

指針網絡

指針網絡pointer network是一種序列到序列的模型，用來指出相關信息的位置。也就是隻做第一步。

輸入： $X_{1:n}=[x_1,...,x_n]$

輸出： $c_{1:m}=c_1,c_2,...,c_m$ ，∈[1,n]　，輸出是序列的下標。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

走進京東“卓越研效架構師”首期研習營圓滿收官

五月的北京，春深半夏，花開滿城。由全國雲計算技術行業產教融合共同體牽頭，攜手工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會以及京東雲共同主辦的“走進京東——卓越研效架構師”研習營，於5月17-18日和24-26日在北京京東

2024-05-31 23:55:49

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

基於Fluid與JindoCache的大模型訓練加速實踐

隨着人工智能技術的不斷髮展，深度學習模型變得越來越複雜，參數量動輒幾十億甚至上百億。這樣的“大模型”在帶來強大性能的同時，也對訓練過程提出了極高的要求。尤其是在數據加載和計算資源利用方面，傳統的訓練方法往往難以滿足快速、高效的需求。爲此，我

2024-05-28 12:12:15

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

智能高效的IDE GoLand v2024.1全新發布 - 進一步升級AI輔助工具

GoLand 使 Go 代碼的閱讀、編寫和更改變得非常容易。即時錯誤檢測和修復建議，通過一步撤消快速安全重構，智能代碼完成，死代碼檢測和文檔提示幫助所有 Go 開發人員，從新手到經驗豐富的專業人士，創建快速、高效、和可靠的代碼。立即獲取G

2024-05-21 12:19:26

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

網絡爬蟲安全：90後小夥，用軟件非法搬運他人原創視頻被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

探索大語言模型：理解Self Attention| 京東物流技術團隊

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

GPU 硬件指標說明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

24小時熱門文章

最新文章

最新評論文章