Linformer 閱讀筆記

原創

2020-06-29 21:55

背景，普通的self-attention
Q 是 n x d
K 是 n x d
V 是 n x d
QK是 n x n 繼而 (QK)V 是n x d
計算量最大的在於QK出n x n這步，固算Attention爲O(n^2)複雜度

Linformer用兩個 n x k 矩陣，將 K 和 V 映射爲 k x d
則
Q 是 n x d
K 是 k x d
V 是 k x d
QK是 n x k 繼而 (QK)V 還是n x d

k如果足夠小的話，證明就是O(n)複雜度算Attention了，
同時，文章從數學上證明了這樣做的誤差和原來相比很小。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

TensorFlow 使用上個模型輸出的一個向量表示來給RNN生成一段文本

import tensorflow as tf from tensorflow.contrib.rnn import LSTMCell cell = LSTMCell(128,state_is_tuple=False) ini

2020-07-03 23:26:00

論文速遞 | 一份超全易懂的深度學習在圖像去噪的綜述

近日哈爾濱工業大學、廣東工業大學、清華大學與臺灣國立清華大學等研究人員共同撰寫一篇深度學習在圖像去噪上的綜述並在arxiv發表，該綜述系統地總結圖像去噪的重要性、圖像去噪技術的發展、傳統的機器學習和深度學習的圖像去噪技術的優缺點以

2020-06-21 20:17:55

NS-CL 摘要速覽

https://openreview.net/group?id=ICLR.cc/2019/Conference THE NEURO-SYMBOLIC CONCEPT LEARNER: INTERPRETING SCENES, WO

2020-06-21 19:00:30

how powerful are GNNs? 摘要速覽

HOW POWERFUL ARE GRAPH NEURAL NETWORKS? https://openreview.net/group?id=ICLR.cc/2019/Conference 我們對GNN的表示性質和侷限瞭解有限，

2020-06-21 19:00:30

BA-NET 摘要速覽

https://openreview.net/group?id=ICLR.cc/2019/Conference BA-NET: DENSE BUNDLE ADJUSTMENT NETWORKS 本文介紹一個網絡結構，來解決 str

2020-06-21 19:00:30

ICLR 2020 ENERGY BASED MODEL 摘要速覽

YOUR CLASSIFIER IS SECRETLY AN ENERGY BASED MODEL AND YOU SHOULD TREAT IT LIKE ONE https://openreview.net/group?id=

2020-06-21 19:00:29

Spherical Text Embedding 摘要速覽

https://github.com/yumeng5/Spherical-Text-Embedding https://arxiv.org/abs/1911.01196 無監督文本向量表示技術在NLP任務很重要，然而之前的文本向量

2020-06-21 19:00:29

LambdaNet 摘要速覽

LambdaNet: Probabilistic Type Inference using Graph Neural Networks https://openreview.net/group?id=ICLR.cc/2020/Co

2020-06-21 19:00:29

sh run安裝cuda失敗，Finished with code: 256

要先禁用nouveau CentOS保證lsmod |grep nouveau不顯示信息 CentOS用runfile安裝還是比rpm好點

2020-06-21 19:00:29

deterministic variational inference for robust BNNs 摘要速覽

DETERMINISTIC VARIATIONAL INFERENCE FOR ROBUST BAYESIAN NEURAL NETWORKS https://openreview.net/group?id=ICLR.cc/201

2020-06-21 19:00:29

Structural Deep Clustering Network 摘要速覽

https://arxiv.org/pdf/2002.01633.pdf 本文研究聚類，深度學習，如autoencoder，促進了聚類研究的發展，發現好的向量表示是必備的一環，本文結合GCN做聚類，提出Structural De

2020-06-21 19:00:29

AliCoCo 閱讀筆記

論文名：AliCoCo: Alibaba E-commerce Cognitive Concept Net 引言基本電商的圖譜建設都是Category-Property-Value形式，Category是一顆樹，其中Proper

2020-06-16 05:33:53

不僅搞定“梯度消失”，還讓CNN更具泛化性：港科大開源深度神經網絡訓練新方法

原文鏈接：不僅搞定“梯度消失”，還讓CNN更具泛化性：港科大開源深度神經網絡訓練新方法 paper: https://arxiv.org/abs/2003.10739 code: https://github.com/d-li1

2020-06-10 07:31:53

極市分享|計算機視覺線上技術分享回放（視頻+PPT）

極市致力於打造最專業的爲開發者服務的視覺算法開發與分發平臺極市，特邀請行業內專業人員爲大家分享視覺領域內的乾貨及經驗，目前已成功舉辦44期計算機視覺和機器視覺的技術分享。更多分享動態請關注極市博客或極市微信公衆號（id:extre

2020-06-10 07:31:53

深度學習：ELMO、GPT和BERT模型

2020-06-03 09:22:00

24小時熱門文章

最新文章

最新評論文章