Linformer 閱讀筆記

背景,普通的self-attention
Q 是 n x d
K 是 n x d
V 是 n x d
QK是 n x n 繼而 (QK)V 是n x d
計算量最大的在於QK出n x n這步,固算Attention爲O(n^2)複雜度

Linformer用兩個 n x k 矩陣,將 K 和 V 映射爲 k x d

Q 是 n x d
K 是 k x d
V 是 k x d
QK是 n x k 繼而 (QK)V 還是n x d

k如果足夠小的話,證明就是O(n)複雜度算Attention了,
同時,文章從數學上證明了這樣做的誤差和原來相比很小。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章