背景,普通的self-attention
Q 是 n x d
K 是 n x d
V 是 n x d
QK是 n x n
繼而 (QK)V 是n x d
計算量最大的在於QK出n x n
這步,固算Attention爲O(n^2)複雜度
Linformer用兩個 n x k
矩陣,將 K 和 V 映射爲 k x d
則
Q 是 n x d
K 是 k x d
V 是 k x d
QK是 n x k
繼而 (QK)V 還是n x d
k如果足夠小的話,證明就是O(n)複雜度算Attention了,
同時,文章從數學上證明了這樣做的誤差和原來相比很小。