【nlp面試題】爲什麼Bert的三個Embedding可以進行相加?

前言

剛看到這個問題的時候有點蒙圈,三個Embedding是哪三個Embedding?
看來bert理解的還是不夠,迅速查了下資料。bert中的三個Embedding包括Position Embedding、Token Embedding、Segment Embedding。
爲何可以相加,可以從矩陣運算的數學層面解釋。大矩陣的乘法等於將矩陣切分成小的矩陣分別進行乘法,然後結果相加。
下面的圖片便於理解。
在這裏插入圖片描述

參考

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章