https://zhuanlan.zhihu.com/p/49271699
Bert是近年來NLP重大進展的集大成者. 目前絕大部分NLP任務都可以採用類似的兩階段模式直接去提升效果
Transformer是谷歌在17年做機器翻譯任務的“Attention is all you need”的論文中提出的,引起了相當大的反響,很多研究已經證明了Transformer提取特徵的能力是要遠強於LSTM的.
Transformer在未來會逐漸替代掉RNN成爲主流的NLP工具,RNN一直受困於其並行計算能力,這是因爲它本身結構的序列性依賴導致的.
CNN在NLP裏一直沒有形成主流,CNN的最大優點是易於做並行計算,所以速度快,但是在捕獲NLP的序列關係尤其是長距離特徵方面天然有缺陷
https://zhuanlan.zhihu.com/p/37601161 深度學習中的注意力模型
https://jalammar.github.io/illustrated-transformer/ transformer資料