transformer assemble

(草稿)

1,Learning method: continual learning ERNIE2.0

2,Pre-training method: SOP,DLM

3,Pre-training corpus:

4,Data Augme:

5,memory/params/EPOCHS:

5.1,distill:TinyBERT

5.2,pruning:adaptive span,

fine-tuning:adapt:Parameter-Efficient Transfer Learning for NLP;topK

dynamic halting:

sparse:

position embedding:

param sharing:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章