原创 如何評價NLP算法ELECTRA的表現?

https://www.zhihu.com/question/354070608

原创 Sparse Transformer

https://zhuanlan.zhihu.com/p/84802318

原创 Bootstrapping NLU Models with Multi-task Learning

paper:Bootstrapping NLU Models with Multi-task Learning 圖1:端到端聯合NLU模型的概述。合成CNN用於從字符中合成詞嵌入;公路網不僅促進了信息的流動,而且使輸入的非線性變換成爲可

原创 Transformer++

                                         我們使用如圖[1]所示的編碼器-解碼器架構來對一個序列進行序列建模,該架構遵循Transformer[15]中提出的架構。我們提出了一種計算注意函數的新方法

原创 解讀 IASM《Interactive Attention for Semantic Text Matching》

互動關注本地互動 我們模型的輸入是一對源文本和目標文本(q,d)。 源文本q由m的序列組成單詞(q1,q2,...,qm)和目標文本d由a組成n個單詞的序列(d1,d2,...,dn)。 預訓練詞每個單詞qi∈q和dj∈d的嵌入可以通過在

原创 解讀Reformer

論文地址:https://openreview.net/forum?id=rkgNKkHtvB 代碼:https://github.com/lucidrains/reformer-pytorch 介紹 Transformer 架構被廣泛用

原创 解讀ALBERT

論文地址:https://openreview.net/pdf?id=H1eA7AEtvS 中文預訓練ALBERT模型:https://github.com/brightmart/albert_zh 曾經,預訓練是大模型(玩家)的天下

原创 XLNet原理解讀

論文地址:https://arxiv.org/pdf/1906.08237.pdf 預訓練模型及代碼地址:https://github.com/zihangdai/xlnet 論文原理:(張俊林老師--講的比較透徹) XLNe

原创 RoBERTa、ERNIE2、BERT-wwm-ext和SpanBERT

對於NLP來說,上個月(7月)是一個摩肩接踵的時刻,幾大預訓練模型輪番PK,羣雄逐鹿中原。從7月26號的RoBERTa到7月29號的ERNIE2,再到7月30號的BERT-wwm-ext,再到7月31號的SpanBERT,其中RoBER

原创 LADABERT:混合模型壓縮的輕量級自適應BERT

https://zhuanlan.zhihu.com/p/129298567

原创 如何看待瘦身成功版BERT——ALBERT?

https://www.zhihu.com/question/347898375/answer/863537122

原创 如何評價 BERT 模型?

https://www.zhihu.com/question/298203515/answer/516170825

原创 解讀FastBERT《a Self-distilling BERT with Adaptive Inference Time》

https://arxiv.org/pdf/2004.02178.pdf The code is publicly available at https:// github.com/autoliuweijie/FastBERT.(作者目前

原创 TRANS-BLSTM: Transformer with Bidirectional LSTM for Language Understanding

https://arxiv.org/pdf/2003.07000.pdf       

原创 Reformer: 高效的Transformer

論文地址:https://openreview.net/forum?id=rkgNKkHtvB 代碼:https://github.com/google/trax/blob/master/trax/models/research/refo