【總結向】從CMRC2019頭部排名看中文MRC

0 預備知識

數據集

CMRC 2019的任務是句子級填空型閱讀理解(Sentence Cloze-Style Machine Reading Comprehension, SC-MRC)。我個人感覺類似7選5 or 5選5的題型。.根據給定的一個敘事篇章以及若干個從篇章中抽取出的句子,參賽者需要建立模型將候選句子精準的填回原篇章中,使之成爲完整的一篇文章。SC級的任務提升了MRC難度。

難點:需要根據上下文邏輯關係判斷空穴部分;減少干擾項的影響

數據集樣式

JSON字段 介紹
context 帶空缺的篇章,空缺以[BLANK]表示
context_id 篇章的ID, 唯一
choices 填入空缺內的候選句子,有序列表
answers 填入空缺的句子序號順序(句子序號從0開始計數)

JSON舉例(包含假選項)

{
    "data": [
        {
            "context": "森林裏有一棵大樹,樹上有一個鳥窩。[BLANK1],還從來沒有看到過鳥寶寶長什麼樣。 
            小松鼠說:“我爬到樹上去看過,鳥寶寶光溜溜的,身上一根羽毛也沒有。” “我不相信,”小白兔說,“所有的鳥都是有羽毛的。” 
            “鳥寶寶沒有羽毛。”小松鼠說,“你不信自己去看。” 
            小白兔不會爬樹,它沒有辦法去看。小白兔說:“我請藍狐狸去看一看,我相信藍狐狸的話。” 小松鼠說:“藍狐狸跟你一樣,也不會爬樹。” 
            藍狐狸說:“我有魔法樹葉,我能變成一隻狐狸鳥。” [BLANK2],一下子飛到了樹頂上。 “藍狐狸,你看到了嗎?”小白兔在樹下大聲喊。 
            “我看到了,鳥窩裏有四隻小鳥,他們真是光溜溜的,一根羽毛也沒有。”藍狐狸說。 就在這時候,鳥媽媽和鳥爸爸回來了,
            [BLANK3]....[BLANK8]....",
            "choices": [
                "藍狐狸是第一次變成狐狸鳥",
                "森林裏所有的鳥聽到喊聲",
                "他們看到鳥窩裏蹲着一隻藍色的大鳥",
                "藍狐狸真的變成了一隻藍色的大鳥",
                "小動物們只看到過鳥媽媽和鳥爸爸在鳥窩裏飛進飛出",
                "小松鼠變成了一隻藍色的大鳥"
                ],
            "context_id": "SAMPLE_00002",
            "answers": [4,3,2,1,0]
        }
    ]
}

CMRC 2018的數據集和SQuAD類型相似,來源於中文維基百科,單文檔,給定一篇文檔和一個問題;參賽者需要解決的是,如何建立並訓練 model,使其能更好地理解 context 與 query,並找到相應答案。

在數據方面,主要工作集中在數據的歸一化和去噪音。CMRC 比賽訓練集包含大約一萬條數據,總體數據量偏少,這種情況下數據的標註一致性尤爲重要。(標註不一致的問題會使模型的最終預測 EM 指標降低)

相關資訊

  • CMRC官網介紹:https://hfl-rc.github.io/cmrc2019/task/

中文MRC任務要點(融合CMRC2018-2019)

任務類型
  • 完形填空

  • 多選

    考慮輸入拼接方式,比如是單個choice預測 還是 多個choice預測(6estates的啓發)

  • 抽取式

數據增強與擴充
  • 數據量少

    back translatin:比如zh->en->zh(哈工大),過程中保持[blank]位置不變,然後最強增強倍數N=1

    用類似領域的數據作爲補充;

    人工標註(成本花費大)

  • 數據增強方式

    • 比如多選類型,對答案不屬於文章任何一個choice的情況(unknow choice),做簡單DA

    • 又或者動態數據增強(平安)?

    • 又如增加假答案(從原文中隨機選取一定數量句子作爲候選答案(增加假答案)參與訓練。(順豐,CICC是每篇文章會從上一篇文章抽一個句子作爲假例子

    • sample2paras:將所有原文中的 [BLANK] 用 choices 填充,重新隨機生成新的 [BLANK] 位置與對應的 choices,新 [BLANK] 位置的原文長度分佈與原始訓練集一致

    • 生成數據也要考慮去重,比如達到一個閾值或者嘗試生成次數上限

    • 設置增強倍數,即每個樣本生成N個增強數據

  • 抓取數據

    如從故事網等網站上抓取相關文本作爲數據集的擴充,並刪去相似文本

    擴充數據集的時候要注意分佈(6estates),從而生成新數據集

  • 調整問題或者context長度的分佈,也要研究一下(6estates和哈工大都有這思想),分佈也會涉及重複的樣本

  • 增強數據與原始數據的混合模式選擇

    • 增強數據與目標數據領域完全一致
    • 增強數據與目標數據領域有差異(適合遷移 or stage-wise
數據處理
  • 文本歸一化處理(如:如繁簡轉換中英文標點轉換去除拼音標註長度限制分佈調整 等)

  • 增加假答案(從原文中隨機選取一定數量句子作爲候選答案(假答案)參與訓練),CICC是每篇文章會從上一篇文章抽一個句子作爲假例子

  • context norm

  • filter query is None or answer is None

  • Answer和Context長度限制

  • data augment

  • 干擾項(CMRC2019)

    重複干擾項,排除重複干擾項能明顯提高推理效果

    隨機干擾項

文本向量化表達
  • 如用預訓練語言模型,如中文ELMo(英文ELMo是基於字符集的編碼),可採用的粒度有:

    • 中文詞級
    • 筆劃級
  • 字模型

    優點:embedding參數少,unk少,語料中字出現的次數相對均勻;

    缺點:中文字模型分詞後文本可能過長,有些任務分段後性能下降,沒有分詞的先驗信息。

    Token level的分類任務(閱讀理解,NER等),字模型>>詞模型。 雖然字模型整體表現更好,但是詞模型能夠有效降低文本長度使得attention視野更遠,部分數據集會有奇效。

  • 詞模型

    優點:有分詞的先驗信息。有預訓練詞向量,能夠降低文本長度,節約顯存。

    缺點:Embedding參數巨大,UNK多,詞頻分佈不均帶來部分詞的優化過於稀疏;week domain transfer ability;目前的分詞工具表現還不是很好,會導致下游任務的bias

    對於Transformer而言,受限於顯存壓力。模型大多長度受限,而長距離的attention在很多任務上非常關鍵,此時詞模型對text level的分類任務上可能會有奇效。

  • sub-word 瞭解一下咯!

  • pos embedding

  • query type embedding

  • word match

  • 長文檔處理(比如結合tramsformer-xl, xlnet的自迴歸方式處理長文本)

特徵融合
  • 問題類型的one-hot特徵

    如:who, where, when, how, num, why, how long等類型,轉爲one-hot向量

  • POS信息

  • 詞共現特徵

  • 句子連貫性

    • 候選答案回填(順豐)
    • SI,SSI方法(平安)
訓練方法
  • 蒸餾(distill)

    • 自我蒸餾,self-distill。

      自我蒸餾就是不改變模型大小,循環進行 teacher-student 的訓練,直到效果不再改進

    • 知識蒸餾

      如student採用和teacher同樣的網絡結構(重生網絡)

    蒸餾通常用在模型壓縮方面,即採用預訓練好的複雜模型(teacher model)輸出作爲監督信號去訓練另一個簡單模型(student model),從而將 teacher 學習到的知識遷移到 student。

  • Post-process(要了解)

    無監督數據預訓練LM -> 特定任務數據上精調LM -> 任務標註數據精調模型(LM初始化)

  • 打破模型訓練消耗大對想法嘗試的束縛:(CICC)

    使用相同原理的tiny模型做benchmark,在其基礎上做對比實驗,最後應用到大模型上。

  • 多層級任務的pretrain——字、詞、句(cicc)

預訓練模型
  • 中文預訓練BERT-wwm
預測目標
  • level:character level, word level, sentence level
  • NSP, MSP(6esetates)
  • 這些訓練目標和組合,比如同時預測character-level 和mask和mask sentence prediction,不知道能不能看做多任務學習
  • 全詞掩碼 wwm, 快去了解

目標類型

  • 語言模型

  • 分類問題

  • 合理性排序問題(順豐),目標決定損失函數

其他:trick & 問題
  • Gate機制(關注核心單詞)

    如extra gated-dropout for query

  • 答案抽取用PointerNetwork來預測答案起始與終止位置

    prob = start * end

  • 多任務

    • 預測詞是不是在答案的範圍裏,二分類,當做輔助任務去訓練
    • 預測答案是否在這個句子裏

    多任務其實是比較 trick 的東西,不同任務設置的權重不一樣,需要不斷去嘗試。

  • 顯存優化方法

    • blocksparse
    • 避免對大tensor進行dropout
  • 中文文檔複雜性

    當數據集是文本時,文檔可能長至幾百頁,這時,機器就需要搭配文章分類段落索引這樣的技術來提升速度和準確性。

    另外,文檔中的一級標題、二級標題以及表格和圖片等都是需要處理的問題。

  • 學習率

    • 學習率自適應,也就是每層組設置不同的學習率(哈工大)
    • 三角週期學習率,學習率按照三角規律週期性變化(與固定學習率的指數衰減方式相比,有明顯提升)
  • 模型集成, 模型融合

  • 損失函數

    marginLoss, CrossEntropyLoss

實用工具
  • 瞭解一下SMRC,搜狗的機器閱讀理解工具集合,https://github.com/sogou/SMRCToolkit ,它提供了CMRC2018的模塊
  • blocksparse,一個用於塊稀疏矩陣乘法和卷積的高效GPU內核, https://github.com/openai/blocksparse
  • SentencePiece(spm),字詞混合模型。作爲一個高性能的無監督文本詞條化工具,可以通過EM算法爲預訓練提供基於統計的高效分詞。事實上xlnet即是用這個來進行分詞的。 https://github.com/google/sentencepiece
  • 中文bert預訓練:https://github.com/ymcui/Chinese-BERT-wwm
應用
  • 搜索引擎

  • 客服

  • 金融教育領域,有大量非結構化的文本

    比如金融有很多公告類型的數據,純靠人工提取知識點,並且由於長尾效應,難以覆蓋到用戶需要的所有點。依託閱讀理解,機器可以直接從非結構化數據中提取到用戶所需要的信息點。

    CMRC2019對⾦融⻛控領域, 針對企業年報中關鍵⾦融要素, 抽取原因語句和相關段落的任務起到幫助

1 冠軍:平安金融

綱要

  • 如何更好地學習到句子之間的連貫性?——SI(Sentence Insertion)

  • 非獨立性條件下,合理的預測方式

  • 中文NLP任務是否還需要分詞? ——SentencePiece

  • 預訓練模型中連貫性知識的進一步強化 —— SDRP

  • 預訓練模型的領域遷徙 ——SSI

策略

看來這也是單choice預測策略

核心

優化

針對BERT佔用顯存的地方優化

  • 使用blocksparse
  • 避免對大tensor進行dropout

預訓練語料

使用多源數據重訓練bert,在官方中文BERT使用中文wiki基礎上,採集了百科、新聞、知乎等多源數據

連貫性學習

主題相同的情況下,學習句子的連貫性,並且還要學會拒絕不連貫的句子。

SiBert

Sentence Insertion(SI代替NSP)

NSP學到的更多是主題信息而不是連貫性信息(根據ALBert研究),因此這裏替換NSP爲SI;而cmrc2019句子位置預測本身就是一個可用於預訓練的自監督方法,能夠有效補充語言模型對連貫性順序學習 的需求

SI能學習到在判斷 主題相同的情況下,句子放在哪裏最連貫。

其中,sentence2是其他文檔的句子,sentence1-3等是該篇文章,

SiBert結果與動態mask

  • 在SiBert基礎上基於 全詞MASK繼續fine-tune

  • 全詞mask[1] 與 英文中的ngram-mask相對應,在**spanBert[2]**中表示該方法對MRC提升顯著

Sibert vs 2Sibert結論:

  • 基於sentencepiece統計得到的字詞混合模型能夠基本解決詞模型UNK的問題,在預訓練中遠優於傳統分詞+統計得到的詞模型。
  • Token level的分類任務(閱讀理解,NER等),字模型>>詞模型。
負樣本的連貫性

受到ERNIE2.0[3]的啓發,我們爲模型新增了Sentence-Document Relation Prediction(SDRP)任務。使得模型針對負樣本不僅僅專注於主題,更能判別它們的連貫性。下圖結果稱爲3SiBert(2SiBert見下文)。

非獨立性的預測方式

因爲多個choice之間也會提示信息(比如順序關係,會有對比信息,6estates也有用到這個啓發),從而在推斷過程中相互提供有效信息得到答案,因此每個choice之間的預測不應該是獨立的。

原始的獨立的預測目標:

動態預測

在推斷的階段,逐漸還原文本,增加先驗信息。

文本長度與分詞

問題

文本長度過長(>512),限制模型性能,因此要探索如何 無損縮減長度, 可以用到 SentencePiece[spm]分詞工具來降低context文本長度,並得到字詞混合模型,能夠基本解決詞模型unk的問題。

SentencePiece

高性能的無監督文本詞條化工具,可以通過EM算法爲預訓練提供基於統計的高效分詞,並得到字詞混合模型,能夠基本解決詞模型unk的問題。下圖裏,分詞後context長度明顯降低。(2SiBert)

領域遷移

爲了使得預訓練模型更貼近cmrc2019的任務,在之前預訓練模型的基礎上把Sentence Insertion任務替換爲短句抽取(Short Sentence Insertion, SSI),進一步訓練了500k步。

消融實驗

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-BsugYJvs-1586241113301)(https://i.loli.net/2020/04/05/38HFotdpklg7Ky5.png)]

總結
  • 預訓練

    BERT模型優化,預訓練語料豐富化;Sentence Insertion全詞mask任務;句子篇章關係預測任務;預訓練模型的領域遷移

  • 數據增強

    簡單負樣本增強;動態數據增強(配合SDRP)

  • 數據處理

    SentencePiece字詞混合模型; 動態預測

2 亞軍:順豐 Mojito System

預處理

  • 數據清理
  • 增加假答案
  • 候選答案回填(判斷句子 合理性、連貫性
  • 多**[mask]填充**(與掩碼語言模型保持一致性、一定程度上還原候選答案與上下文的相對距離)

在這裏插入圖片描述
區分mask和blank哦

預訓練

在這裏插入圖片描述

模型

在這裏插入圖片描述
在這裏插入圖片描述

Margin Loss

候選答案是一個 合理性排序問題! 而不是分類問題

知識蒸餾,重生網絡,對應的loss

預測策略

關鍵是構造這個候選答案的得分矩陣(下文6estates的是choice-unused矩陣,反正關鍵是構建矩陣),在這個基礎上採用 差值排序

有圖知,答案的選擇策略有兩種,一種的方案A直接取最高分,還有一種是方案B採用差值排序選擇。

實驗結果

總之有和其他模型的對比;自己的消融分析;採用不同預訓練語言模型的對比;採用集成模型的對比

錯誤分析

對於需要一些推理的blank(好像不同的方法叫法不同,在6esetate裏不知道是不是又處理了,叫作unsed),觀察出缺乏一定知識推理能力;候選答案無法區分,答案都合理;預測方案不同導致不同的預測答案;關鍵上下文缺失的情況下,已有信息無法得到真正的答案;語序方面的問題;

3 季軍:6Estates

數據集分析

問題

  1. 數據不充分;
  2. TTD數據問題數量分佈差異; (結合1,所以可以考慮自己增加一些數據集)
  3. TTD 文本長度分佈也有差異;
  4. 相似文本值得答案有所泄露或者互相干擾


策略與方法

策略

  • 改進bert
  • 增加數據量,並調整數據分佈(研究一下)
  • 嘗試不同預訓練任務
  • 問題轉化爲針對context構建 choice-unused 概率矩陣
  • 分別以choice 和 unused 爲中心構建不同模型進行預測

矩陣如圖:

數據集擴充,分佈調整
  • 從故事網等網站抓取更多相關文本;刪去trail/dev/qualify中的相似文本;
  • 問題可以包含符號,字符長度15-30,問題數量5-15;不允許採樣時出現相似文本,從而生成新的數據集
預訓練

預訓練的幾種objective,這就涉及多任務學習的範疇

  • 在新數據上⽣成了⼤約600W預訓練數據
  • Mask Prediction 1(character level)
  • Mask Prediction 2 (word level)
  • Next Sentence Prediction
  • Mask Sentence Prediction
單個choice拼接預測

將單個choice放入一個example中,從而訓練新的預訓練模型。

由此產生髮方法有:

  • model1 : 新的預訓練模型
  • model2 : 新的與訓練模型 + 更大訓練集
  • model3 : 加⼊更多中間層, 在最終輸出層之前增加更⾼概率的Dropout
  • model4 : 增加單獨的輸出和Attention⽤來檢測是否爲假的Choice
多個choice拼接預測

所有choice都放入一個example中,從而建模的時候做choice rep和unused rep的text pooling

多choice vs 單choice
  • 當需要⻓⽂本上下⽂來輔助判斷時,同樣max_seq_len情況下多 choice模型能夠建模的context⻓度⼤⼤減少 (可以結合xlnet的自迴歸建模方式處理長文檔)
  • 當存在有多個空位距離較近時, 需要更多的choice之間的對⽐信息(順豐也考慮到這個,就是choice之間的關係)才能輔助確定空位應該填⼊的choice
集成模型
  1. 單choice和多choice模型預測概率線性迴歸
  2. 根據choice預測概率和choice部分⽂本在context中的出現情況判斷是否直接排除該choice
  3. 將置信度較⾼的choice填⼊context中, 構建新的case, 迭代式預測

改進

  • 長文檔,xlnet的自迴歸思想建模方式,處理更長文本
  • 多choice模型中增加更合適的pairwise loss,使得模型能在choice選取中更有區分度

4 季軍:哈工大

模型架構

創新點:

個人感覺主要是在數據、訓練方式上做加法,模型架構沒有什麼創新

  1. 提出了一種填空型閱讀理解任務的通用數據增強方法

  2. 在特定任務數據上精調 LM 明顯地提升了語言模型對該任務的表達能力

  3. 學習率的領域自適應與三角週期性學習

  4. 數據增強與原始數據的混合模式選擇

優點

  • 單模型,訓練及推理效率高
  • 通用數據增強方法可使用其他領域數據做遷移或者從任意領域無監督數據直接生成訓練集

改進

  • 模型結構上有待進一步改進,如加入更能表徵句子位置的結構
  • 對每個樣本的多個 choice 位置的損失加入整體性約束

數據增強

  1. 重排填空位置

  2. Back Translate

    • zh->en->zh:保持 [BLANK] 位置不變
    • 最佳增強倍數 N=1:使用重排對每個樣本生成1個增強數據

學習率

學習率領域自適應

三角週期學習率:學習率按照三角規律週期性變化

訓練方法

數據增強與原始數據的 混合模式 選擇

  1. 增強數據與目標數據領域完全一致

  2. 增強數據與目標數據領域有差異

    • 適合遷移:增強數據模型->目標數據模型
    • stage_wise: 從距離最遠的優先訓練,依次遷移到距離較近的增強數據,最後遷移到目標數據,這樣有效利用其它領域信息並減少遺忘
  3. 該句子填空任務的增強數據與目標數據領域完全一致

排除干擾項

實驗結果

5 季軍:CICC

實驗結果和消融分析

由上圖知:

  • 增加假例子:每篇文章會從上一篇文章抽一個句子作爲假例子

  • domain pretrain

  • mix pretrain

  • 閱讀理解策略

  • 三模型融合

    反思

    如何打破模型訓練消耗大對想法嘗試的束縛

    使用相同原理的tiny模型做benchmark,在其基礎上做對比實驗,最後應用到大模型上。

    多層級任務的pretrain——字、詞、句

6 啓發

動機出發,比如探索更好的MRC落地應用,或者探索PTM的新的任務。通過改進不同模型的缺點來找到創新點和推動發展。

根據具體數據集任務分析數據集好像是個之前被我很忽略的一個點,這裏好幾個隊伍都進行了數據集的分析,從而觀察數據集的分佈、選項、長度、數據數量、重複項,判斷選項之間的順序性或者獨立性影響,選項與上下文之間的影響作用,這都是我之前沒有考慮到的!分析任務是個首當其衝的大事啊!分析任務還包括分析任務的難點,比如這個任務的難點就包括句子連貫性的學習,因此針對連貫性,冠軍也亞軍團隊都有自己的連貫性學習方案,具體見上文因爲這裏我突然想不起來了(記性真的好差,因此要多回顧呀)。

每個模型基本都使用了數據增強來拓展數據集,其中包括領域遷移、back translate、生成假數據、假答案、簡單粗暴抓取數據等不同的拓展數據的方式與數據混合方式,並且對原始的數據與生成的數據也要做進一步的處理比如分佈調整、去重等,但我對這些方面的認識還是十分模糊!如果要做中文MRC任務,這方面我還要多下點功夫研究和歸納一下,數據的擴充和處理是個大任務!

適合中文任務的預訓練模型也要了解哦,比如常用的bert-wwm,這是個啥玩意?快去搞!

spanBert似乎是2019的實用方法,在mask詞上有所幫助;總之在語言模型mask 上面要看些論文了,估計其中一部分論文還要從預訓練模型裏面找。

採用Post-training的multi-task方法再次在順豐的模型上證明,多任務學習的損失loss的設計,涉及數學知識的部分如何把握?還有有點擔心計算量,又預訓練又post training的,我們學校的服務器能跑多少?還是隻能跑fine-tune?也許這需要一個很輕便的預訓練模型吧?這點要找學長問問,以及問問學長做過哪些訓練實驗,如果能發現能直接拿來用的實驗結果就更好了。看到CICC那邊對於到模型消耗大的反思,我也要有所啓發,比如如何構建一個相同原理的tiny模型來組benmark?

上面也設計到訓練方式,訓練方式裏的各種蒸餾也可以瞭解一下呢,知識蒸餾是啥?快去看吶。

中文MRC的訓練單位,及詞、字作爲輸入單位的不同特點,中文還是需要分詞的;而在cicc看到多層級的任務的預訓練:字、詞、句,這方面學習到的知識如何抽取和融合利用,也要探索。

大部分模型的輸入,好像還是單個choice拼接context的,學習打分的矩陣很關鍵,即得到一個交融的矩陣還是很重要的;模型的預測目標設計上,要針對數據集的特點,思考要讓模型學到什麼。並且預測的類型也可以不一樣,比如多選題的目標可以是分類,而又可以是一個排序問題(多個選項中找最高可能);

最後還要擁有一種 分析思想,要總結經典套路的消融分析錯誤分析方式,還要結合模型特點和創新點來設置分析對比實驗,並且還可以從任務特點來做分析,比如CICC的對不同位置的結果也可以做分析,總之能找出問題的話,就可以找出可改進的地方。在消融分析上做減法或者做加法都可,涉及的組件比如預訓練組件、語言模型差異、數據的增強方法(比如領域遷移、假答案等)、訓練方式的不同(比如融合模型)。總之這裏的分析思想也和上面的任務分析思想對應,要多分析,多思考,想不出來抱大腿(不是。

看論文的時候不僅要學會找能用的東西,還要思考自己能不能創新?就是既要思考模型的優點,更要找到模型的缺點,但是目前我好像還是隻在汲取知識的階段,缺點根本看不出來好伐。。因爲要看的太多了,找到一些可用的素材就已經很難,找到關係更是難上加難,如果要創新的話,怎麼站在巨人的肩膀上?更如何在錯綜複雜的關係裏選擇合適的輪子?如果專注於造輪子的話如何穩住心態不會崩?

7 參考

網頁

https://www.leiphone.com/news/201811/3KC2OSaNQDzhTDDJ.html

雷鋒網的RC進階:https://www.leiphone.com/news/201811/wr62uxvN0dJDbLwF.html ,2018

從字到詞,大詞典中文BERT模型的探索之旅,https://www.jiqizhixin.com/articles/2019-06-27-17?from=synced&keyword=%E8%AF%8D%E5%90%91%E9%87%8FBERT

ppt提到的論文

  • [1] Cui, Yiming, et al. “Pre-Training with Whole Word Masking for Chinese BERT.” arXiv preprint arXiv:1906.08101 (2019)

  • [2] Joshi M, Chen D, Liu Y, et al. Spanbert: Improving pre-training by representing and predicting spans[J]. arXiv preprint arXiv:1907.10529, 2019. 【 平安、順豐,動態mask和spanmask】

  • [3] Sun, Yu, et al. “Ernie 2.0: A continual pre-training framework for language understanding.” arXiv preprint arXiv:1907.12412 (2019).

  • [4] Li, Xiaoya, et al. “Is word segmentation necessary for deep learning of Chinese representations?.” Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.

  • [5] Furlanello T, Lipton Z C, Tschannen M, et al. Born again neural networks. International Conference on Machine Learning (ICML), 2018 【重生網絡】

  • [6] Clark K, Luong M T, Khandelwal U, et al. Bam! born-again multi-task networks for natural language understanding. Association for Computational Linguistics (ACL), 2019. 【重生網絡的一種策略】

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章