將SimCLR應用於NLP預訓練模型，提升句子語義表徵效果

原創

2021-01-30 11:09

©PaperWeekly 原創 · 作者｜張琨

學校｜中國科學技術大學博士生

研究方向｜自然語言處理

論文標題：

CLEAR: Contrastive Learning for Sentence Representation

論文作者：

Zhuofeng Wu / Sinong Wang / Jiatao Gu / Madian Khabsa / Fei Sun / Hao Ma

論文鏈接：

https://arxiv.org/abs/2012.15466

動機

近兩年，對比學習（Contrastive Learning）由於能夠通過數據之間的關係，以無監督的形式充分學習數據的表徵受到了大家的廣泛關注，特別是 MoCo ,SimCLR 的方法的提出。而對比學習的一個關鍵思想就是如何構建對比的數據對，更細緻的，如何構建正樣本和負樣本，更好的正樣本和負樣本能夠幫助模型更好的理解數據。

因此，可以發現對比學習在 CV 領域首先有了效果，針對對比學習，圖像可以通過旋轉，裁剪，變換顏色等方法在不改變便籤的情況下進行數據增強。但在 NLP 領域就出現困難了，文本數據如何進行增強，單純的刪除或者修改詞及詞序都會引起語義的變化。

因此，作者認爲將對比學習引入到句子語義表徵中是很有必要的，現有的預訓練模型都是通過詞級別的目標進行預訓練的，而且單純使用 [cls] 作爲最終句子的語義表徵不夠充分。我們需要爲本文中的對比學習設計更好的數據增強方法，用於提升句子語義的理解和表徵。

方法

針對 BERT 等方法只關注於詞級別的目標進行預訓練，作者提出了句子級別的對比學習目標，同時爲了更好的表徵句子的語義，作者將對比學習引入到模型訓練中，並提出了四種數據增強的方法。具體技術部分如下：

2.1 對比學習框架

首先是整個工作提出的對比學習框架圖：

這個模型圖和 SimCLR 非常的相似，作者也是借鑑了 SimCLR 的思路設計了這個結構，首先輸入句子經過數據增強之後，分別送給一個 Transformer encoder，然後得到的輸出經過一個映射函數 g 映射到同一個表示空間，最後就是一個對比學習的損失約束整個模型進行訓練。具體細節可以參見 SimCLR 這篇文章。

2.2 數據增強方法

那麼這篇文章的重點就在如何對輸入句子進行數據增強，首先，本文使用了四種數據增強的方式，如下圖：

Word deletion：即隨機刪除句子中的某些詞，並將這些詞使用 [DEL] 進行替換
Span deletion：從 span-level 進行選擇和刪除，並使用 [DEL] 進行替換，可以認爲這種方法是 Word deletion 的一個特例
Reordering：隨機從句子中採樣出幾對詞，然後替換他們彼此的位置（已在 BART 中證實有效）
Substitution：隨機從句子中選擇一些詞，然後將其替換爲這些詞的同義詞（使用了一個同義詞詞典）

直觀上理解，方法 1 和方法 2 可能會改變原有句子的意思，作者認爲，隨機刪除一部分句子內容不會對句子的原始語義造成太大的影響。當然，在一些情況下，可能會改變句子的原始語義（例如把 not 刪掉了），但這部分可以認爲是適當的噪聲，這有助於提升模型的魯棒性。

具體在應用中，作者針對每個 minibatch，隨機選擇兩種數據增強的方法。經過數據增強之後，兩個來自同一個句子的增強句子就認爲是正樣本，其他所有來自同一個 minibatch 的增強樣本就認爲是這兩個正樣本的負樣本，這樣針對正樣本的損失函數就可以構建爲：

整個對比方法的損失函數就可以認爲是所有正樣本對的損失函數之和：

通過這種方法，就能夠幫助模型識別相似語義的句子，與此同時，作者還保留了原來的 Mask Language Model（MLM）的損失函數，將兩個損失函數結合，就得到了整個方法的損失函數。

實驗

首先，作者測試了不同的數據增強方法在 GLUE 和 SentEval 上的效果，如下圖：

同時作者還進行了一些消融實驗進一步驗證模型的效果：

總結

本文非常巧妙地將應用在 CV 上的 SimCLR 框架直接應用到了 NLP 中的預訓練模型中，具體作者考慮四種不同的數據增強方法。對現階段的 NLP 領域的對比學習是一個很不錯的參考。

而且作者認爲一定程度上對本文的修改不會對語義產生太大的影響，即使改變了語義，那這部分產生的噪聲對模型的魯棒性也有幫助。如果作者針對這部分進行一些實驗驗證或展示的話就更好了。

更多閱讀

#投稿通道#

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者羣體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成爲一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術乾貨。我們的目的只有一個，讓知識真正流動起來。

???? 來稿標準：

• 稿件確係個人原創作品，來稿需註明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已發佈鏈接

• PaperWeekly 默認每篇文章都是首發，均會添加“原創”標誌

???? 投稿郵箱：

• 投稿郵箱：[email protected]

• 所有文章配圖，請單獨在附件中發送

• 請留下即時聯繫方式（微信或手機），以便我們在編輯發佈時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公衆號後臺點擊「交流羣」，小助手將把你帶入 PaperWeekly 的交流羣裏。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

面向AI的開發：從大模型（LLM）、檢索增強生成（RAG）到智能體（Agent）的應用

引言隨着人工智能技術的飛速發展，大型語言模型（LLM）、檢索增強生成（RAG）和智能體（Agent）已經成爲推動該領域進步的關鍵技術，這些技術不僅改變了我們與機器的交互方式，而且爲各種應用和服務的開發提供了前所未有的可能性。正確理解這三者

2024-05-24 23:57:39

大模型在推薦系統中的精準推薦策略與實踐

引言推薦系統在現代互聯網應用中佔據了極其重要的位置。無論是電商平臺、社交媒體、音樂和視頻流媒體服務，還是新聞和內容推薦系統，推薦系統都在提高用戶體驗和平臺收益方面發揮着關鍵作用。近年來，隨着人工智能和機器學習技術的迅猛發展，大模型（如G

2024-06-06 23:55:10

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

原來Stable Diffusion是這樣工作的

stable diffusion是一種潛在擴散模型，可以從文本生成人工智能圖像。爲什麼叫做潛在擴散模型呢？這是因爲與在高維圖像空間中操作不同，它首先將圖像壓縮到潛在空間中，然後再進行操作。在這篇文章中，我們將深入瞭解它到底是如何工作的,還

2024-06-06 21:38:48

企業實施數字化轉型有哪些方面？

本人研究企業數字化轉型10餘年，爲企業軟件選型、數字化提供諮詢服務！目前重點研究低代碼數字化轉型玩法，力爭爲各行各業探索出一條最具性價比的數字化方式。關於“企業數字化轉型包括哪些方面”這個問題，咱先來看個例子哈~ 比如說某製造企業通過數

2024-06-06 21:27:46

首批！Zilliz 獲得亞馬遜雲科技生成式 AI 合作伙伴能力認證

Zilliz 正式宣佈通過亞馬遜雲科技生成式 AI 能力認證！這一認證不僅肯定了 Zilliz 在人工智能和非結構化數據領域的卓越能力，也標誌着 Zilliz 在推動 AI 技術創新和應用的道路上邁出了重要一步。亞馬遜雲科技生

2024-06-06 14:16:04

度安講 * 第二期「安全左移·業務護航」技術沙龍成功舉辦

當下，“安全左移”作爲落地DevSecOps的重要實踐之一，已在業界達成共識。DevSecOps作爲一種集開發、安全、運維於一體的軟件開發和運營模式，強調在敏捷交付下，“安全”在軟件開發生命週期的全覆蓋貫穿和核心位置。所謂“安全左移”，與

2024-06-03 21:42:25

向量數據庫引領 AI 創新——Zilliz 亮相 2024 亞馬遜雲科技中國峯會

2024年5月29日，亞馬遜雲科技中國峯會在上海召開，此次峯會聚集了來自全球各地的科技領袖、行業專家和創新企業，探討雲計算、大數據、人工智能等前沿技術的發展趨勢和應用場景。作爲領先的向量數據庫技術公司，Zilliz 在本次峯會上展示了最新的

2024-05-30 21:25:17

2024年國內最全面最前沿人工智能理論和實踐資料

引言【導讀】2024第11屆全球互聯網架構大會圓滿結束。會議邀請了100餘位行業內的領軍人物和革新者，大會通過主題演講、實踐案例分享，以及前瞻性的技術討論，探索AI技術的邊界。(最新AI-大模型獲取地址點擊領取) 近日

2024-05-29 22:52:52

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

使用 Spring Cloud Alibaba AI 構建 RAG 應用

作者：姬世文背景介紹 RAG（Retrieval Augmented Generation）檢索增強生成（RAG）是一種用於將數據與人工智能模型集成的技術。在 RAG 工作流程中，第一步將文檔數據加載到矢量數據庫（例如 Redis）中。

2024-05-27 21:13:51

華爲雲大咖說：開發者應用AI大模型的“道、法、術”

本文分享自華爲雲社區《華爲大咖說 | 企業應用AI大模型的“道、法、術” ——道：認知篇》，作者：華爲雲PaaS服務小智。本期核心觀點上車：AGI是未來5～10年內，每個人都無法迴避的技術革命，建議就近上車。迭代：眼下的AI大模型應

2024-05-30 10:58:22

怎麼使用Stable diffusion中的models

Stable diffusion中的models Stable diffusion model也可以叫做checkpoint model，是預先訓練好的Stable diffusion權重，用於生成特定風格的圖像。模型生成的圖像類型取決於訓

2024-05-28 21:38:55

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

24小時熱門文章

最新文章

最新評論文章