A holistic approach to semi-supervised learning

Berthelot D, Carlini N, Goodfellow I, et al. Mixmatch: A holistic approach to semi-supervised learning[J]. arXiv preprint arXiv:1905.02249, 2019.
https://github.com/samihaija/mixhop

半監督學習的核心想法是利用無標註的數據來減輕對有標數據的需求。正則項可分爲三類:一致性正則化、熵最小化和傳統正則化。本文結合了這三種正則,消融實驗表明MixMatch效果好於三個正則項每部分提升之和。

正則項

一致性正則化

分類器對於數據增強後的的數據的分類分佈應該與之前的類別分佈一樣:
P(yAugment(x);θ)p(yx)22||P(y|Augment(x);\theta)-p(y|x)||^2_2

熵最小化

分類器的決策邊界不應該穿過數據邊緣分佈的高密度區域:

  • 顯式的對unlabeled data加入P(yx,θ)P(y|x,\theta)的熵作爲損失函數
  • 使用“sharpening”函數來隱式地實現熵的最小化

傳統正則化

傳統的正則化項位 L2 範數。本文的優化方法爲Adam算法,使用權值衰減來替代L2損失項。

MixMatch

使用 MixMatch 生成數據,有標籤的數據X和等量的無標數據U,和超參數:銳化(“sharpening”)參數T、對於無標數據強化K次和 Mixup 的參數α\alpha
在這裏插入圖片描述

sharpening:

sharpen(p,T)i=pi1Tj=1Lpj1Tsharpen(p,T)_i=\frac{p_i^{\frac{1}{T}}}{\sum_{j=1}^{L}p_j^{\frac{1}{T}}}

MixUp

λ=Beta(α,α)\lambda=Beta(\alpha, \alpha)

λ=max(λ,1λ)\lambda^’=max(\lambda,1-\lambda)

x=λx1+(1λ)x2x’=\lambda^’x_1+(1-\lambda^’)x_2

p=λp1+(1λ)p2p’=\lambda^’p_1+(1-\lambda^’)p_2

loss

X,U=MixMatch(X,U,T,K,α)X’,U’=MixMatch(X , U, T, K, \alpha)

LX=1Xx,pXH(p,pmodel(yx;θ))L_X=\frac{1}{|X’|}\sum_{x,p\in X’}H(p, p_{model}(y|x; \theta))

LU=1LUu,qUqpmodel(yx;θ)22L_U = \frac{1}{L|U’|}\sum_{u,q\in U’}||q-p_{model}(y|x; \theta)||^2_2

L=LX+λULUL=L_X+\lambda_UL_U

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章