baseline needs more love 簡單網絡vs複雜網絡（1）——baseline

（一）背景

說到baseline和art of start，做建模的同學應該都不會陌生吧，最近關於機器學習和深度學習的爭執也是越來越多，其中就不乏會有人認爲，其實深度學習能夠做到的事情，機器學習也可以做到，還可以少花費一些時間來訓練模型，計算資源的要求也會低一些，可是事實上到底是怎樣的呢？baseline needs more love這篇論文(ACL2018)中就做了相關的實驗來進行證明。

說到NLP問題，文檔分類，文本序列匹配和句子分類是三大類常見的任務，但是不論是哪種任務，詞向量就是不得不提的，詞向量作用呢就是使用詞向量將一個變長文本表示成一個固定向量，而現在在進行處理詞向量的時候，一般的做法就是使用DNN大法，詞向量爲輸入，使用一個複雜的神經網絡（CNN，RNN 等）來進行文本表示學習（爲了方便描述，以下稱爲複雜模型）；但是除了使用複雜網絡以外，還有一種簡單的方法，那就是在詞向量的基礎上，直接簡單的使用按元素求均值或者相加的簡單方法來表示（爲了方便描述，以下稱爲簡單模型）。到底是哪個方法的效果比較好呢？使用簡單的方法是否能夠達到和複雜方法一樣的效果呢？這就是這篇論文主要的工作內容。

（二）實驗設計

1）先來看一下作者進行實驗的時候使用的簡單模型吧：

簡單的講，以上四個簡單模型可以總結爲如下：

SWEM-aver：平均池化，對詞向量的按元素求均值。這種方法相當於考慮了每個詞的信息。

SWEM-max：最大池化，對詞向量每一維取最大值。這種方法相當於考慮最顯著特徵信息，其他無關或者不重要的信息被忽略。

SWEM-concat：考慮到上面兩種池化方法信息是互補的，這種變體是對上面兩種池化方法得到的結果進行拼接。SWEM-hier：上面的方法並沒有考慮詞序和空間信息，提出的層次池化先使用大小爲 n 局部窗口進行平均池化，然後再使用全局最大池化。該方法其實類似我們常用的 n-grams 特徵。

2）簡單的總結一下實驗中使用到的模型如下：