卷積神經網絡之Softmax loss

原創

2020-02-25 20:09

卷積神經網絡之Softmax loss

1.Softmax

首先理清從全連接層到損失層之間的計算：

【分析】

這張圖的等號左邊部分就是全連接層做的事，W是全連接層的參數，我們也稱爲權值，X是全連接層的輸入，也就是特徵。從圖上可以看出特徵X是N*1的向量，這是怎麼得到的呢？這個特徵就是由全連接層前面多個卷積層和池化層處理後得到的，假設全連接層前面連接的是一個卷積層，這個卷積層的輸出是100個特徵（也就是我們常說的feature map的channel爲100），每個特徵的大小是4*4，那麼在將這些特徵輸入給全連接層之前會將這些特徵flat成N*1的向量（這個時候N就是100*4*4=1600）。

解釋完X，再來看W，W是全連接層的參數，是個T*N的矩陣，其中N和X的N對應，T表示類別數，比如你的分類數爲7，那麼T就是7。我們所說的訓練一個網絡，對於全連接層而言就是尋找最合適的W矩陣。因此全連接層就是執行WX得到一個T*1的向量（也就是圖中的logits[T*1]），這個向量裏面的每個數都沒有大小限制，也就是從負無窮大到正無窮大。然後如果你是多分類問題，一般會在全連接層後面接一個softmax層，這個softmax的輸入是T*1的向量，輸出也是T*1的向量（也就是圖中的prob[T*1]，這個向量的每個值表示這個樣本屬於每個類的概率），只不過輸出向量的每個值的大小範圍爲0到1。

由此，softmax的輸出向量就是概率，也即該樣本屬於各個類的概率！

那麼softmax執行了什麼操作可以得到0到1的概率呢？先來看看softmax的公式：

$S_{j}=\frac{e^{a_{j}}}{\sum _{k=1}^{T}e^{a_{k}}}$

【公式解析】

前面說過softmax的輸入是WX，假設模型的輸入樣本是I，討論一個3分類問題（類別用1，2，3表示），樣本I的真實類別是2，那麼這個樣本I經過網絡所有層到達softmax層之前就得到了WX，也就是說WX是一個3*1的向量，那麼上面公式中的 $a_{j}$ 就表示這個3*1的向量中的第j個值（最後會得到S1，S2，S3）；而分母中的 $a_{k}$ 則表示3*1的向量中的3個值，所以會有個求和符號（這裏求和是k從1到T，T和上面圖中的T是對應相等的，也就是類別數的意思，j的範圍也是1到T）。因爲 $e^{x}$ 恆大於0，所以分子永遠是正數，分母又是多個正數的和，所以分母也肯定是正數，因此 $S_{j}$ 是正數，而且範圍是(0,1)。如果現在不是在訓練模型，而是在測試模型，那麼當一個樣本經過softmax層並輸出一個T*1的向量時，就會取這個向量中值最大的那個數的index作爲這個樣本的預測標籤。

因此我們訓練全連接層的W的目標就是使得其輸出的WX在經過softmax層計算後其對應於真實標籤的預測概率要最高。

2.Softmax loss

弄懂了softmax，那softmax loss是什麼意思呢? 如下：

$L=-\sum_{j=1}^{T}y_{j}logS_{j}$

首先L是損失。Sj是softmax的輸出向量S的第j個值，前面已經介紹過了，表示的是這個樣本屬於第j個類別的概率。yj前面有個求和符號，j的範圍也是1到類別數T，因此y是一個1*T的向量，裏面的T個值，而且只有1個值是1，其他T-1個值都是0。那麼哪個位置的值是1呢？答案是真實標籤對應的位置的那個值是1，其他都是0。所以這個公式其實有一個更簡單的形式：

$L=-logS_{j}$

當然此時要限定j是指向當前樣本的真實標籤。

【示例】假設一個5分類問題，然後一個樣本I的標籤y=[0,0,0,1,0]，也就是說樣本I的真實標籤是4，假設模型預測的結果概率（softmax的輸出）p=[0.1,0.15,0.05,0.6,0.1]，可以看出這個預測是對的，那麼對應的損失L=-log(0.6)，也就是當這個樣本經過這樣的網絡參數產生這樣的預測p時，它的損失是-log(0.6)。那麼假設p=[0.15,0.2,0.4,0.1,0.15]，這個預測結果就很離譜了，因爲真實標籤是4，而你覺得這個樣本是4的概率只有0.1（遠不如其他概率高，如果是在測試階段，那麼模型就會預測該樣本屬於類別3），對應損失L=-log(0.1)。那麼假設p=[0.05,0.15,0.4,0.3,0.1]，這個預測結果雖然也錯了，但是沒有前面那個那麼離譜，對應的損失L=-log(0.3)。我們知道log函數在輸入小於1的時候是個負數，而且log函數是遞增函數，所以-log(0.6) < -log(0.3) < -log(0.1)。簡單講就是你預測錯比預測對的損失要大，預測錯得離譜比預測錯得輕微的損失要大。

參考資料1：https://blog.csdn.net/u014380165/article/details/77284921

參考資料2：http://eli.thegreenplace.net/2016/the-softmax-function-and-its-derivative/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

卷積神經網絡之Softmax loss

卷積神經網絡之Softmax loss

1.Softmax

2.Softmax loss

通過f-string編寫簡潔高效的Python格式化輸出代碼

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

MQTT 協議

DTU -- 數據傳輸單元

c# Thread、ThreadPool、Task有什麼區別，什麼時候用，以及Task的使用

網絡中的數據通信

async & await 與 task 和 thread

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結