Deep Learning中的Batch Normalization理解

原文作者： author: 張俊林

出處：http://blog.csdn.net/malefactor/article/details/51476961

Batch Normalization作爲最近一年來DL的重要成果，已經廣泛被證明其有效性和重要性。目前幾乎已經成爲DL的標配了，任何有志於學習DL的同學們朋友們雷迪斯俺的詹特曼們都應該好好學一學BN。BN倒過來看就是NB，因爲這個技術確實很NB，雖然有些細節處理還解釋不清其理論原因，但是實踐證明好用纔是真的好，別忘了DL從Hinton對深層網絡做Pre-Train開始就是一個經驗領先於理論分析的偏經驗的一門學問。

如何理解BatchNorm?請參考論文：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift。因爲對於部分基礎不是太好的同學們朋友們雷迪斯俺的詹特曼們可能閱讀理解有一定障礙，所以本文是爲了更容易理解BN而做的一番導讀。由於本人水平也很有限，假設導遊導錯了了路，那麼…….您就認倒黴好了，畢竟這是免費的導遊您說是不，期望別太高，“任何對其它人或者事物報以極高期望的人是這個世界上最不幸福的人”，這是出自我的非名人的名言，所以“降低期望是通向幸福之路”，這也是我的名言。

機器學習領域有個很重要的假設：IID獨立同分布假設，就是假設訓練數據和測試數據是滿足相同分佈的，這是通過訓練數據獲得的模型能夠在測試集獲得好的效果的一個基本保障。而BatchNorm是幹啥的呢？BatchNorm就是在深度神經網絡訓練過程中使得每一層神經網絡的輸入保持相同分佈的。OK，BN講完了，再見。

嗯，這麼講步子邁得有點大，我們放慢腳步，把學習率調小一點，一步一步接近理解BN的最優解。

爲什麼深度神經網絡隨着網絡深度加深，訓練起來越困難，收斂越來越慢？這是個在DL領域很接近本質的好問題。很多論文都是解決這個問題的，比如ReLU激活函數，再比如Residual Network，BN本質上也是解釋並從某個不同的角度來解決這個問題的。

|“Internal Covariate Shift”問題

從論文名字可以看出，BN是用來解決“InternalCovariate Shift”問題的，那麼首先得理解什麼是“Internal Covariate Shift”？

論文首先說明Mini-Batch SGD相對於One Example SGD的兩個優勢：梯度更新方向更準確；並行計算速度快；（本文作者：爲啥要說這些？因爲BatchNorm是基於Mini-Batch SGD的，所以先誇下Mini-Batch SGD，當然也是大實話）；

然後吐槽下SGD訓練的缺點：超參數調起來很麻煩。（本文作者：作者隱含意思是用我大BN就能解決很多SGD的缺點：用了大BN，媽媽再也不用擔心我的調參能力啦）

接着引入covariate shift的概念：如果ML系統實例集合<X,Y>中的輸入值X的分佈老是變，這不符合IID假設啊，那您怎麼讓我穩定的學規律啊，這不得引入遷移學習才能搞定嗎，我們的ML系統還得去學習怎麼迎合這種分佈變化啊。

對於深度學習這種包含很多隱層的網絡結構，在訓練過程中，因爲各層參數老在變，所以每個隱層都會面臨covariate shift的問題，也就是在訓練過程中，隱層的輸入分佈老是變來變去，這就是所謂的“Internal Covariate Shift”，Internal指的是深層網絡的隱層，是發生在網絡內部的事情，而不是covariate shift問題只發生在輸入層。

然後提出了BatchNorm的基本思想：能不能讓每個隱層節點的激活輸入分佈固定下來呢？這樣就避免了“Internal Covariate Shift”問題了。

BN不是憑空拍腦袋拍出來的好點子，它是有啓發來源的：之前的研究表明如果在圖像處理中對輸入圖像進行白化（Whiten）操作的話——所謂白化，就是對輸入數據分佈變換到0均值，單位方差的正態分佈——那麼神經網絡會較快收斂，那麼BN作者就開始推論了：圖像是深度神經網絡的輸入層，做白化能加快收斂，那麼其實對於深度網絡來說，其中某個隱層的神經元是下一層的輸入，意思是其實深度神經網絡的每一個隱層都是輸入層，不過是相對下一層來說而已，那麼能不能對每個隱層都做白化呢？這就是啓發BN產生的原初想法，而BN也確實就是這麼做的，可以理解爲對深層神經網絡每個隱層神經元的激活值做簡化版本的白化操作。

|BatchNorm的本質思想

BN的基本思想其實相當直觀：因爲深層神經網絡在做非線性變換前的激活輸入值（就是那個x=WU+B，U是輸入）隨着網絡深度加深或者在訓練過程中，其分佈逐漸發生偏移或者變動，之所以訓練收斂慢，一般是整體分佈逐漸往非線性函數的取值區間的上下限兩端靠近（對於Sigmoid函數來說，意味着激活輸入值WU+B是大的負值或正值），所以這導致後向傳播時低層神經網絡的梯度消失，這是訓練深層神經網絡收斂越來越慢的本質原因，而BN就是通過一定的規範化手段，把每層神經網絡任意神經元這個輸入值的分佈強行拉回到均值爲0方差爲1的標準正太分佈而不是蘿莉分佈（哦，是正態分佈），其實就是把越來越偏的分佈強制拉回比較標準的分佈，這樣使得激活輸入值落在非線性函數對輸入比較敏感的區域，這樣輸入的小變化就會導致損失函數較大的變化，意思是這樣讓梯度變大，避免梯度消失問題產生，而且梯度變大意味着學習收斂速度快，能大大加快訓練速度。

THAT’S IT。其實一句話就是：對於每個隱層神經元，把逐漸向非線性函數映射後向取值區間極限飽和區靠攏的輸入分佈強制拉回到均值爲0方差爲1的比較標準的正態分佈，使得非線性變換函數的輸入值落入對輸入比較敏感的區域，以此避免梯度消失問題。因爲梯度一直都能保持比較大的狀態，所以很明顯對神經網絡的參數調整效率比較高，就是變動大，就是說向損失函數最優值邁動的步子大，也就是說收斂地快。NB說到底就是這麼個機制，方法很簡單，道理很深刻。

上面說得還是顯得抽象，下面更形象地表達下這種調整到底代表什麼含義。

圖1. 幾個正態分佈

假設某個隱層神經元原先的激活輸入x取值符合正態分佈，正態分佈均值是-2，方差是0.5，對應上圖中最左端的淺藍色曲線，通過BN後轉換爲均值爲0，方差是1的正態分佈（對應上圖中的深藍色圖形），意味着什麼，意味着輸入x的取值正態分佈整體右移2（均值的變化），圖形曲線更平緩了（方差增大的變化）。這個圖的意思是，BN其實就是把每個隱層神經元的激活輸入分佈從偏離均值爲0方差爲1的正態分佈通過平移均值壓縮或者擴大麴線尖銳程度，調整爲均值爲0方差爲1的正態分佈。

那麼把激活輸入x調整到這個正態分佈有什麼用？

首先我們看下均值爲0，方差爲1的標準正態分佈代表什麼含義：

圖2.均值爲0方差爲1的標準正態分佈圖

這意味着在一個標準差範圍內，也就是說64%的概率x其值落在[-1,1]的範圍內，在兩個標準差範圍內，也就是說95%的概率x其值落在了[-2,2]的範圍內。那麼這又意味着什麼？我們知道，激活值x=WU+B,U是真正的輸入，x是某個神經元的激活值，假設非線性函數是sigmoid，那麼看下sigmoid(x)其圖形：

圖3. Sigmoid(x)

及sigmoid(x)的導數爲：G’=f(x)*(1-f(x))，因爲f(x)=sigmoid(x)在0到1之間，所以G’在0到0.25之間，其對應的圖如下：

圖4. Sigmoid(x)導數圖

假設沒有經過BN調整前x的原先正態分佈均值是-6，方差是1，那麼意味着95%的值落在了[-8,-4]之間，那麼對應的Sigmoid（x）函數的值明顯接近於0，這是典型的梯度飽和區，在這個區域裏梯度變化很慢，爲什麼是梯度飽和區？請看下sigmoid(x)如果取值接近0或者接近於1的時候對應導數函數取值，接近於0，意味着梯度變化很小甚至消失。而假設經過BN後，均值是0，方差是1，那麼意味着95%的x值落在了[-2,2]區間內，很明顯這一段是sigmoid(x)函數接近於線性變換的區域，意味着x的小變化會導致非線性函數值較大的變化，也即是梯度變化較大，對應導數函數圖中明顯大於0的區域，就是梯度非飽和區。

從上面幾個圖應該看出來BN在幹什麼了吧？其實就是把隱層神經元激活輸入x=WU+B從變化不拘一格的正態分佈通過BN操作拉回到了均值爲0，方差爲1的正態分佈，即原始正態分佈中心左移或者右移到以0爲均值，拉伸或者縮減形態形成以1爲方差的圖形。什麼意思？就是說經過BN後，目前大部分Activation的值落入非線性函數的線性區內，其對應的導數遠離導數飽和區，這樣來加速訓練收斂過程。

但是很明顯，看到這裏，稍微瞭解神經網絡的讀者一般會提出一個疑問：如果都通過BN，那麼不就跟把非線性函數替換成線性函數效果相同了？這意味着什麼？我們知道，如果是多層的線性函數變換其實這個深層是沒有意義的，因爲多層線性網絡跟一層線性網絡是等價的。這意味着網絡的表達能力下降了，這也意味着深度的意義就沒有了。所以BN爲了保證非線性的獲得，對變換後的滿足均值爲0方差爲1的x又進行了scale加上shift操作(y=scale*x+shift)，每個神經元增加了兩個參數scale和shift參數，這兩個參數是通過訓練學習到的，意思是通過scale和shift把這個值從標準正態分佈左移或者由移一點並長胖一點或者變瘦一點，每個實例挪動的程度不一樣，這樣等價於非線性函數的值從正中心周圍的線性區往非線性區動了動。核心思想應該是想找到一個線性和非線性的較好平衡點，既能享受非線性的較強表達能力的好處，又避免太靠非線性區兩頭使得網絡收斂速度太慢。當然，這是我的理解，論文作者並未明確這樣說。但是很明顯這裏的scale和shift操作是會有爭議的，因爲按照論文作者論文裏寫的理想狀態，就會又通過scale和shift操作把變換後的x調整回未變換的狀態，那不是饒了一圈又繞回去原始的“Internal Covariate Shift”問題裏去了嗎，感覺論文作者並未能夠清楚地解釋scale和shift操作的理論原因。

|訓練階段如何做BatchNorm

上面是對BN的抽象分析和解釋，具體在Mini-Batch SGD下做BN怎麼做？其實論文裏面這塊寫得很清楚也容易理解。爲了保證這篇文章完整性，這裏簡單說明下。

假設對於一個深層神經網絡來說，其中兩層結構如下：

圖5. DNN其中兩層

要對每個隱層神經元的激活值做BN，可以想象成每個隱層又加上了一層BN操作層，它位於X=WU+B激活值獲得之後，非線性函數變換之前，其圖示如下：

圖6. BN操作

對於Mini-Batch SGD來說，一次訓練過程裏面包含m個訓練實例，其具體BN操作就是對於隱層內每個神經元的激活值來說，進行如下變換：

要注意，這裏t層某個神經元的x(k)不是指原始輸入，就是說不是t-1層每個神經元的輸出，而是t層這個神經元的激活x=WU+B，這裏的U纔是t-1層神經元的輸出。

變換的意思是：某個神經元對應的原始的激活x通過減去mini-Batch內m個實例獲得的m個激活x求得的均值E(x)併除以求得的方差Var(x)來進行轉換。

上文說過經過這個變換後某個神經元的激活x形成了均值爲0，方差爲1的正態分佈，目的是把值往後續要進行的非線性變換的線性區拉動，增大導數值，增強反向傳播信息流動性，加快訓練收斂速度。但是這樣會導致網絡表達能力下降，爲了防止這一點，每個神經元增加兩個調節參數（scale和shift），這兩個參數是通過訓練來學習到的，用來對變換後的激活反變換，使得網絡表達能力增強，即對變換後的激活進行如下的scale和shift操作，這其實是變換的反操作：

BN其具體操作流程，如論文中描述的一樣：

過程非常清楚，就是上述公式的流程化描述，這裏不解釋了，直接應該能看懂。

|BatchNorm的推理過程

BN在訓練的時候可以根據Mini-Batch裏的若干訓練實例進行激活數值調整，但是在推理（inference）的過程中，很明顯輸入就只有一個實例，看不到Mini-Batch其它實例，那麼這時候怎麼對輸入做BN呢？因爲很明顯一個實例是沒法算實例集合求出的均值和方差的。這可如何是好？這可如何是好？這可如何是好？

既然沒有從Mini-Batch數據裏可以得到的統計量，那就想其它辦法來獲得這個統計量，就是均值和方差。可以用從所有訓練實例中獲得的統計量來代替Mini-Batch裏面m個訓練實例獲得的均值和方差統計量，因爲本來就打算用全局的統計量，只是因爲計算量等太大所以纔會用Mini-Batch這種簡化方式的，那麼在推理的時候直接用全局統計量即可。

決定了獲得統計量的數據範圍，那麼接下來的問題是如何獲得均值和方差的問題。很簡單，因爲每次做Mini-Batch訓練時，都會有那個Mini-Batch裏m個訓練實例獲得的均值和方差，現在要全局統計量，只要把每個Mini-Batch的均值和方差統計量記住，然後對這些均值和方差求其對應的數學期望即可得出全局統計量，即：

有了均值和方差，每個隱層神經元也已經有對應訓練好的Scaling參數和Shift參數，就可以在推導的時候對每個神經元的激活數據計算NB進行變換了，在推理過程中進行NB採取如下方式：

這個公式其實和訓練時

是等價的，通過簡單的合併計算推導就可以得出這個結論。那麼爲啥要寫成這個變換形式呢？我猜作者這麼寫的意思是：在實際運行的時候，按照這種變體形式可以減少計算量，爲啥呢？因爲對於每個隱層節點來說：

都是固定值，這樣這兩個值可以事先算好存起來，在推理的時候直接用就行了，這樣比原始的公式每一步驟都現算少了除法的運算過程，乍一看也沒少多少計算量，但是如果隱層節點個數多的話節省的計算量就比較多了。

|BatchNorm的好處

BatchNorm爲什麼NB呢，關鍵還是效果好。不僅僅極大提升了訓練速度，收斂過程大大加快，還能增加分類效果，一種解釋是這是類似於Dropout的一種防止過擬合的正則化表達方式，所以不用Dropout也能達到相當的效果。另外調參過程也簡單多了，對於初始化要求沒那麼高，而且可以使用大的學習率等。總而言之，經過這麼簡單的變換，帶來的好處多得很，這也是爲何現在BN這麼快流行起來的原因。

Deep Learning中的Batch Normalization理解

C++ & Python 學習

Deep Learning中的Batch Normalization理解

How to reduce bias and variance ?

Ubuntu16.04 安裝Adobe Flash Player插件

優化算法：指數加權平均

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結