神經網絡學習筆記(三)


    在上一篇文章中提到了神經網絡的結構,但是究竟選擇怎麼樣的神經網絡,怎麼去架構神經網絡,這就要涉及到本節所要討論的問題:信息的表達。如何將獲得的信息在神經網絡中表達,並最終表達出想要的信息。就如同我們看到一件衣服,這件衣服在視網膜上呈現的信息怎麼在大腦的神經網絡中表達出來這就是一件衣服呢。

信息表達:


   神經網絡體系中,可將信息分爲兩大類,第一類是我們預先知道的信息,統計學中的概念叫做先驗知識。第二類是通過一些感知器感知到的信息(比如看到的,聽到的信息)。一般來說,這些感知到的信息構成了神經網絡的輸入輸出,也同時構成了每一個實例。

   這些實例可以是有標籤的或者是沒有標籤的,神經網絡系統需要一組有標籤的實例構成的集合來做訓練樣本。比如手寫數字識別問題,圖像的各個點的像素值構成了神經網絡的輸入,而數字所屬的類別構成了輸出。對應於這個問題的神經網絡構架的輸入層就有與圖像像素點個數相同的節點數作爲輸入,並且輸出節點爲10對應數字的類別總數。其次我們對神經網絡的訓練需要一組標明類別的圖像集合作爲訓練樣本。同樣還需要一組未曾使用過的有標籤的實例來檢驗系統的識別率以及泛化能力。

   信息在神經網絡中的合理表達是架構設計合理的重要依據,除了上述輸入輸出信息的對應,以及特定樣本的選取外。信息的表達還有四個重要的準則:

(1)相似的輸入來自相同的類別應該在神經網絡系統中有相似的表達,並且最終被分入同一個類別。

(2)不同的類的輸入應該在神經網絡中表達出很大的不同。
   其實第二個準則是第一個準則的對偶準則。最大的類間距等價於最小的類內距:這是大津法,SVM的基礎。

(3)如果該問題有一個特徵是非常重要的,那應該該架構中有很多的神經元有這個特徵的表達有關。

(4)先驗知識以及不變量在需要的時候應該設計到網絡中,可以簡化神經網絡
   第四個準則是非常重要的,因爲正是由於這個準則產生了特殊的網絡結構。由於以下原因這個準則也是非常需要的
        1、生物視覺以及聽覺的網絡是非常專業特殊的
        2、特殊結構的神經網絡一般會有更少的自由參數需要訓練
        3、信息轉化的速率更高
        4、特殊的神經網絡的開銷更小

如何將先驗知識引入到神經網絡中


  並沒有統一的規則如何把先驗知識引入到神經網絡架構中去,但卻有一些成功的案例,比如LeCun最先構架的卷積神經網絡(CNN)。簡單來說,CNN主要用了兩種技術手段:1、通過感受域的概念限制神經網絡的結構;2、通過權重共享限制權重的選擇。通過這兩種技術手段自由參數的數量被大幅度縮減,並且在識別結果上也有了提升。具體架構如下圖所示
               
   
   如上圖所示,前六個節點x1x6構成了第一個隱藏層第一個節點的感受域,以此類推其他節點的感受域。從架構的角度來看神經元與神經元直接的連接少了,部分簡化了神經網絡。爲了滿足權重共享的限制,第一個隱藏層的每一個節點將使用同樣的權重參數

              

  輸入層與第一層隱藏層雖然有24個連接,但是隻有6個權重參數,大大簡化了神經網絡。上述公式爲卷積和的一個形式,所以這樣的神經網絡叫做卷積神經網絡。

如何引入不變量到神經網絡的構架中:

(1)通過結構引入不變量
  舉個例子,同一幅圖片可能會有不同的旋轉變換,構造的神經網絡希望可以有這樣的特性,不同旋轉變換的輸入會在神經元作用後有同樣的輸出。那麼可以通過網絡的結構來加強旋轉不變形:在像素i與k與中心像素的距離相同的情況下wji=wjk這樣就滿足了旋轉不變性的要求。然而爲了保持旋轉不變性,當像素與中心點距離一樣的時候,這些點的權重被一遍一遍的重複。
 
(2)通過訓練引入不變量
  針對上述旋轉不變性的問題,還可以使用訓練同一個樣本不同的旋轉情況來滿足;但是也會有一些問題,有些情況的樣本旋轉經過訓練可以識別,但是有些情況沒有經過訓練,就有可能無法識別,不同樣本的旋轉情況也有可能無法識別。

(3)不變的特徵空間

  這種方法很容易理解,就是先通過一些可以表徵不變性特點的特徵提取算子來提取特徵,隨後再用這些特徵構成輸入進行神經網絡的構架。










發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章