一文看懂神經網絡剪枝算法

1. 問題敘述
  心血來潮寫點最近做的成果,主要分成兩個博客來進行闡述。研究生上了一年半看了不少關於剪枝神經網絡方面的文章,但是有很少的文章能讓人感覺到耳目一新,打通了任督二脈的感覺。前段時間看到了一個剪枝算法就有這種感覺。和大家分享下。
  全連接神經網絡在很多方面都用的很多,這我就不贅述了,全連接有很強的逼近能力但是很容易導致過擬合。所以 機器學習與模式識別最核心的問題就是減小系統的複雜度(description -length【1】,VC-dimensions【2】),在神經網絡中,這樣的核心問題就變成了減少連接權值的數量。
  減小模型複雜度方面,很常見的方法是在損失函數後面加上懲罰項

這裏寫圖片描述

  爲了是模型複雜度減小,通常使用2範數【3】
這裏寫圖片描述

  但是2範數誤差使權值和閾值稀疏化,進而使用1範數對權值和閾值進行懲罰
這裏寫圖片描述

  進而陸續有很多關於懲罰項的改進【4】【5】【6】,接下來我要闡述的算法是OBS算法,很簡單,並且很容易實現,效果顯著。
2. OBS算法詳述【7】
  OBS算法是一種基於Hessian矩陣的網絡修剪算法,首先,構造誤差曲面的一個局部模型,分析權值的擾動所造成的影響。
  通過對誤差函數進行Taylor展開
這裏寫圖片描述

H爲Hessian矩陣,T表示矩陣的轉置,w爲神經網絡中的參數(包括權值和閾值),E爲訓練集的訓練誤差,訓練神經網絡用任意的優化算法,該剪枝算法都是適用的。通過優化算法(如L-M算法)得到一個局部最小點,則上式第一項爲0,忽略第三項高階無窮小項。可以得到
這裏寫圖片描述

該方法通過將其中一個權值置爲0,從而可以寫成

這裏寫圖片描述

這裏寫圖片描述爲單位向量,只有在第q項爲1其他的項爲0。
當其中一個權值或者是閾值置爲0時,使這裏寫圖片描述最小,可以得到
這裏寫圖片描述

通過拉格朗日乘子法,可以將有約束優化問題轉化爲無約束優化問題,
這裏寫圖片描述

這裏寫圖片描述爲拉格朗日乘子,通過對函數這裏寫圖片描述求偏導,可以得到這裏寫圖片描述
這裏寫圖片描述導致誤差的變化爲
這裏寫圖片描述

算法流程圖如下
這裏寫圖片描述

3. 感想
  1.OBS算法的全稱爲optimal brain surgeon,翻譯成中文就是最優外科手術,表面的意思就是該方法是和神經網絡過程是分開的。
  2.該方法是一種框架,只要是模型能求出參數的梯度,那麼都可用這個方法進行稀疏化。
4. 例子
   y=sin(x) 生成100個樣本,然後隨機生成(0,1)的噪聲加到乾淨的樣本上
A: 用全連接神經網絡對y=sin(x)函數近似,如圖,隱層節點爲17個
這裏寫圖片描述

B:通過剪枝算法得到的網絡爲
這裏寫圖片描述

通過人爲化簡爲
這裏寫圖片描述

從上圖可以看出,全連接神經網絡用來對函數y=sin(x)進行逼近只需要4個隱層節點,所以該算法可以將多餘的隱層節點去掉,並且可以進行特徵選擇,將噪聲去掉。
5. 引用
[1] Barron, A., Rissanen, J., & Yu, B. (1998). The minimum description length principle in coding and modeling. IEEE Transactions on Information Theory, 44(6), 2743-2760.
[2] Vapnik, V. N., & Chervonenkis, A. Y. (2015). On the uniform convergence of relative frequencies of events to their probabilities Measures of complexity (pp. 11-30): Springer.
[3] Chow, M.-Y., & Teeter, J. (1994). An analysis of weight decay as a methodology of reducing three-layer feedforward artificial neural networks for classification problems. Paper presented at the Neural Networks, 1994. IEEE World Congress on Computational Intelligence., 1994 IEEE International Conference on.
[4] Weigend, A. S., Rumelhart, D. E., & Huberman, B. A. (1991). Generalization by weight-elimination with application to forecasting. Paper presented at the Advances in neural information processing systems.
[5] Hoyer, P. O. (2004). Non-negative matrix factorization with sparseness constraints. Journal of machine learning research, 5(Nov), 1457-1469.
[6] Zeng, H., & Trussell, H. J. (2010). Constrained dimensionality reduction using a Mixed-Norm penalty function with neural networks. IEEE Transactions on Knowledge and Data Engineering, 22(3), 365-380.
[7] Hassibi, B., & Stork, D. G. (1993). Second order derivatives for network pruning: Optimal brain surgeon. Paper presented at the Advances in neural information processing systems.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章