神經網絡（Neural Networks）

1.簡介

一般的迴歸和分類方式是基於線性模型，也就是固定的非線性的基函數（basis function）的線性組合，形式如下：

其中，如果f（.）是非線性的激活函數（activation function），這就是一個分類模型；如果f（.）是恆等函數（identity），則是迴歸模型。

根據自己的認識，我認爲神經網絡就是多層這樣的模型的疊加，並引入非線性的activation function，提高模型的整體能力（因爲每一個隱藏層可以對上一層的輸出進行非線性變換，因此深度神經網絡擁有比“淺層”網絡擁有更加優異的表達能力）。神經網絡的計算量相比於其他的迴歸和分類模型比較大，在早期並沒有受到研究者的重視，隨機近幾年計算機設備的性能提升從而受到廣泛的關注，也誕生了新的領域Deep learning。

上圖是簡單的三層神經網絡，其中，相鄰層之間是全聯通的（即下一層的輸入是上一層所有結點的線性組合），當然也有不是全聯通的網絡，典型代表是卷積神經網絡（CNN），CNN在計算機視覺領域取得比較的成果，由於圖像的維度比較高，如果採用全聯通結構會導致模型會有非常多的參數，使得模型變得非常複雜。另外，一般情況下hidden layer 的結點數目會比input layer和output layer的結點多（稀疏自動編碼，是一種hidden layer的結點數比其他的小，而input layer 和 output layer的結點數相同）。

此外，神經網絡也可以分爲監督神經網絡和非監督神經網絡，我們比較熟悉的是監督神經網絡，該模型可以處理分類，迴歸問題；非監督神經網絡最典型的的就是稀疏自編碼器（Sparse Autoencoder）。

神經網絡主要有三部分構成：正反饋（Feedforward），代價函數（cost function）,反向傳播（Backpropagation），下面從這三部分介紹神經網絡。

2.正反饋（Feedforward）

正反饋比較簡單，計算過程可見上圖。簡單介紹下激勵函數（activation function），最常用是sigmoid數和tanh函數。

sigmoid函數：

tanh函數：

這個兩個函數的特性就是它的導數比較特別，方面後面的計算。Sigmoid函數的導數是，tanh函數的導數是。

3.代價函數（cost function）

在線性迴歸中，我們使用sum-of-square cost function，在這裏我們同樣可以使用，代價函數爲：

接下來，我們需要找到某個w使得代價函數最小。在迴歸問題中，我們可以得到參數w的解析解，但在該問題中由於activation function是非線性的，E(w)是一個非凸函數，我們無法得到解析解，但可通過迭代優化方法求解。

我們最熟悉的梯度下降（gradient descent），用梯度信息來更新參數w，每一次迭代按如下公式更新：

這是batch gradient descent，該方法的缺點是比較time-consuming，每更新一次參數需要計算整個數據集的數據。對於這種batch optimization，更高效的方法是共軛梯度（conjugate gradients）和擬牛頓（quasi-newton），這兩種方法每次迭代cost function都會減小，除非w已經是局部或者全局最小值，這個和梯度下降不同。

另外一種是on-line 的方法，假設所有的觀測值都是獨立的，cost function 有每一個數據的cost組成：