(2012)ImageNet Classification with Deep CNN

3.1 ReLU Nonlinearity
使用relu作爲激活函數要比sigmoid和tanh(雙曲正切)函數收斂的快

3.3 局部響應歸一化
對局部神經元的活動創建競爭機制，使響應大的變得更大，並抑制其他反饋較小的神經元，可以降低top1 top5的錯誤率

3.4 重疊池化
池化的邊界相互重疊，可以降低過擬合的情況

4 減少過擬合的兩種方法：Data Augmentation和Dropout
4.1 Data Aug
（1）使用卷積和抽取圖片，可以增加處理圖片的數量，獲取更多特徵
（2）改變訓練圖片RGB的通道強度，需要使用RGB像素值得協方差矩陣

4.2 Dropout
每一次輸入會隨機放棄隱藏層節點，使其輸出爲0，以減小網絡，所以每一次輸入後的網絡結構都不同，所有結構共享權重矩陣

卷積層（Convolutional layer），卷積神經網路中每層卷積層由若干卷積單元組成，每個卷積單元的參數都是通過反向傳播算法優化得到的。卷積運算的目的是提取輸入的不同特徵，第一層卷積層可能只能提取一些低級的特徵如邊緣、線條和角等層級，更多層的網絡能從低級特徵中迭代提取更復雜的特徵。

線性整流層（Rectified Linear Units layer, ReLU layer），這一層神經的活性化函數（Activation function）使用線性整流（Rectified Linear Units, ReLU）f(x)=max(0,x)f(x)=max(0,x)。

池化層（Pooling layer），通常在卷積層之後會得到維度很大的特徵，將特徵切成幾個區域，取其最大值或平均值，得到新的、維度較小的特徵。

全連接層（ Fully-Connected layer）, 把所有局部特徵結合變成全局特徵，用來計算最後每一類的得分。

Top-1 = （正確標記與模型輸出的最佳標記不同的樣本數）/ 總樣本數；
Top-5 = （正確標記不在模型輸出的前5個最佳標記中的樣本數）/ 總樣本數；