AlexNet 論文拜讀:ImageNet Classification with Deep Convolutional Neural Networks

AlexNet原文鏈接:http://www.cs.toronto.edu/~fritz/absps/imagenet.pdf

0 摘要

我們訓練了一個大型的深度卷積神經網絡,將 ImageNet LSVRC-2010 競賽中的120萬張高分辨率圖像分類到1000個不同的類中。在測試數據上,我們獲得了前1名和前5名的錯誤率,分別爲37.5%37.5\%17.0%17.0\%,大大優於之前的水平。該神經網絡有6000萬個參數和65萬個神經元,由5個卷積層和3個全連接層組成,其中一些卷積層後面是 max-pooling 層,最後是1000-way softmax層。爲了使訓練更快,我們使用了非飽和神經元和一個非常高效的GPU實現卷積運算。爲了減少全連通層的過擬合,我們採用了一種最近開發的正則化方法,稱爲"dropout",它被證明是非常有效的。我們還在 ILSVRC-2012 比賽中輸入了該模型的一個變體,並獲得了15.3%15.3\%的前5名測試錯誤率,相比之下,第二名獲得了26.2%26.2\%的錯誤率。

1 介紹

目前的目標識別方法主要使用機器學習方法。爲了提高它們的性能,我們可以收集更大的數據集,學習更強大的模型,並使用更好的技術來防止過度擬合。直到最近,標記圖像的數據集相對較小,只有數萬個圖像的數量級(如NORB[16]、Caltech-101/256[8,9]和CIFAR-10/100[12])。使用這種大小的數據集可以很好地解決簡單的識別任務,特別是如果用保存標籤的轉換來擴展它們。例如,MNIST數字識別任務的當前最佳錯誤率(0.3%0.3\%)接近人類性能[4]。但是,在現實環境中,物體表現出相當大的可變性,因此,爲了學會識別它們,有必要使用更大的訓練集。事實上,小圖像數據集的缺點已經得到了廣泛的認識(例如,Pinto等人的[21]),但直到最近纔有可能收集具有數百萬張圖像的標記數據集。新的更大的數據集包括LabelMe[23],它由數十萬張完全分割的圖像組成,和ImageNet[6],它由超過22000個類別的超過1500萬張標記的高分辨率圖像組成。

要從數以百萬計的圖像中瞭解成千上萬的物體,我們需要一個具有巨大學習能力的模型。然而,對象識別任務的巨大複雜性意味着即使像ImageNet這樣大的數據集也無法指定這個問題,因此我們的模型還應該具有大量的先驗知識來補償我們沒有的所有數據。卷積神經網絡(Convolutional neural networks, CNNs)就是這樣一類模型[16,11,13,18,15,22,26]。它們的能力可以通過改變深度和廣度來控制,它們還對圖像的本質(即統計的平穩性和像素依賴性的局部性)做出了強有力且基本正確的假設。因此,與具有類似大小層的標準前饋神經網絡相比,CNNs具有更少的連接和參數,因此更容易訓練,而其理論上最好的性能可能只會稍微差一些。

儘管CNNs的質量很吸引人,儘管它們的本地架構相對高效,但在高分辨率圖像上大規模應用它們的成本仍然高得令人望而卻步。幸運的是,目前的gpu與高度優化的2D卷積實現相結合,已經足夠強大,可以方便地訓練有趣的大型CNNs,而且最近的數據集(如ImageNet)包含了足夠多的標記示例,可以訓練這樣的模型,而不會出現嚴重的過擬合問題。

本文的具體貢獻如下:我們對在 ILSVRC-2010 和 ILSVRC-2012 比賽[2]中使用的 ImageNet 的子集進行了迄今爲止最大的卷積神經網絡之一的訓練,並取得了迄今爲止在這些數據集上報道過的最好的結果。我們編寫了一個高度優化的GPU實現的2D卷積和所有其他操作的固有訓練卷積神經網絡,並公開提供http://code.google.com/p/cuda-convnet/。我們的網絡包含許多新的和不尋常的特性,這些特性提高了它的性能並減少了它的訓練時間,這些特性在第3節中詳細介紹。我們的網絡的規模使得過度擬合成爲一個重要的問題,即使有120萬個標記的訓練示例,所以我們使用了一些有效的技術來防止過度擬合,這些技術將在第4節中描述。我們最終的網絡包含5個卷積層和3個全連接層,這個深度似乎很重要:我們發現去掉任何卷積層(每個卷積層包含的model s參數不超過1%1\%)都會導致性能下降。

最後,網絡的大小主要受到當前 GPUs 上可用內存的大小和我們願意忍受的訓練時間的大小的限制。我們的網絡需要5到6天的時間在兩個GTX 580 3GB GPUs 上進行培訓。我們所有的實驗都表明,只要等待更快的 GPUs 和更大的數據集可用,我們的結果就可以得到改善。

2 數據集

ImageNet 是一個包含超過1500萬張高分辨率圖像的數據庫,屬於大約22000個類別。這些圖片是從網上收集的,並由人類貼標籤者使用亞馬遜的土耳其機械衆包工具進行標記。從2010年開始,作爲Pascal視覺對象挑戰賽的一部分,每年都會舉辦一場名爲ImageNet大型視覺識別挑戰賽(ILSVRC)的競賽。ILSVRC使用ImageNet的一個子集,每個類別大約有1000張圖片。總共大約有120萬張訓練圖像、5萬張驗證圖像和15萬張測試圖像。

ILSVRC-2010是測試集標籤可用的唯一ILSVRC版本,因此這是我們進行大多數實驗的版本。因爲我們也在ILSVRC-2012競賽中加入了我們的模型,所以在第6節中,我們也報告了這個版本的數據集的結果,這個版本的測試集標籤是不可用的。在ImageNet上,通常報告兩個錯誤率:top 1 和 top 5,其中top 5錯誤率是測試圖像的一部分,其中正確的標籤不在模型認爲最可能的五個標籤中。

ImageNet由可變分辨率的圖像組成,而我們的系統需要一個恆定的輸入維數。因此,我們將圖像採樣到一個固定的分辨率256 x 256。給定一個矩形圖像,我們首先重新調整圖像,使其短邊長度爲256,然後從生成的圖像中裁剪出中心的256 x 256塊。我們沒有以任何其他方式對圖像進行預處理,除了從每個像素減去訓練集上的平均活動。所以我們訓練我們的網絡在像素的原始RGB值(居中)。

3 架構

我們的網絡架構如 Figure 2 所示。它包含八個學習層,五個卷積層和三個全連接層。下面,我們將描述我們的網絡架構的一些新穎或不尋常的特性。章節 3.1-3.4 根據我們對其重要性的估計進行排序,最重要的放在第一位。

3.1 ReLU 非線性

將神經元的輸出 ff 作爲其輸入x的函數進行建模的標準方法是f(x)=tanh(x)f(x) = tanh(x)f(x)=(1+ex)1f(x)=(1+e^{-x})^{-1}。在梯度下降訓練時間方面,這些飽和非線性比非飽和非線性f(x)=max(0,x)f(x) = max(0,x);在Nair和Hinton[20]之後,我們將具有這種非線性的神經元稱爲 Rectified Linear Units(ReLUs)。使用ReLUs的深度卷積神經網絡的訓練速度比使用tanh單元的訓練速度快幾倍。Figure 1 展示了在一個特定的四層卷積網絡中,在CIFAR-10數據集上達到 25%25\% 的訓練誤差所需的迭代次數。這張圖表明,如果我們使用傳統的飽和神經元模型,我們就無法用這麼大的神經網絡進行實驗。

圖1:使用ReLUs(實線)的四層卷積神經網絡在CIFAR-10上達到25%的訓練錯誤率,比使用tanh神經元(虛線)的同等網絡快六倍。每個網絡的學習率都是獨立選擇的,以使訓練儘可能快。沒有任何形式的正規化。這裏演示的效果的大小隨網絡結構的不同而不同,但是使用ReLUs的網絡始終比使用飽和神經元的網絡學習速度快幾倍。

我們不是第一個在CNNs中考慮替代傳統神經元模型的人。例如,Jarrett et al.[11]聲稱非線性f(x)=tanh(x)f(x) = |tanh(x)| 特別適用於他們在Caltech-101數據集上的對比歸一化以及隨後的局部平均池化。然而,在這個數據集上,主要關注的是防止過度擬合,因此他們觀察到的效果與我們在使用ReLUs時報告的加速適應訓練集的能力不同。快速學習對在大型數據集上訓練的大型模型的性能有很大的影響。

3.2 多個GPUs上訓練

一個單獨的GTX 580 GPU只有3GB的內存,這限制了可以在其上訓練的網絡的最大大小。事實證明,120萬個訓練樣本就足以訓練出一個GPU無法容納的龐大網絡。因此,我們將網絡分佈在兩個GPU上。當前的GPU特別適合於跨GPU並行,因爲它們可以直接讀寫彼此的內存,而不需要經過主機內存。我們採用的並行方案實際上是將一半的內核(或神經元)放在每個GPU上,還有一個額外的技巧:GPU只在特定的層中通信。這意味着,例如,第3層的內核從第2層的所有內核映射中獲取輸入。然而,第4層的內核只從位於同一GPU的第3層內核映射中獲取輸入。選擇連接模式對於交叉驗證來說是一個問題,但是這允許我們精確地調整通信量,直到它是計算量中可接受的一部分。

合成體繫結構有點類似於Ciresan et al. 的"columnar" CNN。[5],除了我們的列不獨立(參見Figure 2)。該方案減少了我們(和前5錯誤率1.7%1.7\%1.2%1.2\%,分別比淨一半的內核在每個卷積層對準一個GPU。雙GPU網絡的訓練時間比單GPU網絡略短。(一個GPU網絡在最後一層的內核數量與兩個GPU網絡相同。這是因爲大多數網絡的參數都在第一個全連接層中,該層以最後一個卷積層作爲輸入。因此,爲了使兩個網具有大致相同的參數數量,我們沒有將最終卷積層的大小減半(也沒有將隨後的全連接層的大小減半)。因此,這種比較偏向於單GPU網絡,因爲它比雙GPU網絡的一半大。)

3.3 局部響應歸一化

ReLUs有一個理想的特性,即不需要對輸入進行歸一化,以防止其飽和。如果至少有一些訓練的例子對ReLU產生了積極的輸入,學習就會發生在那個神經元上。但是,我們仍然發現以下局部歸一化方案有助於泛化。用ax,yia_{x,y}^i表示將內核 ii 應用於(x,y)(x,y);然後應用ReLU非線性,響應歸一化的活動bi x;y由表達式給出
bx,yi=ax,yi/(k+αj=max(0,in/2)min(N1,i+n/2)(ax,yi)2)b_{x,y}^i=a_{x,y}^i/(k+\alpha\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}(a_{x,y}^i)^2)
^-^markdown輸入公式還是不太熟練,但慢慢在進步了 ^-^

其中,和在相同的空間位置上運行在 nn 個"相鄰"的內核映射上,NN 是該層中內核的總數。內核映射的順序當然是任意的,在訓練開始之前就已經確定了。這種反應歸一化實現了一種形式的橫向抑制,其靈感來自於真實神經元的類型,在使用不同覈計算的神經元輸出之間創造了對大型活動的競爭。常數k,n,αk,n,\alphaββ超參數決心通過一組驗證的值;我們使用k=2,n=5,α=104,β=0.75k = 2,n = 5,α= 10^4,β= 0.75。在對某些層應用ReLU非線性之後,我們應用了這種歸一化(參見3.5節)。

這個方案與Jarrett et al.[11]的局部對比歸一化方案有一些相似之處,但是我們的方案更準確地稱爲亮度歸一化,因爲我們沒有減去平均活動。響應規範化使我們的前1名和前5名錯誤率分別降低了1.4%1.4\%1.2%1.2\%。我們還在CIFAR-10數據集上驗證了該方案的有效性:一個四層CNN在不進行歸一化的情況下測試錯誤率爲13%13\%,在進行歸一化的情況下測試錯誤率爲11%11\%。(由於空間限制,我們無法詳細描述這個網絡,但它是由以下代碼和參數文件指定的:http://code.google.com/p/cuda-convnet/。)

3.4 重疊池化

CNNs中的池化層總結了同一內核映射中相鄰神經元組的輸出。傳統上,相鄰的共用單元彙總的鄰區不重疊(如[17,11,4])。更準確地說,一個池化層可以被認爲是由一個間隔爲 ss 像素的池化單元網格組成,每個網格彙總一個大小爲 z×zz × z 的以池化單元位置爲中心的鄰域。如果我們設 s=zs = z,我們可以得到CNNs中常用的傳統局部池化。如果我們設置 s<zs < z,我們得到重疊池化。這是我們在整個網絡中使用的,s=2s = 2z=3z = 3。與生成等效維度的輸出的不重疊方案s=2,z=2s = 2,z=2相比,該方案將top-1和top-5的錯誤率分別降低了#0.4%$和0.3%0.3\%。我們通常在訓練過程中觀察到,具有重疊池化的模型發現過度擬合稍微困難一些。

3.5 整體架構

現在我們準備描述CNN的整體架構。如Figure 2所示,該網絡包含8個帶有權重的層,前5個是卷積的,其餘3個是完全連接的。最後一個全連接層的輸出被饋送到一個1000-way 的softmax,產生一個超過1000個類標籤的分佈。我們的網絡最大化了多項式邏輯迴歸目標,這等價於最大化了預測分佈下正確標籤的對數概率的訓練情形的平均值。

第二層、第四層和第五層卷積層的內核只連接到前一層駐留在同一GPU上的內核映射(參見Figure 2)。第三個卷積層的內核連接到第二層的所有內核映射。在完全連接層的神經元連接到前一層的所有神經元。響應歸一化層在第一和第二卷積層之後。最大池化層(如3.4節所述)既遵循響應歸一化層,也遵循第五個卷積層。每個卷積和全連接層的輸出都採用 ReLU 非線性。

第一卷積層對大小爲11×11×311×11×3、步幅爲4個像素的96個內核的224×224×3224×224×3輸入圖像進行濾波(這是在內核映射中相鄰神經元的感受野中心之間的距離。)第二卷積層將第一卷積層的輸出(響應歸一化和池化)作爲輸入,用大小爲5×5×485×5×48的256個內核進行過濾。第三、第四和第五個卷積層相互連接,而不需要任何池化或歸一化層。第三個卷積層有384個大小爲3×3×2563×3×256的內核連接到第二個卷積層的輸出(歸一化、合併)。第4個卷積層有384個大小爲3×3×1923×3×192的內核,第5個卷積層有256個大小爲3×3×1923×3×192的內核。全連接層各有4096個神經元。

4 減少過擬合

我們的神經網絡結構有6000萬個參數。儘管ILSVRC的1000個類使得每個訓練示例對從圖像到標籤的映射施加10位的約束,但這並不足以在不進行大量過擬合的情況下學習這麼多參數。下面,我們將描述兩種主要的方法來對抗過度擬合。

4.1 數據增強

減少圖像數據過擬合的最簡單和最常見的方法是使用保存標籤的轉換(例如,[25,4,5])來人爲地擴大數據集。我們採用了兩種不同的數據增強形式,這兩種方法都允許從原始圖像生成轉換後的圖像,並且只需要很少的計算,因此轉換後的圖像不需要存儲在磁盤上。在我們的實現中,轉換後的圖像是用Python代碼在CPU上生成的,而GPU則在前一批圖像上進行訓練。因此,這些數據擴充方案實際上是無需計算的。

數據增強的第一種形式包括生成圖像平移和水平反射。我們從256 x 256 圖像中隨機抽取224 x 224個補丁(及其水平反射),並在這些補丁上訓練我們的網絡(這就是爲什麼Figure 2中的輸入圖像是224×224×3維的原因)。這將我們的訓練集的大小增加了2048倍,儘管由此產生的訓練示例當然是高度相互依賴的。如果沒有這個方案,我們的網絡將遭受嚴重的過擬合,這將迫使我們使用更小的網絡。在測試時,網絡通過提取5個224 x 224個補丁(四個角補丁和中心補丁)及其水平反射(總共10個補丁),並對網絡的 softmax 層在這10個補丁上的預測進行平均,從而做出預測。

數據增強的第二種形式是改變訓練圖像中RGB通道的強度。具體來說,我們在整個ImageNet訓練集中對RGB像素值集執行PCA。對於每個訓練圖像,我們將找到的主成分的倍數加上與相應的特徵值成比例的大小乘以一個隨機變量從一個均值爲零,標準差爲0.1的高斯分佈中得出。因此,對每個RGB圖像像素Ixy=[IxyR,IxyG,IxyB]TI_{xy}=[I_{xy}^R,I_{xy}^G,I_{xy}^B]^T 我們添加以下量:
[p1,p2,p3][α1λ1,α2λ2,α3λ3]T[p_1,p_2,p_3][\alpha_1\lambda_1,\alpha_2\lambda_2,\alpha_3\lambda_3]^T
這裏的pip_iλi\lambda_i分別是第ii個特徵向量和RGB像素值的3×3協方差矩陣的特徵值,並且αi\alpha_i是前面提到的隨機變量,每一個αi\alpha_i只對特定訓練圖像的所有像素繪製一次,直到該圖像再次用於訓練爲止,此時將重新繪製該圖像。該方案近似地捕獲了自然圖像的一個重要屬性,即對象標識不隨光照強度和顏色的變化而變化。該方案將最高錯誤率降低了1%1\%以上。

4.2 Dropout

結合許多不同模型的預測是一種非常成功的減少測試錯誤的方法[1,3],但是對於已經需要幾天訓練的大型神經網絡來說,它似乎太昂貴了。然而,有一個非常有效的模型組合版本,在訓練期間只需要花費大約兩倍的成本。最近介紹的技術稱爲“dropout”[10],它將每個隱藏神經元的輸出設置爲0,輸出的概率爲0.5。以這種方式丟棄的神經元不參與正向傳遞,也不參與反向傳播。所以每次輸入時,神經網絡都會對不同的結構進行採樣,但是所有這些結構都共享權重。這種技術減少了神經元之間複雜的協同適應,因爲神經元不能依賴於特定的其他神經元的存在。因此,它被迫學習與其他神經元的許多不同隨機子集一起使用的更健壯的特徵。在測試時,我們使用所有的神經元,但將它們的輸出乘以0.5,這是一個合理的近似值,接近於取由指數多的dropout網絡產生的預測分佈的幾何平均值。

我們在Figure 2的前兩個完全連接的層中使用了dropout。沒有dropout,我們的網絡顯示出大量的過擬合。Dropout大致是收斂所需迭代次數的兩倍。

5 學習的細節

我們使用隨機梯度下降訓練我們的模型,批量大小爲128,動量爲0.9,重量衰減爲0.0005。我們發現,這一小部分重量衰減對模型的學習很重要。換句話說,這裏的重量衰減不僅僅是一個正則化器:它減少了模型的訓練誤差。權重ww的更新規則是:
vi+1:=0.9vi0.0005ϵwiϵLwwiDiv_{i+1}:=0.9·v_i-0.0005·\epsilon·w_i-\epsilon·\langle\frac {\partial L}{\partial w}|_{w_i}\rangle_{D_i}
wi+1:=wi+vi+1w_{i+1}:=w_i+v_{i+1}
這裏的ii是迭代索引值,vv是動態變量,ϵ\epsilon是學習率,LwwiDi\langle\frac {\partial L}{\partial w}|_{w_i}\rangle_{D_i}是目標函數對ww求導的第iiDiD_i的平均值,在wiw_i處的取值。

我們初始化了每一層的權值,初始化後的權值爲零均值高斯分佈,標準差爲0.01。我們在第二層、第四層和第五層卷積層以及全連接隱藏層中初始化神經元偏差,使用常數1。這種初始化通過向ReLUs提供積極的輸入來加速學習的早期階段。我們用常數0初始化剩餘層中的神經元偏差。

我們對所有層使用相同的學習率,並在整個培訓過程中手動調整。我們遵循的啓發式方法是將學習率除以10,當驗證錯誤率停止隨當前學習率改善時。初始化學習率爲0.01,終止前降低3次。我們在兩臺NVIDIA GTX 580 3GB GPUs 上對120萬張圖像進行了大約90個週期的訓練,這需要5到6天的時間。

6 結果

我們在ILSVRC-2010上的研究結果如Table 1所示。我們的網絡達到了測試集的前1名和前5名,錯誤率分別爲37.5%37.5\%17.0%17.0\%(如第4.1節所述,在沒有對十個補丁的預測進行平均的情況下,錯誤率分別爲39.0%39.0\%18.3%18.3\%)。ILSVRC - 2010期間取得最佳性能競爭是47.1%47.1\%28.2%28.2\%,採用的方法是對6個訓練在不同特徵[2]上的稀疏編碼模型的預測結果進行平均,從那以後發表的最好的一個方法的結果是45.7%45.7\%25.7%25.7\%,從兩類密集採樣特徵計算出訓練在費舍爾向量(FVs)上的兩個分類器的預測的平均值[24]。

我們還在ILSVRC-2012競賽中輸入了我們的模型,並在Table 2中報告了我們的結果。由於ILSVRC-2012測試集標籤不可公開獲取,我們無法報告我們嘗試的所有型號的測試錯誤率。在本段的其餘部分,我們交替使用驗證和測試錯誤率,因爲根據我們的經驗,它們的差異不超過0.1%0.1\%(見Table 2)。本文所描述的CNN的前5名錯誤率爲18.2%18.2\%。對5個類似CNNs的預測進行平均,錯誤率爲16.4%16.4\%。訓練一個CNN,在最後的池化層上增加了額外的第六層卷積層,對整個ImageNet 2011年秋季發行版(1500萬張圖片,22K類)進行分類,然後在ilsvvc -2012上對其進行"微調",錯誤率爲16.6%16.6\%。在2011年秋季發佈的整個版本中,預先訓練了兩個CNNs和前面提到的五個CNNs,對它們的預測進行平均,得出的誤差率爲15.3%15.3\%。第二好的參賽作品的錯誤率達到了26.2%26.2\%,其方法是對幾個在FVs上訓練的分類器的預測進行平均,這些分類器是從不同類型的密集採樣特徵[7]中計算出來的。

最後,我們還報告了2009年秋季版的ImageNet的錯誤率,包括10184個類別和890萬張圖像。在這個數據集上,我們遵循文獻中使用一半圖像進行訓練和一半圖像進行測試的慣例。由於沒有建立測試集,我們的分割必然不同於以前的作者使用的分割,但這並不會顯著影響結果。在這個數據集上,我們的前1和前5級錯誤率分別爲67.4%67.4\%40.9%40.9\%,這是通過前面描述的網絡實現的,但是在最後一個池化層上增加了第6個卷積層。在這個數據集上發佈的最佳結果是78.1%78.1\%60.9%60.9\%[19]。

6.1 定性評估

Figure 3顯示了網絡的兩個數據連接層學習到的卷積內核。該網絡已經學會了各種頻率和定向選擇內核,以及各種顏色的斑點。請注意兩個GPUs顯示的專門化,這是第3.5節中描述的限制連接性的結果。GPU 1 上的內核很大程度上是顏色無關的,而GPU 2上的內核很大程度上是顏色專有的。這種專門化發生在每次運行期間,並且獨立於任何特定的隨機權重初始化(模塊化GPUs的重新編號)。

在Figure 4的左側面板中,我們通過計算8張測試圖像的前5個預測,定性地評估了網絡所獲得的信息。請注意,即使是偏離中心的對象,比如左上角的蟎,也可以被網絡識別。排名前五的大多數品牌似乎都很合理。例如,只有其他類型的貓被認爲是豹的合理標籤。在某些情況下(格柵,櫻桃),有真正的模糊的預期焦點的照片。

Figure4:(左)8張ILSVRC-2010測試圖像和我們的模型認爲最可能的5個標籤。每個圖像下都寫有正確的標籤,分配給正確標籤的概率也用紅色條顯示(如果它恰好在前5個)。(右)第一列中有5張ILSVRC-2010測試圖像。其餘的列顯示了在最後一個隱層生成特徵向量的6個訓練圖像,它們與測試圖像的特徵向量的歐氏距離最小。

另一種探索網絡視覺知識的方法是考慮最後一個4096維隱層圖像的特徵激活。如果兩幅圖像產生的特徵激活向量具有小的歐氏分離,我們可以說神經網絡的高層認爲它們是相似的。Figure 4顯示了來自測試集的5張圖像,以及來自訓練集的6張圖像,根據這個度量,它們是最相似的。注意,在像素級別上,檢索到的訓練圖像在L2中通常不接近第一列中的查詢圖像。例如,檢索到的狗和大象以各種姿勢出現。我們在補充材料中展示了更多的測試圖像的結果。

利用兩個4096維實值向量之間的歐氏距離計算相似度是低效的,但通過訓練一個自動編碼器將這些向量壓縮成簡短的二進制代碼可以提高效率。這將產生一種比對原始像素[14]應用自動編碼更好的圖像檢索方法,原始像素[14]不使用圖像標籤,因此具有檢索具有相似邊緣模式的圖像的趨勢,無論它們在語義上是否相似。

7 討論

我們的結果表明,一個大型的、深度卷積神經網絡能夠在一個高度挑戰的數據集上使用純監督學習實現記錄破壞結果。值得注意的是,如果去掉一個卷積層,我們的網絡性能就會下降。例如,刪除任何中間層都會導致網絡的頂級性能損失約2%2\%。所以深度對於我們取得的成果非常重要。

爲了簡化我們的實驗,我們沒有使用任何無監督的預訓練,即使我們期望它會有幫助,特別是如果我們獲得足夠的計算能力來顯著增加網絡的大小,而沒有獲得相應的增加標記數據量。到目前爲止,我們的結果已經有所改善,因爲我們已經使我們的網絡更大,訓練它更長,但我們仍然有許多數量級去匹配人類視覺系統的顳下路徑。最後,我們希望在視頻序列中使用非常大且深的卷積網絡,其中時間結構提供了非常有用的信息,而這些信息在靜態圖像中是不存在的或不太明顯的。

References

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章