DSOD:從零開始深度有監督學習目標檢測器

DSOD:從零開始深度有監督學習目標檢測器

轉載:https://www.cnblogs.com/0x000/p/7406385.html

論文原文地址:https://arxiv.org/pdf/1708.01241

Abstract摘要:

        我們提出了深入的監督對象檢測器(DSOD),一個框架,可以從零開始學目標探測器。藝術對象的對象的狀態在很大程度上依賴於下架網絡預培訓的大規模數據分類如ImageNet,造成學習偏差由於雙方的損失函數和分類和檢測任務之間的類別分佈的差異。對檢測任務進行模型微調可以在一定程度上緩解這種偏見,但不能從根本上消除這種偏見。此外,將經過訓練的模型從分類轉移到差異域之間的檢測更加困難(例如RGB到深度圖像)。一個更好的解決方案來解決這些問題是從頭培養目標探測器,這促使我們提出的關係和。由於目標檢測中複雜的損失函數和有限的訓練數據,在這一方向上的許多努力都失敗了。在DSOD,我們有一套培訓對象檢測器的設計原則,從零開始。其中一個關鍵的發現是,深層的監督,由密集的層間連接,在學習一個好的探測器中起着關鍵的作用。結合其他幾個原則,我們開發的關係和單次檢測以下(SSD)框架。在PASCALVOC2007,2012和MS的關係和可可的數據集的實驗表明,可以達到更好的結果比國家的最先進的解決方案和更緊湊的模型。例如,優於SSD的關係和所有三個基準與實時檢測的速度,而只需要1/2和1/10參數的SSD參數快RCNN。我們的代碼和模型有:https://github.com/szq0214/dsod

1.Introduction簡介

        卷積神經網絡(CNN)已經在許多計算機視覺任務產生了引人注目的的性能改進,如圖像分類[17,28,32,9,10],對象檢測[5,4,27,19,21,25][23,圖像分割,8,2,36]等。在過去的許多年,創新網絡結構已經提出。szegedy等。[32]提出的“開始”模塊的特點,將城市地圖生產各種尺寸的過濾器。氦等。[9]提出的殘留箕斗連接塊的學習與訓練,這使甚深網與超過100層。黃等。[10]提出densenets與密層明智的連接。謝謝這些優秀的網絡結構,在大學的許多視覺任務的精度greatly已經提高了。他們在冰上,一個對象檢測的運動區域fastest鴿ITS應用在廣域監視,自主駕駛等。
        爲了獲得良好的性能,大多數高級對象檢測系統對ImageNet[3]進行了預處理。這個微調過程也被視爲遷移學習[24]。從預培訓的模型中進行微調至少有兩個優點。首先,有許多最先進的深刻模型可以公開發布。將它們重新用於對象檢測非常方便。其次,微調可以快速生成最終的模型,並且比分類任務要求更少的實例級註解訓練數據。
        然而,在物體檢測中採用預先訓練的網絡也存在關鍵的侷限:(1)有限的結構設計空間。預先訓練的網絡模型主要來自基於ImageNet的分類任務,通常非常重-包含大量參數。現有的對象檢測器直接採用預先訓練的網絡,因此控制/調整網絡結構的靈活性很小(即使是網絡結構的小變化)。計算資源的要求也受到沉重的網絡結構的約束。(2)學習偏見由於分類和檢測任務之間的損失函數和類別分佈不同,我們認爲這將導致不同的搜索/優化空間。因此,學習可能偏向本地最小值,這對於檢測任務來說不是最好的。(3)域不匹配。衆所周知,微調可以減輕由於不同目標類別分佈引起的差距。然而,當源域(ImageNet)與目標域(例如深度圖像,醫學圖像等)具有巨大的不匹配時,仍然是一個嚴重的問題[7]。
        我們的工作是有以下兩個問題的。首先,是否可以從頭開始訓練對象檢測網絡?第二,如果第一個答案是肯定的,是否有任何原則設計一個資源有效的網絡結構來進行物體檢測,同時保持較高的檢測精度?爲了達到這個目標,我們提出了深度監督的反射探測器(DSOD),這是一個簡單而高效的框架,可以從頭開始學習物體探測器。DSOD相當靈活,因此我們可以爲不同的計算平臺(如服務器,桌面,移動甚至嵌入式設備)定製各種網絡結構。
        我們爲設計DSOD提供了一套原則。一個關鍵點是深度監督起着關鍵作用,這是由[18,35]的工作所驅動的。在[35]中,謝等人提出了一種用於邊緣檢測的整體嵌套結構,其中包括每個基站網絡轉發的側向輸出層,用於明確的深度監督。本文采用DenseNet[10]中提出的密集層次連接,而不是使用帶有視差輸出層的多重切入損失信號。密集結構不僅在骨幹子網中採用,而且在前端多尺度預測層中採用。圖1示出了前端預測層的結構比較。多分辨率預測圖的融合和再利用有助於保持甚至提高最終精度,同時在一定程度上減少模型參數。
        我們的主要貢獻總結如下:
        (1)根據我們所知,我們提供了可以從頭開始研究物體檢測網絡的世界第一框架的DSOD,具有最先進的性能。
        (2)我們介紹並驗證了一套原理,從零開始逐步消融研究設計高效的物體檢測網絡。
        (3)我們顯示,我們的DSOD可以實時處理速度和更緊湊的型號,在三個標準基準(PASCALVOC2007,2012和MSCOCO數據集)上實現最先進的性能。

2.RelatedWork相關工作

        對象檢測。最先進的基於CNN的對象檢測方法可以分爲兩類:(i)區域基於提案的方法和(ii)無提議方法。
        基於提議的方法包括R-CNN[5],FastRCNN[4],更快的R-CNN[27]和R-FCN[19]。R-CNN使用選擇性搜索[34]首先生成圖像中的潛在對象區域,然後對所提出的區域進行分類。R-CNN需要高的計算成本,因爲每個區域由CNN網絡分開處理。快速R-CNN和更快的R-CNN通過共享計算和使用神經網絡來生成區域提案來提高效率。R-FCN通過刪除完全連接的層並採用位置敏感分數圖進一步提高速度和精度,以進行最終檢測。
        近來已經提出了諸如YOLO[25]和SSD[21]等無提議方法進行實時檢測。YOLO使用單個前饋卷積網絡直接預測對象類和位置。與基於區域的方法相比,YOLO不再需要進行第二次每個區域的分類操作,因此它非常快。SSD在幾個方面改進了YOLO,包括(1)使用小卷積濾波器來預測邊界盒位置的類別和錨定偏移;(2)使用金字塔特徵進行不同尺度的預測;和(3)使用默認框和寬高比來調整不同的對象形狀。我們提出的DSOD基於SSD框架,因此它繼承了SSD的速度和精度優勢,同時生產更小更靈活的型號。網絡架構檢測。對圖像分類的網絡架構設計進行了大量的努力。出現了許多不同的網絡,如AlexNet[17],VGGNet[28],GoogLeNet[32],ResNet[9]和DenseNet[10]。同時,還提出了幾種正則化技術[29,12]來進一步提高模型能力。大多數檢測方法[5,4,27,21]直接利用預先訓練的ImageNet模型作爲骨幹網。
        其他一些作品設計了特定的骨架網絡結構進行物體檢測,但是首先需要對ImageNet分類數據集進行預培訓。例如,YOLO[25]定義了一個具有24個卷積層的網絡,其後是2個完全連接的層。YOLO9000[26]通過提出一個名爲Darknet-19的新網絡來改進YOLO,該網絡是VGGNet的簡化版本[28]。Kim等人[15]提出了用於對象檢測的PVANet,其由GoogleNet的簡化“初始”塊組成。Huangetal。[11]研究了網絡結構和檢測框架的不同組合,發現使用InceptionResNet-v2[31]的更快的R-CNN[27]實現了最高的性能。在本文中,我們還考慮了通用對象檢測的網絡結構。然而,擬議的DSOD不再需要ImageNet的預訓練。
        從頭開始學習深層模型。據我們所知,沒有從頭開始訓練物體檢測網絡的作品。所提出的方法與現有解決方案相比具有非常好的優勢。我們將在以下部分中詳細說明和驗證該方法。在語義分割中,Jegou等[13]表明,精心設計的網絡結構可以在不使用預先訓練的模型的情況下勝過最先進的解決方案。它通過添加上採樣路徑來恢復完整的輸入分辨率,將DenseNets擴展到完全卷積網絡。

3.DSOD

        在本節中,我們首先介紹我們的DSOD架構及其組件,並闡述幾個重要的設計原則。然後我們描述訓練設置。

3.1.DSOD Architecture DSOD架構

        整體框架所提出的DSOD方法是一個類似SSD的多尺度無提議檢測框架[21]。DSOD的網絡結構可以分爲兩部分:骨幹子網特徵提取和前端子網預測多尺度響應圖。骨幹子網是深度監督的DenseNets[10]結構的變體,由一個幹塊,四個密集塊,兩個過渡層和兩個過渡w/o合併層組成。前端子網(或稱爲DSOD預測層)通過精細的密集結構融合多尺度預測響應。圖1示出了所提出的DSOD預測層以及SSD中使用的多尺度預測圖的平面結構[21]。完整的DSOD網絡架構1詳見表1.我們在下面詳細闡述了每個組件及相應的設計原則。
        原則1:無提議。我們調查了所有最先進的基於CNN的物體檢測器,發現它們可以分爲三類。首先,R-CNN和FastR-CNN需要外部對象提案生成器,如選擇性搜索。第二,更快的R-CNN和R-FCN需要綜合區域提案網(RPN)來產生相對較少的區域提案。第三,YOLO和SSD是單次和無提議的方法,其處理對象位置和邊界框座標作爲迴歸問題。我們觀察到,只有無提議的方法(第3類)才能在沒有預先訓練的模型的情況下成功地收斂。我們推測這是由於RoI(區域感興趣)集中在其他兩類方法中-RoIpooling爲每個區域提案生成特徵,這阻礙了梯度從區域級到卷積特徵圖的順利反向傳播。基於提議的方法與預培訓的網絡模型一起工作良好,因爲參數初始化對於RoI池之前的那些層是有好處的,而從頭開始訓練是不正確的。
        因此,我們達成了第一個原則:從零開始的培訓檢測網絡需要一個無提議框架。實際上,我們從SSD框架[21]推出了一個多尺度的無提議框架,因爲它可以達到最先進的精度,同時提供快速的處理速度。原則2:深度監督。深入監督學習的有效性已經在GoogLeNet[32],DSN[18],DeepID3[30]等中得到證明。中心思想是提供綜合目標函數作爲對較早隱藏層的直接監督,而不是僅在輸出層。這些“伴侶”或“輔助”目標函數在多個隱藏層可以減輕“消失”梯度問題。無提議檢測框架包含分類丟失和本地化損失。明確的解決方案需要添加複雜的視頻輸出層,以便在每個隱藏層爲檢測任務引入“伴隨”目標,類似於[35]。在這裏,我們通過DenseNets[10]中介紹的一種優雅而隱含的密集層次連接方式來強化深度監督。當塊中的所有先前層連接到當前層時,塊被稱爲密集塊。因此,DenseNet中的較早層可以通過跳過連接從目標函數中接收額外的附件。雖然在網絡頂部只需要一個單一的損耗功能,但是包括較早層的所有層仍然可以共享被阻止的信號。我們將在4.1.2節驗證深度監督的好處。過渡w/o池層。我們介紹這個層,以增加密集塊的數量,而不會降低最終的特徵圖分辨率。在DenseNet的原始設計中,每個過渡層包含一個池操作,用於對特徵圖進行抽樣。如果要保持相同的輸出規模,密集塊的數量是固定的(所有DenseNet架構中的4個密集塊)。增加網絡深度的唯一方法是在原始DenseNet的每個塊中添加層。過渡w/o池層消除了對DSOD體系結構中密集塊數量的限制,也可以在標準DenseNet中使用。
        原理3:莖塊。由Inception-v3[33]和v4[31]驅動,我們將莖塊定義爲三個3×3卷積層的堆疊,然後是2×2個最大合併層。第一個轉換層與stride=2一起工作,另外兩個步長爲1。我們發現,添加這個簡單的樹幹結構可以顯着提高我們的實驗中的檢測性能。我們推測,與DenseNet(7×7轉換層,stride=2,之後是3×3最大池,stride=2)的原始設計相比,幹塊可以減少原始輸入圖像的信息丟失。我們將會顯示,這個幹塊的獎勵對於4.1.2節的檢測性能是重要的。
        原則4:密集預測結構。圖1示出了平面結構(如SSD)和我們提出的前端子網中的密集結構的比較。SSD將預測層設計爲不對稱沙漏結構。對於300×300輸入圖像,應用六個尺度的特徵圖來預測物體。Scale-1特徵圖來自骨幹子網的中間層,其具有最大分辨率(38×38),以處理圖像中的小對象。其餘五個規模位於骨幹子網的頂部。然後,在兩個相鄰尺度的特徵圖之間採用具有瓶頸結構的平坦過渡層(用於減少特徵圖的數量加上3×3轉換層的1×1轉換層)[33,9]。
        學習一半,重複使用一半。在SSD中的平面結構(見圖1)中,每個後續的比例從相鄰的前一個比例直接轉換。我們提出了密集的預測結構,爲每個尺度融合多尺度信息。爲了簡單起見,我們限制每個尺度輸出相同數量的預測特徵圖的通道。在DSOD中,在每個尺度(除了scale-1之外)中,一半的特徵圖從前一個比例通過一系列的轉換層學習,而剩餘的一半特徵圖從直觀的高分辨率圖像中直接進行採樣,分辨率特徵圖。下采樣塊由2×2,步幅=2最大合併層,後跟1×1,步幅=1轉換層組成。池層旨在在分級時將分辨率與當前大小相匹配。1×1轉換層用於將通道數減少到50%。彙集層放置在1×1轉換層之前,以考慮降低計算成本。該下采樣塊實際上帶有來自其所有先前尺度的多分辨率特徵圖的每個尺度,其基本上與在DenseNets中引入的緻密分層連接相同。對於每個比例,我們只學習一半的新功能地圖,並重用剩下的一半。這個密集的預測結構可以產生比平原結構更少的參數的更準確的結果,這將在第4.1節中進行研究。

3.2.TrainingSettings訓練設置

        我們基於Caffe框架來實現我們的檢測器[14]。我們所有的模型都是從NVIDIATitanXGPU上的SGD求解器開始的。由於每個尺度的DSOD特徵映射都是從多個分辨率連接起來的,所以我們採用L2歸一化技術[22],將特徵範數擴展到所有輸出的20。請注意,SSD僅將此歸一化應用於Scale-1。我們的大多數培訓策略都遵循固態硬盤,包括數據增加,默認框的規模和寬高比以及損失函數(例如,用於本地化的平滑L1損耗和用於分類目的的softmax損耗),而我們有自己的學習速率調度和mini-批量大小設置。細節將在實驗部分給出。

4.Experiments實驗

        我們對廣泛使用的PASCALVOC2007,2012和MSCOCO數據集進行實驗,分別具有20,20,80個對象類別。物體檢測性能以平均精度(mAP)測量。

4.1.Ablation Study on PASCAL VOC 2007 PASCALVOC2007消融研究

        我們首先調查我們的DSOD框架的每個組件和設計原理。結果主要總結在表2和表3中。我們使用我們的DSOD300(300×300輸入)爲PASCALVOC2007設計了幾個受控實驗用於此消融研究。對所有實驗施加一致的設置,除非檢查某些組件或結構。在本研究中,我們用VOC2007火車和2012年火車(“07+12”)的綜合訓練組訓練車型,並對VOC2007測試儀進行了測試。

4.1.1Configurations in Dense Blocks 密集塊中的配置

        我們首先研究不同配置對骨幹子網密集塊的影響。
        過渡層壓縮因子。我們比較了密集網過渡層中的兩個壓縮因子值(θ=0.5,1)。結果示於表3(行2和3)。壓縮因子θ=1表示過渡層中沒有特徵圖減少,而θ=0.5意味着要素圖的一半減少。結果表明,θ=1,mAP比θ=0.5高2.9%。
        #瓶頸層的渠道。如表3(第3行和第4行)所示,我們觀察到更寬的瓶頸層(具有更多的響應映射通道)大大提高了性能(4.1%mAP)。
        #第一次轉換層的通道我們觀察到,第一個轉換層中的大量通道是有益的,這帶來了1.1%的mAP改進(在表3中列4和5)。
增長率。發現較大的增長率k好得多。當增加k從16到48與4k瓶頸通道時,我們觀察到表3(行5和6)中的4.8%mAP改進。

4.1.2EffectivenessofDesignPrinciples設計原則的有效性

        我們現在證明了早先闡述的關鍵設計原則的有效性。
        無提議框架。我們嘗試使用基於提議的框架(如FasterR-CNN和R-FCN)從頭開始訓練對象檢測器。然而,對於我們嘗試的所有網絡結構(VGGNet,ResNet,DenseNet),培訓過程未能收斂。我們進一步嘗試使用無提議框架SSD來訓練對象檢測器。培訓收斂成功,但是比起前一種訓練模式微調的情況(75.8%),結果更爲糟糕(VGG爲69.6%),如表4所示。本實驗驗證了我們的設計原則,自由框架。
        深度監督然後,我們從零開始就深入監督對物體探測器進行訓練。我們的DSOD300實現了77.7%的mAP,遠遠優於使用VGG16(69.6%)從未經過嚴格監督的從零開始的SSD300S。它也比SSD300(75.8%)的微調結果好得多。這驗證了深度監督的原則。
        過渡w/o池層。我們比較沒有這個設計層(只有3個密集塊)和設計層的情況(我們設計中的4個密集塊)的情況。骨幹網是DS/32-12-16-0.5。結果如表3所示。具有Transitionw/o彙集層的網絡結構帶來1.7%的性能增益,從而驗證了該層的有效性。
        莖塊。從表3(第6行和第9行)可以看出,閥杆塊的性能從74.5%提高到77.3%。這驗證了我們的猜想,即使用stemblock可以保護原始輸入圖像中的信息丟失。
        密集預測結構。我們從三個方面分析了密度預測結構:速度,精度和參數。如表4所示,由於來自額外的下采樣塊的開銷,TitanXGPU上的DSOD具有密集的前端結構,運行速度略低於平面結構(17.4fps與20.6fps)。然而,密集結構將mAP從77.3%提高到77.7%,同時將參數從18.2M降低到14.8M。表3給出了更多的細節(第9行和第10行)。我們還試圖用提出的密集預測層替代SSD中的預測層。使用VGG-16時,VOC2007測試套件的準確性可以從75.8%(原始SSD)提高到76.1%(具有預先訓練的模型),69.6%至70.4%(預先訓練有素的模型)型號爲骨幹。這驗證了密集預測層的有效性。
        如果在ImageNet上預培訓怎麼辦?正是看到與骨幹網pretrainedImageNet關係和性能的有趣。我們在ImageNet上培養了一個精簡骨幹網DS/64-12-16-1,在驗證集上獲得了66.8%的前1個精度和87.8%的前5個精度(略差於VGG-16)。在“07+12”列車車次整體檢測框架微調後,我們在VOC2007測試套件上實現了70.3%的MAP。相應的從零開始的解決方案實現了70.7%的精度,甚至略好一些。未來的工作將更徹底地調查這一點。

4.1.3Runtime Analysis 運行時間分析

        推測速度如表4第6列所示。對於300×300輸入,我們的全DSOD可以在單個TitanXGPU上以48.6ms(20.6fps)處理具有簡單預測結構的圖像,而57.5ms(17.4fps)與密集的預測結構。作爲比較,R-FCN在ResNet-101上運行90ms(11fps),ResNet-101運行110ms(9fps)。對於VGGNet,SSD300*的ResNet-101爲82.6ms(12.1fps),對於VGGNet爲21.7ms(46fps)。另外,我們的模型僅使用VGGNet的SSD300約1/2個參數,使用ResNet-101的1/4至SSD300,具有ResNet-101的1/4至R-FCN,具有VGGNet的1/10至更快的R-CNN。DSOD的簡單版本(10.4M參數,無任何速度優化)可以運行25.8fps,只有1%的mAP下降。

4.2.Results on PASCAL VOC 2007 PASCAL VOC 2007的結果

        模型是根據VOC2007火車和VOC2012火車(“07+12”)的聯合進行訓練,隨後[21]。我們使用的批量大小爲128.請注意,此批量大小超出了GPU存儲器的容量(即使是8個GPU服務器,每個都具有12GB內存)。我們使用一個技巧來克服GPU內存約束,通過在Caffe平臺上實現的兩次訓練迭代累積梯度[14]。初始學習率設置爲0.1,然後每20k次迭代後除以10。訓練完成後達到100k次迭代。以下[21],我們使用0.0005的重量衰減和0.9的動量。所有轉換層都使用“xavier”方法[6]進行初始化。
        表4顯示了我們在VOC2007測試集上的結果。SSD300是使用新的數據增加技術的更新SSD結果。我們的DSOD300平滑連接達到77.3%,略好於SSD300(77.2%)。具有密集預測結構的DSOD300將結果提高到77.7%。加入COCO作爲培訓資料後,業績進一步提升至81.7%。

4.3.Results on PASCAL VOC 2012 PASCAL VOC 2012的結果

        對於VOC2012數據集,我們使用VOC2012火車和VOC2007培訓+測試進行培訓,並對VOC2012測試集進行測試。對於前30k次迭代,初始學習率設置爲0.1,然後在每20k次迭代後除以10。總訓練次數爲110k。其他設置與VOC2007實驗中使用的設置相同。我們的DSOD300的結果如表4所示.DSOD300實現了76.3%的mAP,始終優於SSD300*(75.8%)。

4.4.Results on MSCOCO MSCOCO的結果

        最後,我們在MSCOCO數據集[20]上評估我們的DSOD。MSCOCO包含80k的培訓圖像,40k的驗證和20k的測試(測試開發集)。在[27,19]之後,我們使用訓練集(列車組+驗證集)進行訓練。批次大小也設置爲128.初始學習速率在前80k次迭代中設置爲0.1,然後每60k次迭代後除以10。訓練次數總共爲320k。
        結果總結在表6中。我們的DSOD300在測試開發集上達到29.3%/47.3%,優於基準SSD300*,幅度很大。我們的結果與單規模R-FCN相當,並且靠近使用ResNet-101作爲預訓練模型的R-FCNmulti-sc。有趣的是,我們觀察到我們的結果爲0.5IoU,低於R-FCN,但是我們的[0.5:0.95]結果更好或可比。這表明在較大的重疊設置下,我們的預測位置比R-FCN更準確。我們的小物體檢測精度略低於R-FCN是合理的,因爲我們的輸入圖像尺寸(300×300)遠小於R-FCN(〜600×1000)。即使有這個缺點,我們的大對象檢測精度仍然比R-FCN好得多。這進一步說明了我們的方法的有效性。圖2顯示了COCO與DSOD300型號的一些定性檢測實例。

5.Discussion5.討論

        更好的模型結構與更多的培訓數據。計算機視覺社區中一個新興的想法是,通過像ImageNet[3]等大量訓練數據支持的更深層次更大的神經網絡,可以解決對象檢測或其他視覺任務。因此,最近已經收集和發佈了越來越多的大型數據集,例如OpenImages數據集[16],其數量比ImageNet大7倍,圖像數量大6倍。我們絕對同意,在給定無限訓練數據和無限計算能力的適度假設下,深層神經網絡應該表現得非常好。然而,我們提出的方法和實驗結果意味着處理這個問題的另一種觀點:與從大數據訓練的複雜模型相比,更好的模型結構可以實現相似或更好的性能。特別是,我們的DSOD僅在VOC2007上接受了16,551張圖像的訓練,但是與120萬+16,551張圖像訓練的機型達到了競爭性或甚至更好的性能。
        在這個前提下,值得重申的是,隨着數據集越來越大,訓練深層神經網絡越來越昂貴。因此,一種簡單而有效的方法變得越來越重要。儘管它的概念簡單,我們的方法在這種情況下顯示出巨大的潛力。
        爲什麼從頭開始訓練?模型微調已經有很多成功的例子。人們可能會問我們爲什麼要從頭開始訓練物體探測器。我們認爲,如上所述,至少在兩種情況下,從頭開始的培訓至關重要。首先,可能存在與預培訓模式域到目標域之間的巨大區域差異。例如,大多數預先訓練的模型都在大型RGB圖像數據集(ImageNet)上進行了培訓。將ImageNet模型傳輸到深度圖像,多光譜圖像,醫學圖像等領域是非常困難的。已經提出了一些先進的域適應技術。但是,如果我們有一種可以從頭開始訓練物體探測器的技術,那真是太棒了。第二,模型微調限制了對象檢測網絡的結構設計空間。這對於將資源有限的物聯網(IoT)情景部署到深層神經網絡模型非常關鍵。
        模型緊湊性與性能。經常報道,模型緊湊性(參數數量)和性能之間存在權衡。大多數基於CNN的檢測解決方案需要巨大的存儲空間來存儲大量參數。因此,這些型號通常不適用於低端設備,如手機和嵌入式電子產品。由於參數高效密集塊,我們的模型比大多數競爭方法小得多。例如,我們最小的密集模型(具有密集預測層的DS/64-64-16-1)實現了73.6%的mAP,僅有5.9M的參數,這在低端設備上顯示出巨大的應用潛力。

6.Conclusion結論

        我們提出了深度監督對象檢測器(DSOD),這是一個簡單而高效的從頭開始訓練對象檢測器的框架。沒有在ImageNet上使用預先訓練的模型,DSOD在流行的PASCALVOC2007,2012和MSCOCO數據集上展示了最先進的檢測器(如SSD,更快的R-CNN和R-FCN)的競爭準確度,只有1/2,1/4和1/10參數分別與SSD,R-FCN和更快的R-CNN相比。DSOD在深度,醫療,多光譜圖像等領域的不同場景具有巨大的潛力。我們未來的工作將考慮這些領域,以及學習超高效的DSOD模型來支持資源有限的設備。

Acknowledgements致謝

References參考

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章