Thermal Object Detection using Domain Adaptation through Style Consistency

目錄

摘要

1、簡介

2、相關工作

A、目標檢測

B、域適配

C、類型遷移

3、提出的方法

A、基於風格一致性(ODSC)的熱圖像目標檢測

B、熱圖像中目標檢測的跨域模型轉移(CDMT)

4、實驗和結果

A、數據集

B、基於風格一致性的熱圖像目標檢測

C、熱圖像中目標檢測的跨域模型傳輸

5、討論

6、討論


摘要

最近發生的一起自動駕駛車輛致命事故引發了一場關於在自動駕駛傳感器套件中使用紅外技術以提高魯棒目標檢測可見性的辯論。與激光雷達、雷達和照相機相比,熱成像具有探測紅外光譜中物體發出的熱差的優點。相比之下,激光雷達和相機捕捉在可見光譜,和不利的天氣條件可以影響其準確性。熱成像可以滿足傳統成像傳感器對圖像中目標檢測的侷限性。提出了一種用於熱圖像目標檢測的區域自適應方法。我們探討了領域適應的多種概念。首先,利用生成式對抗網絡,通過風格一致性將低層特徵從可見光譜域轉移到紅外光譜域。其次,通過轉換訓練好的可見光光譜模型,採用具有風格一致性的跨域模型進行紅外光譜中的目標檢測。提出的策略在公開可利用的熱圖像數據集(FLIR ADAS和KAIST多光譜)上進行評估。我們發現,通過域適應將源域的低層特徵適應到目標域,平均平均精度提高了約10%。

1、簡介

經過近40年的醞釀,自動駕駛正在成爲現實,而使用深度神經網絡的目標檢測是這一成功的關鍵因素。自動駕駛汽車必須提供更廣泛的可移動性,在這樣做的同時,車輛及其周圍環境的安全是首要考慮的問題。SOTIF(預期功能的安全性)詳細反映了在沒有技術系統故障[1]情況下發生的安全違規。例如,無法感知環境中的物體,或被霧遮擋視線。自動駕駛汽車應該能夠在這種情況下安全運行。環境感知對自動駕駛汽車的安全性起着至關重要的作用。環境感知一般定義爲對周圍環境的意識或認識,以及通過視覺感知[2]對情況的理解。在自動駕駛車輛中通常用於感知的傳感器包括激光雷達、RGB攝像機和雷達。

感知的一個基本方面是目標檢測。上述傳感器均用於目標檢測。每個傳感器都有自己的缺點。激光雷達提供了稀疏的環境三維地圖,但是像行人和騎自行車的人這樣的小物體很難在遠處檢測到。RGB相機在光照條件不好的情況下表現很差,如低照度,太陽眩光,以及來自車頭燈的眩光。雷達的空間分辨率較低,無法準確地檢測行人。[3]在惡劣光照條件下的目標檢測存在缺口。傳感器套件中包含的熱感攝像機將填補環境感知方面的盲點。熱成像相機是強大的對抗光照變化和有利的部署在白天和晚上。目標檢測和分類是視覺感知中不可缺少的內容,爲自動駕駛車輛的感知計算提供了基礎。

在可見光譜(RGB)領域的目標檢測被認爲足以滿足傳統人工智能的應用,併產生了深度神經網絡模型的魯棒目標檢測[4][5][6]。然而,與可見光光譜相比,熱成像中目標檢測的精度還沒有達到最先進的水平。上述目標檢測算法依賴於在大型RGB數據集上訓練的網絡,如ImageNet[7]、PASCAL-VOC[8]和MS-COCO[9]。在熱領域,此類大規模公共數據集的稀缺程度相當。現有的兩個主要城市熱圖像數據集包括FLIR ADAS圖像數據集[10]和KAIST多光譜數據集[11]。KAIST多光譜數據集只對person進行註釋,FLIR ADAS數據集對四個類進行註釋。爲了克服缺少大規模標記數據集的問題,本文提出了一種熱域目標檢測的域採用技術。

目前,爲了縮小源域和目標域之間的差距,已經引入了許多領域適應的方法。其中值得注意的是生成對抗網絡(GAN)[12]和領域混淆[13]的特徵適應。在缺乏數據的熱圖像領域的領域適應前景激勵了本研究,探索在目標檢測背景下縮小可見光和紅外光譜差距的導數。領域適應受到生成模型的影響,例如,CycleGAN[14]將源領域的單個實例轉換爲目標領域,而不將樣式屬性轉換爲目標領域。低層次視覺線索對[15]目標檢測的性能有隱含的影響。將這些視覺線索從源域委託到目標域,有利於目標域內目標檢測的魯棒性。

這項工作探討了使用域適應來改進目標域內目標檢測的低層次特徵從源域(RGB)到目標域(thermal)的轉換。利用多風格變換將曲率、邊緣等低層特徵從源域轉移到目標域。基於深度學習的目標檢測體系結構,如VGG [16], ResNet[17],在多風格的傳輸圖像上從頭訓練,以實現紅外光譜(目標域)目標檢測的魯棒性。此外,我們還提出了一種基於區域自適應的熱圖像目標檢測跨域模型轉換方法。目標檢測深度神經網絡在源域(可見譜)訓練的跨域模型轉移。訓練後的模型被稱爲跨域模型,在目標域(紅外光譜)中使用多風格傳輸圖像和不使用多風格傳輸圖像進行評估。採用FLIR ADAS[10]和KAIST多光譜[11]對所提技術進行評價,PASCAL-VOC評價用於確定被檢測物體[8]的平均精度。

本文的主要貢獻如下:

1)改進了紅外光譜(熱圖像)中的目標檢測,利用風格一致性挖掘低層特徵。提出的目標檢測框架在平均平均精度方面優於現有的基準。

2)跨域模型轉移範式不僅增強了紅外光譜(熱圖像)中的目標檢測,而且爲未標記數據集的標記提供了一種新的有效方法。

本文的其餘部分組織如下:第二節討論相關文獻。第三節討論了擬議的方法。第四部分着重於實驗和結果。第五節對所提方法進行了比較和討論。第六部分對研究進行了總結。

2、相關工作

A、目標檢測

人類的視覺在無數具有挑戰性的條件下識別物體是強大的,但對於自動駕駛汽車來說,這不是一項瑣碎的任務。圖像中目標檢測的最終目的是定位和識別圖像中存在的同一或不同目標的所有實例。在熱成像中,考慮到周圍環境的溫度,對人的檢測做了重要的工作。經典的圖像處理技術可以用於檢測,如閾值分割在[18]中使用。利用HOG特徵和局部二值模式從熱圖像中提取特徵,利用這些特徵訓練支持向量機分類器[19][20][21]。深度神經網絡在RGB圖像的目標檢測中得到了廣泛的應用,並應用於熱圖像的目標檢測。提取多光譜圖像的特徵圖,並將其送入目標探測器,即目標探測器。、faster-RCNN和YOLO。[26]用顯著性圖增強多光譜圖像,使其在白天將注意力集中在行人上。

B、域適配

通常情況下,由於環境的變化,神經網絡在不同的數據集上進行測試時會遇到性能下降。在某些情況下,數據集不夠大,不足以訓練和優化網絡。因此,像領域適應這樣的技術爲研究界提供了一個重要的工具。目標檢測的領域適應包括合成數據的生成或對真實數據的增強等技術來訓練網絡。[28]使用了來自不同領域和多個類的公開對象檢測標記數據集併合並它們。例如,時尚數據集Modanet與MS-COCO數據集通過利用使用域自適應的快速rcnn合併。在[29]中,使用Faster-RCNN來進行圖像和實例的自適應。[30]引入了兩步的方法,他們對低級特徵的檢測器進行了優化,然後通過實現內容和樣式圖像之間的距離最小化,將其開發爲高級特徵的魯棒分類器。[31]提出了一種跨域半執行學習結構,它利用僞註釋來學習目標域的最佳表示。他們使用了細粒度的域轉移、漸進的基於置信度的註釋擴展和註釋採樣策略。

C、類型遷移

圖像樣式傳輸是將來自一個域的圖像內容與來自另一個域的另一個圖像的樣式呈現的過程。[32]演示了利用卷積神經網絡的特徵表示在兩幅圖像之間進行樣式轉換。他們證明了從CNN得到的特徵是可分離的。它們操縱樣式圖像和內容圖像之間的特徵表示,以生成新的、在視覺上有意義的圖像。[33]提出了基於單個對象的樣式轉換。他們使用補丁置換訓練GAN學習樣式並將其應用到內容圖像中。[34]引入了XGAN,它由自動編碼器組成,以無監督的方式從樣式和內容圖像捕獲共享特性,並學習樣式到內容圖像的轉換。[35]提出了CoMatch layer,它學習特徵的二階統計量,並將其與風格圖像進行匹配。利用CoMatch層,他們開發了具有實時性能的多風格生成網絡。隨着深度學習技術的興起,通過在可見光譜(RGB圖像)的大數據集上訓練神經網絡模型,大大改善了目標檢測範式。本文提出了一種基於風格轉換的區域自適應算法來改進熱圖像目標檢測的新方法。標籤數據的缺乏或不存在給研究社區帶來了挑戰,標籤並不是一項容易的任務。該方法可用於對其他數據集進行域適應,如在Kitti數據集中引入霧天氣或將白天圖像轉換爲夜晚圖像。

3、提出的方法

本節介紹了基於風格一致性和跨域模型轉換的熱目標檢測方法,用於熱圖像中的目標檢測。

A、基於風格一致性(ODSC)的熱圖像目標檢測

最近在深度學習方面的進展已經徹底改變了RGB圖像領域的目標檢測領域。但是,在紅外圖像領域,它缺乏準確性。用於目標檢測的深度神經網絡在低級和高級[39][15]上執行特徵計算。在這部分的工作中,我們認爲,通過使用域適應從源域(RGB)轉移低層特徵,可以提高目標域(熱)的目標檢測性能。

對於熱圖像(內容圖像xc)和可見光譜圖像(風格圖像xs)的域適應,我們採用了多風格生成網絡(MSGNet)進行風格轉換[35]。通過多風格生成網絡將特定風格從源領域翻譯到目標領域的優勢,爲CycleGAN[14]提供了額外的優勢。CycleGAN從源圖像生成特定樣式的翻譯圖像。MSGNet提供了將多樣式從源域轉換到目標域的功能,同時縮小了兩個域之間的差距。該網絡從源域提取紋理、邊緣等低級特徵,同時保持目標域的高級特徵一致。圖2(a)顯示了從可見光譜(RGB)圖像到熱圖像的風格轉換框架。

MSGNet的架構如圖2(a)所示。MSGNet網絡同時以內容圖像和風格圖像作爲輸入,而之前已知的架構,如Neural Style[33],僅以內容圖像爲輸入,然後生成傳輸圖像。發生器網絡(G)由由siamese網絡[36]組成的編碼器組成,編碼器通過CoMatch層與變換網絡共享網絡權值。CoMatch層將內容圖像xc的二階特徵統計量與風格圖像進行匹配。對於給定的一幅內容圖像和一幅風格圖像,在第j個尺度上激活描述網絡表示內容圖像,其中Cj、Hj、Wj分別爲特徵圖通道數、特徵圖高度和寬度。風格圖像xs中特徵的分佈採用Gram矩陣表示,由公式給出。1. 爲了在保持源圖像語義內容同時匹配目標風格特徵靜態的CoMatch層中找到想要的解,我們採用了一種迭代逼近方法,將訓練階段的計算代價納入如式所示。2.

                       

                           

式中,爲零輸入數據在Gram矩陣中的重塑函數。

                                

其中W是一個可學習的矩陣。

給定預訓練的損失網絡,生成網絡輸出與目標之間內容和風格差異的加權組合最小化。生成網絡由給出,由,權值參數化。學習是通過對內容圖像和樣式圖像進行採樣,然後估計生成器的權重WG來最小化損失:

                                 

                                  

其中爲content和style loss的正則化參數。在尺度c考慮內容圖像,在尺度考慮樣式圖像。全變分正則化是lTV,它用於生成圖像[40]的平滑性。

B、熱圖像中目標檢測的跨域模型轉移(CDMT)

基於風格一致性的目標檢測框架如圖2所示。該網絡由兩個模塊組成;第一部分是一個多風格的網絡。它通過熱圖像組成的內容圖像與RGB圖像組成的風格圖像之間進行低級特徵變換,生成風格圖像。與熱圖像相比,傳輸樣式圖像包含低層特徵,但生成的圖像保留了語義形狀,保持了高層語義特徵的一致性。第二個模塊由最先進的檢測體系結構組成:Fast R-CNN[4]主幹網加上ResNet-101 [17], SSD-300和512[5]主幹網VGG16 [16], MobileNet[37]和EfficientNet[38]。該網絡根據不同風格的圖像進行訓練,從而在可見光譜和熱圖像之間架起一座橋樑。快速rcnn和SSD中的骨幹是用imageNet上訓練得到的預訓練權重進行初始化的。

4、實驗和結果

A、數據集

在本研究中,我們使用了兩個熱圖像數據集。第一個是FLIR ADAS數據集[10],第二個是KAIST多光譜數據集[11]。FLIR數據集由9214幅圖像和對象註釋使用邊界框作爲評估度量。研究對象可分爲四類,即:汽車、人、自行車和狗。但是,dog類的註釋很少,因此本研究不考慮。圖像分辨率640×512,來自FLIR Tau2相機。數據集由日夜圖像組成,大約60%(6136)圖像是在白天捕獲的,40%(4092)圖像是在夜間捕獲的。數據集由可見光譜(RGB圖像)和熱圖像組成,但僅對熱圖像提供註釋。可見光譜(RGB圖像)和熱圖像沒有配對,因此熱註釋不能與可見光譜(RGB圖像)一起使用。本研究只考慮帶標註的熱圖像。在實驗期間考慮將數據集的標準分割成訓練數據和驗證數據。訓練數據集由8862幅圖像組成,驗證包含1366幅圖像。韓科院的多光譜數據集包含95000幅可見光(RGB圖像)和熱光譜圖像,對於每個類別,數據集既有白天圖像,也有夜間圖像。註釋只提供給person類一個給定的邊框。可見光譜(RGB圖像)和熱圖像是成對的,這意味着對熱圖像和可見光譜(RGB圖像)的標註是相同的。使用分辨率爲320×256的FLIR A35相機拍攝圖像。我們應用了數據集的標準分割,在訓練中使用數據集中80%的圖像,在驗證時使用數據集中20%的圖像。

B、基於風格一致性的熱圖像目標檢測

利用最先進的目標檢測網絡,驗證了該方法的有效性。目標檢測網絡包括Faster-RCNN、SSD-300、SSD-512。這些目標檢測網絡採用不同的骨幹結構實現;例如,在Fast R-CNN中,ResNet-101被用作骨幹網絡;SSD-300使用VGG16、MobileNet、Efficient entNet;SSD-512採用VGG16作爲骨幹架構。數據集包括FLIR ADAS和KAIST多光譜數據集。FLIR ADAS數據集使用標準分割分爲訓練和測試,而KAIST數據集僅用於測試目標檢測網絡。所有的網絡都是用Pytorch實現的,數據都是PASCALVOC格式。本研究採用標準的PASCAL-VOC評價標準[8]。

(1)、Baseline:首先對Baseline方法進行了試驗,以進行競爭分析。目標檢測網絡是按照其特定的訓練配置進行訓練的。在訓練Faster-RCNN時,採用ResNet-101的預訓練模型對熱圖像數據集進行調整和微調。網絡是訓練使用Adam優化與學習率10−4和勢頭0:9爲總時代15。SSD對象檢測網絡的實驗評估由i-e SSD-300和SSD-512兩種不同架構組成。在訓練SSD-300時,根據訓練數據對預訓練的骨幹網模型進行微調。作爲SSD-300骨幹網絡的VGG16、MobileNet和efficient entnet的學習率分別爲10^−4、10^−3和10^−3。對於SSD-512實驗,只有預先訓練過的vga -16作爲訓練的後端,學習率爲10 - 3。在擁有6GB計算內存的Nvidia-GTX-1080上,所有網絡都使用了4的批處理大小。

                                      

(2)、實驗配置: 在提出的方法中,MSGNet被訓練成內容圖像,而RGB圖像對應風格圖像。在MSGNet的訓練中,使用VGG16作爲損耗網絡。採用在ImageNet數據集上預先訓練好的loss network的權值來訓練MSGNet。在損失網絡中,平衡權如方程所示。3分別爲lc = 1和ls = 5,而內容和風格的總變分正則化爲lTV = 10^−6。在實驗配置中,迭代更新樣式圖像xs的大小,大小分別爲[256;512;768]。內容圖像的大小被調整爲256×256。Adam優化器與學習率10^−3在訓練配置使用。MSGNet在Nvidia-GTX-1080上總共訓練了100個epoch,一批是4個epoch。MSGNet的訓練模型生成了如圖1 (a)所示的風格圖像,這些風格圖像用於訓練目標檢測網絡。通過對熱成像測試數據的分析,對訓練在風格圖像上的檢測網絡進行評估。目標檢測網絡的訓練配置保持與基線配置相似,進行對比分析。

(3)、實驗結果:爲了評估我們的實驗配置,我們測試了基線和提出的方法,在兩個熱數據集(FLIR ADAS和KAIST多光譜)。表i顯示了每個檢測網絡基線配置的平均平均精度(mAP)得分,即對網絡進行熱圖像訓練和熱圖像評價。表二爲所提方法的定量結果。實驗結果表明,該方法的最佳模型配置爲(SSD512+VGG16)。與基線配置相比,該方法的最佳模型配置的地圖得分具有更好的評價得分。相反,在熱圖像上訓練的檢測網絡在風格圖像上測試的檢測網絡表現出邊際有效性,如表iii所示。圖1(a)是通過風格一致性對熱圖像中目標檢測的定性結果。最佳模型配置(SSD512+VGG16)的定性結果如圖4 (1strow)所示。

                                 

C、熱圖像中目標檢測的跨域模型傳輸

跨域模型評估採用目標檢測器在可見光譜(RGB圖像)上的訓練。本實驗使用KAIST數據集,考慮到兩個域的標籤都是可用的。本研究納入的目標檢測網絡包括Faster-RCNN、SSD-300、SSD-512。網絡模型配置類似於ODSC。Fast R-CNN是ResNet-101主幹的後端。對SSD-300網絡進行了VGG16、MobileNet、高效網骨幹網的試驗。此外,SSD-512是VGG16體系結構的後端。訓練所有檢測網絡的學習率都是10−3,除了帶efficiency net主幹的SSD-300,它被測試爲10−4。所有上述檢測網絡的批處理大小爲4。與ODSC類似,使用MSGNet生成樣式化的圖像,如圖1(b)所示。在這種情況下,內容圖像由可見域(RGB圖像)組成,風格從熱圖像轉移,這意味着內容圖像(RGB圖像)和風格圖像(熱圖像)之間的風格轉移提高了目標檢測效率。通過風格一致性,MSGNet的超參數與熱圖像目標檢測的實驗配置保持一致。然後在這些生成的樣式圖像上測試檢測網絡。1)實驗結果:通過對訓練後的網絡對風格圖像和非風格圖像進行評價,研究了該方法的評價。表4給出了跨域模型轉移的定量結果。定量分析結果表明,與不使用樣式轉移的跨域模型轉移相比,使用帶有樣式轉移的跨域模型轉移提高了目標檢測效率。此外,使用跨域模型傳輸的方法將克服註釋未標記數據集的差距,並有助於作爲未標記數據集的弱檢測器。使用風格轉移對CDMT的定性評價如圖1(b)所示,圖4 (2ndrow)爲使用風格轉移CDMT對目標檢測的定性結果。

                                 

5、討論

爲了提高所提方法的有效性,我們使用最先進的方法對所提方法進行了廣泛的分析。表v顯示了所提出的方法(ODSC和CDMT)與最新方法的比較。在我們的分析中,我們考慮了在FLIR ADAS和KAIST多光譜數據集上使用標準PASCAL-VOC評估的方法。除了地圖得分,類地圖得分也與最新的方法進行比較,並與所提出的方法進行比較。此外,該方法的比較並不侷限於只包含領域自適應的方法。將目標檢測結果與PiCA-Net[26]和R3Net[26]等常用目標檢測方法進行了比較,這些方法使用顯著性映射進行了目標檢測。從表v中可以明顯看出,在大多數類別中,與現有的基準測試相比,我們提出的策略具有更好的性能。在未來的工作中,我們的目標是提高在低光照條件下自動駕駛汽車的感知能力。車道檢測和分割是在可見區域內進行的一項具有挑戰性的工作。在熱領域完成這些任務將有助於增強自動駕駛車輛的視覺感知。

6、討論

本研究的重點是提高自動駕駛車輛在低光照條件下的目標檢測。提出了一種基於風格一致性的區域自適應方法。我們利用MSGNet將低層特徵從源域轉移到目標域,同時保持高層語義特徵的一致性。該方法比現有的熱域目標檢測方法有更好的性能。此外,通過在可見區域和熱區域之間採用跨域模型轉換,增強了模式轉換的有效性。該方法不僅適用於低光照條件下的自動駕駛汽車,也適用於一般的機器人。目標檢測是感知的一個組成部分,而未能檢測到目標會危及自動駕駛汽車的安全。在探索紅外光譜時,熱圖像提供了對周圍環境的額外洞察,提出的技術改進了熱圖像中目標檢測的結果,對自動駕駛的安全有積極的影響。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章