【谷歌翻譯】Multi-Class Lane Semantic Segmentation using Efficient Convolutional Networks

使用高效卷積網絡的多類車道語義分割

純粹的谷歌翻譯,沒有做任何語句流暢性的改動,也沒有任何分析

摘要:

車道檢測在自動駕駛汽車中起着重要作用。 多項研究利用語義分割網絡來提取魯棒的車道特徵,但很少有人能夠區分不同類型的車道。 在本文中,我們關注於多類車道語義分割問題。 基於觀察到車道是道路場景圖像中的小尺寸和窄寬度的對象,我們提出了兩種技術:特徵尺寸選擇(FSS)和遞減膨脹塊(DD塊)。 FSS允許網絡使用適當的特徵尺寸提取細車道特徵。 爲了獲取細粒度的空間信息,DD塊由一系列具有遞減的擴張率的擴張卷積組成。 實驗結果表明,所提出的技術與基線系統相比,在精度上有明顯提高,同時實現了相同或更快的推理速度,並且可以在高分辨率圖像上實時運行。

INTRODUCTION

車道檢測是瞭解道路場景以實現自動駕駛的一項至關重要的技術。 通常,車道檢測算法包括三個步驟:車道特徵提取,特徵段分組和車道模型擬合[5]。 在這些步驟中,第一步是最關鍵和最具挑戰性的步驟,因此我們在這項工作中將重點放在此步驟上。 傳統的車道特徵提取方法需要精心設計的圖像處理程序來獲取車道特徵[1]。 例如,基於梯度的方法計算梯度以捕獲車道邊界[13,14,19]。 研究人員進一步結合了多種信息來源,包括強度,顏色和邊緣[17],以增強檢測能力。 車道形狀模型建立了檢測車道的假設標準,例如雙曲線對[16]和B蛇[18]。 但是,這些常規算法的魯棒性不足以抵抗環境變化的影響,例如噪聲,照度變化和天氣狀況。

近年來,深度卷積神經網絡(CNN)在計算機視覺領域取得了突破[7,10,12]。一些研究人員採用語義分割網絡進行車道特徵提取。這些基於CNN的系統具有更高的魯棒性,並且對環境變化不那麼敏感。然而,就我們所知,目前很少有研究專注於一項具有挑戰性的任務,即“多類車道語義分割”(見圖1)。例如,LMD [6]設計了基於SegNet [2]的網絡體系結構來分割通道。 LMD以實時推理速度實現了高性能,但它不能區分不同類型的通道。 Zang等。 [21]使用CNN來找到兩類車道像素:黃線和白線,但是他們的方法只能處理非常小的尺寸的32×32圖像。識別不同類型的車道,例如黃線,紅線,雙線,實線和虛線,對於自動駕駛車輛至關重要,因爲它應該瞭解這些道路標記的含義。儘管如此,著名的DeepLabv3 + [4]是性能最高的細分模型之一,而ICNet [22]則致力於自動駕駛應用,但並未關注細分多類車道。根據我們的經驗,如果沒有適當的修改,這些主流架構即使功能強大,也可能不適合承擔多類車道語義分割的任務。

在本文中,我們提出了兩種技術,即特徵尺寸選擇(FSS)和遞減擴張塊(DD塊),以修改現有的語義分割網絡。這些想法來自我們的觀察,即在典型的道路場景圖像中,車道標記是小尺寸和窄寬度的對象。 EDANet [11]在準確性和推理速度之間具有良好的平衡,並且它是用於自動駕駛的合適系統。結果,我們選擇它作爲基準體系結構並在其上應用我們的技術(見圖1)。

EDANet從兩個下采樣模塊開始以提取特徵。但是,下采樣過程往往會丟失詳細的空間信息,這特別不利於小物體。一些細路甚至可能被完全丟棄。另一方面,如果我們取消下采樣操作,則網絡的接收範圍將縮小。因此,我們提取了不同特徵圖大小的特徵,以調查對通道分割的下采樣操作的最佳使用。我們將此策略稱爲“特徵尺寸選擇(FSS)”。接下來,類似於許多其他網絡,EDANet採用增量卷積速率的卷積卷積來逐漸擴大接收場。儘管如此,由於卷積核的稀疏性,膨脹的卷積會跳過一些空間像素樣本,並且無法聚合小對象的完整而詳細的信息。濱口等。 [8]開發了LFE模塊,該模塊由具有遞減膨脹率的幾個卷積層組成,以提取局部特徵。我們採用LFE模塊的基本概念,但使用一個EDA模塊作爲一個單元而不是一個卷積層。我們將具有遞減膨脹率的堆疊EDA模塊命名爲遞減膨脹塊(DD Block)。

總而言之,這項工作探討了一項具有挑戰性的任務,即多類車道語義分割。我們將當前的語義分割系統擴展爲能夠區分各種類型的車道標記。我們在由工業技術研究院(ITRI)創建的ITRI數據集上評估我們的系統。與基線網絡相比,所提出的兩種技術明顯提高了準確性,並實現了相同或更高的推理速度。它們可以在高分辨率圖像上實時運行,因此適用於自動駕駛應用。

METHOD

車道是道路場景圖像中相對較小且較細的對象,因此我們需要開發針對小對象語義分割的新策略。 在本節中,我們將介紹兩種提議的技術(FSS和DD塊)的細節。 這兩種方法是在基準網絡EDANet [11]上構建的,我們分別將其命名爲EDA-FSS和EDA-DDB。

A. Feature Size Selection

詳細的空間信息對於準確的車道定位很重要。典型的CNN具有多個下采樣層,其中EDANet具有三個下采樣操作。在兩個下采樣塊之後,即在尺寸爲輸入大小1/4的特徵圖上,它開始提取特徵。圖2(a)說明了EDANet的體系結構。降採樣的特徵圖往往會丟失精確的邊界信息,有時細線會消失。但是,在大型特徵圖上提取特徵需要更多的計算。另外,獲得足夠寬的接受場更加困難。在這兩個需求之間取得良好的平衡是一個挑戰。

EDA-FSS,建議的體系結構,如圖2(b)所示。它在EDANet的第一個和第二個下采樣模塊之間放置了一個額外的EDA模塊0,該模塊由兩個EDA模塊組成。使用EDA塊0,啓用EDA-FSS可以在較大的要素圖(輸入大小的1/2)上提取要素,因此可以檢測到較小的對象或詳細的邊界。爲了保持相似的計算複雜度以實現較高的推理速度和公平的比較,我們將EDA塊1和EDA塊2中的EDA模塊數量分別從5減少到4和8減少到5。每個卷積層的增長率也從40降低到30。EDA-FSS的總深度和寬度比EDANet的更淺,更窄,因爲在早期執行操作需要更多的計算。對於此特定任務,此折衷可成功提高分割精度。

B. Degressive Dilation Block

擴張卷積被許多語義分割網絡廣泛使用[3,20]。通常,這些架構利用增量卷積速率來利用擴張的卷積來逐步擴大接收場。 EDANet也採用相同的概念。但是,該設計存在以下問題:相鄰像素的濾光片支架可能會在局部特徵中產生不一致的空間信息。換句話說,較深層中的相鄰像素的接收場可能僅在較淺層中彼此稍微重疊。此外,由於卷積核的稀疏性,可能無法收集基本的局部特徵。此問題將導致對細小物體的識別不準確。濱口等。 [8]提出了一種稱爲局部特徵提取(LFE)模塊的體系結構,其目的是分割遙感圖像中的小實例。 LFE模塊由具有遞減膨脹率的幾個卷積層組成,可以在一定程度上解決上述問題。

受LFE模塊啓發,我們提出了一種新結構DD Block。與使用一個卷積層作爲結構單元的LFE模塊不同,它的單元是一個EDA模塊。 DD模塊由四個具有遞減膨脹率的EDA模塊組成:8、4、2和1。我們將建議的DD模塊插入EDANet中以構建EDA-DDB。表I比較了EDANet和EDA-DDB之間的結構。 EDA-DDB添加了一個DD塊,並將EDA塊2中的EDA模塊數量從八個減少到了四個。擴張速度依次爲2、4、8和16。 EDA-DDB具有與EDANet相同的參數數量和計算複雜性。

EXPERIMENTS

我們構造了提議的FSS和DD塊的幾種變體。 然後,我們進行了一系列實驗以分析其性能。 在本節中,我們首先介紹我們使用的數據集。 接下來,描述實施細節。 最後,報道了實驗結果。

A. ITRI Dataset

ITRI數據集由臺灣工業技術研究院(ITRI)的機械和機電系統研究實驗室創建。 據我們所知,它是第一批具有不同類型行車線的像素級註釋的數據集。 該數據集仍在增長,因此我們僅使用其當前可用的子集。 我們將給定的集合C2,C3,C7,C13,C18和C20組合在一起,形成包含2,192張圖像的訓練集。 測試集包括C4和C14集,共567張圖像。 數據集共有六個類別,包括四種類型的行車線,道路和未定義類別。 泳道的四種類型是雙黃實線,單黃虛線,紅實線和白實線。 道路上的所有其他標記均標記爲道路類別。 圖像分辨率爲480×720。 圖3顯示了一些示例。

B. Implementation Details

我們遵循與EDANet [11]中類似的培訓設置。 我們的網絡是使用Adam優化[9]進行訓練的。 權重衰減設置爲1e-4,批量大小爲16。我們將初始學習率設置爲5e-4,並採用多學習率策略; 也就是說,學習率乘以(1- − / max _))乘以0.9。 隨機水平翻轉和兩個軸上0到2像素的平移用於數據增強。 我們採用交叉相交的平均值(mIoU)作爲準確性評估的指標。 我們不使用任何測試技巧,例如多作物和多規模測試。 我們的計算設備是單個GTX 1080Ti。

C. Feature Size Selection

我們在ITRI數據集上評估提出的EDA-FSS的性能。 我們還設計和評估了EDA-FSS的兩個網絡變體,稱爲網絡A和網絡B,以進行比較。 它們的體系結構如圖4所示。與EDA-FSS相比,網絡A將EDA塊0中的EDA模塊的數量從2增加到4,但是整個EDA塊2被丟棄以保持相似的計算複雜性。 網絡B在第一個下采樣模塊的前面進一步添加了EDA模塊-1 in,該模塊由兩個EDA模塊組成。 此塊提取功能具有原始圖像尺寸(480×720)。 同樣,出於對計算成本和公平比較的考慮,將EDA塊0中的EDA模塊的數量設置爲1。此外,整個EDA塊1從網絡B中刪除。

表II報告了實驗結果。從EDANet到網絡B,要素圖的大小變大,但它們的網絡深度變淺,以保持相似的計算複雜性。然後,我們探索特徵尺寸和網絡深度之間的權衡。首先,我們可以看到我們的基線EDANet在mIoU準確性和運行時間方面都優於另一個著名的高效細分網絡ERFNet [15]。其次,擬議的EDA-FSS在準確性上超過了EDANet,並且運行時間甚至更短。因此,我們得出的結論是,由於保留了更多的空間信息,因此在早期放置一些卷積層能夠提取出用於小對象分割的更多有用特徵。另一方面,網絡A和網絡B的相對較差的性能表明,非常淺的結構雖然會提取較大尺寸的特徵,但卻不是很好的解決方案。它們不能獲得足夠寬的接收場,並且它們的計算成本甚至更高。顯然,EDA-FSS達到了更好的平衡。圖5比較了他們的視覺效果。我們可以觀察到ERFNet在第一個樣本圖像中未能將黃色雙實線識別爲一個統一的泳道。 EDANet在第二個示例圖像中存在相同的問題。接下來,網絡B在第二個樣本圖像中的道路上產生洞。通常,EDA-FSS輸出最精確的結果,其中模式完整無缺並被正確檢測。

D. Degressive Dilation Block

我們評估了提議的EDA-DDB的性能。 同樣,我們爲消融研究設計了幾種變體。 表III比較了每個變體的結構。 EDA-w / o-di不包括任何擴張的卷積。 它用於評估使用膨脹卷積的有效性。 EDA-DDB-L將DD模塊直接連接到EDANet,而不會減少EDA模塊2中的EDA模塊數量。EDA-Large-1添加了四個具有固定擴展率1的EDA模塊。此額外的模塊具有相同的參數數量和 DD塊的複雜性。 EDA-Large-16與EDA-Large-1幾乎相同,不同之處在於其額外塊的固定擴展率爲16。EDA-Large-1和EDA-Large-16用於檢查DD塊是否帶來了改進 EDA-DDB-L中的“降級”是由於遞減膨脹設計或僅僅是附加參數。

如表IV所示,EDA-w / o-di不如EDANet準確,這證明了擴展卷積的有效性。接下來,EDA-DDB-L的性能優於EDANet,但比EDA-Large-16差。結果,EDA-DDB-L的改進可能是由於增加了參數而不是DD Block的概念。最後,提出的EDA-DDB達到了最佳性能,這表明以適當的方式利用不斷降低的膨脹率仍然可以帶來改進。車道是一個細小的物體,因此不會從太深的結構中受益。這是EDA-DDB儘管參數較少但仍能超過EDA-DDB-L的原因之一。總之,在網絡複雜度相同的情況下,EDA-DDB成功地實現了比基線更好的顯着性能。此外,即使在高分辨率圖像(480×720)上,它也可以保持非常短的運行時間。圖6展示了EDA-DDB產生的幾種視覺結果。基本上,它能夠檢測道路場景圖像中的大多數車道,並且可以正確地區分不同類型的車道。儘管如此,它有時還是會錯過側線,特別是右側的紅色線。這是我們可以進一步調查的。

 

CONCLUSION

在本文中,我們提出了兩種用於多類車道語義分割的技術:特徵尺寸選擇和DD塊。 我們發現使用較大的特徵尺寸可以獲取更多的定位信息以進行小對象分割,但是在網絡深度和推理速度之間保持良好的平衡至關重要。 接下來,所提議的EDA-DDB在改進的EDANet中包括DD塊,通過更細粒度的空間信息,可以顯着提高精度。 我們的系統生成強大的車道特徵,可通過車道標記後處理算法輕鬆使用。 而且,它們能夠在高分辨率輸入下實時運行,因此對於真正的自動駕駛汽車來說是可行的。 這項工作中提出的技術不僅限於使用車道檢測,還可以在其他小對象語義分割任務中嘗試使用。

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章