Title	MSeg: A Composite Dataset for Multi-domain Semantic Segmentation
標題	MSeg:用於多域語義分割的複合數據集
pdf	http://vladlen.info/papers/MSeg.pdf
評價	沒有提出新的模型或者損失函數什麼的；工作量大，將幾個語義分割數據集合並，需要合併或者拆分類，進而聯合訓練；可想而知，聯合訓練結果不會比單獨訓練效果好；奈何文中說你看我在這幾個測試數據集上的平均值，要比你單獨訓練的模型在其他數據集上也測試一下得到的平均值要好。

摘要

我們介紹了MSeg，這是一個複合數據集，它統一了來自不同領域的語義分割數據集。由於不一致的分類和註釋，對組成數據集的簡單合併會導致性能低下。我們協調了分類，並通過重新標記超過80000個圖像中的超過220,000個對象掩碼，使像素級註釋對齊。生成的複合數據集支持訓練單個語義分割模型，該模型可以跨域有效地工作，並可泛化到訓練期間沒有看到的數據集。我們採用零鏡頭跨數據集傳輸作爲基準，系統地評估了模型的魯棒性，並表明MSeg訓練產生的模型比單獨的數據集訓練或沒有提供貢獻的數據集的單純混合訓練的魯棒性要高得多。在MSeg上訓練的模型在WildDash排行榜上排名第一，用於魯棒性語義分割，在訓練期間不暴露WildDash數據。

1. 簡介

每年都有數百篇論文發表，這些論文報道了語義分類基準越來越高的準確性，如Cityscapes[7]、Mapillary[25]、COCO[19]、ADE20K[46]等。然而，一項簡單的行動就可以表明任務尚未完成。當你穿越一系列的環境時，帶上相機並開始記錄:例如，在你的房子周圍打包一些用品，進入汽車，開車穿過你的城市去郊區的森林，然後徒步旅行。現在對錄製的視頻進行語義分割。是否有一個模型可以成功地執行這個任務？

計算機視覺專業人員可能會求助於多個模型，每個模型針對不同的數據集進行訓練。也許一個模型在NYU的數據集上訓練用於室內部分的[34]，一個模型訓練用於駕駛部分的Mapillary，一個模型訓練用於遠足的ADE20K。然而，這不是一種令人滿意的事態。它給開發多個模型和實現一個決定在任何給定時間應該使用哪個模型的控制器的從業者帶來了負擔。這也表明我們還沒有得到一個令人滿意的視覺系統:畢竟，動物可以用一個單一的視覺器官來穿越相同的環境，而這個視覺器官在整個過程中繼續執行它的感知任務。

一種自然的解決方案是在多個數據集上訓練一個模型，希望其結果在任何給定的環境中都能像最佳專用模型一樣執行。正如之前所觀察到的，並在我們的實驗中得到證實，結果遠遠不能令人滿意。一個關鍵的潛在問題是，不同的數據集有不同的分類:也就是說，它們對構成可視實體的類別或類有不同的定義。跨來自不同領域的數據集的分類衝突和不一致的註釋(例如，室內和室外、城市和自然、特定領域和未知領域)大大降低了在多個數據集上訓練的模型的準確性。

在本文中，我們將採取措施來解決這些問題。我們展示了MSeg，這是一個複合數據集，它統一了來自不同領域的語義分割數據集:COCO[19]、ADE20K[46]、Mapillary[25]、IDD[40]、BDD[43]、Cityscapes[7]和SUN RGB-D[36]。對7個數據集的分類進行一次簡單的合併將產生300多個類，在定義和註釋標準方面存在大量的內部不一致性。相反，我們協調分類、合併和拆分類，以得到一個包含194個類別的統一分類。爲了使像素級的註釋符合統一的分類法，我們通過Mechanical Turk平臺進行了大規模的註釋工作，並通過重新標記對象掩碼在數據集中生成兼容的註釋。

由此產生的複合數據集能夠訓練統一的語義分割模型，從而更接近於實現Papert的願景。MSeg訓練生成的模型能夠更好地泛化訓練期間沒有看到的數據集。在實際的[27]模型中，我們採用zero-shot cross-dataset transfer作爲模型期望性能的代理。在這種模式下，MSeg訓練比在單個數據集上的訓練或在沒有分類協調的情況下在多個數據集上的訓練要健壯得多。特別是，我們的mseg訓練的模型爲健壯的語義分割[44]設置了一個新的WildDash基準。我們的模型在WildDash排行榜上排名第一，在訓練過程中沒有看到任何WildDash數據。

2. 相關工作

2.1 跨域的語義分割。

混合分割數據集主要是在單一的領域和應用程序，如駕駛。Ros等人收集了6個駕駛數據集。bevet al.[1]將Mapillary、Cityscapes、WildDash validation set和ImageNet- 1k - bb (ImageNet[9]的子集，有邊界框註釋)混合用於WildDash[44]上的聯合分割和離羣點檢測。在較小的尺度上，[16,22]混合了Mapillary、Cityscapes和German Traffic Sign Detection Benchmark。與這些工作相比，我們關注跨多個域的語義分割，並在更深的層次上解決數據集之間的不一致性，包括重新標記不兼容的註釋。

Varma等人對用於駕駛的語義分割數據集的遷移性能進行了評估。它們只使用16個公共類，沒有任何數據集混合。他們觀察到跨數據集遷移明顯不如自我訓練。我們觀察到，當模型在單獨的數據集上訓練時，或者當數據集被天真地混合時，都有相同的結果。

Liang等人通過混合Cityscapes、ADE20K、COCO Stuff和Mapillary來訓練模型，但不評估跨數據集泛化。Kalluri等人的[14]混合數據集對(Cityscapes + CamVid, Cityscapes + IDD, Cityscapes + SUN RGB-D)進行半監督學習。

阻礙統一語義分割的一個根本問題是數據集分類的不兼容性。與前面提到的嘗試相反，我們通過派生一致的分類法來直接解決這個問題，這種分類法連接來自多個域的數據集。

2.2 域適應和泛化

訓練數據集是有偏見的，在現實世界中部署時，使用的數據與在訓練[38]中看到的數據不同。
這被稱爲協變量移位[32]或選擇偏差[13]，可以在自適應或泛化設置中處理。在適應中，來自測試分佈(部署環境)的樣本在訓練期間是可用的，儘管沒有標籤。一般來說，我們期望模型在對來自多個域的數據進行訓練後，能夠泛化到以前未見過的環境。

我們在泛化模式下進行操作，目的是訓練在新環境中表現良好的魯棒模型，在訓練過程中沒有來自目標領域的數據可用。許多域泛化方法都基於這樣的假設，即對訓練域不變的學習特徵將促進到新域的泛化[21,23]。Volpi等人將區域差異作爲數據分佈空間中的噪聲，採用分佈魯棒優化。Bilen和Vedaldi[2]建議學習一種統一的表示，並使用實例規範化消除領域特定的伸縮因子。Mancini等人的[21]修改批處理規範化統計數據，使特徵和激活域不變。

上述域泛化方法假設相同的分類器可以應用於所有環境。這依賴於可視類別的兼容定義。我們的工作是互補的，並可以通過提供一個兼容的分類和一致的註釋跨不同領域的語義分割數據集，促進未來的研究領域泛化。

2.3 跨越不同域的視覺學習

Visual Domain Decathlon[28]引入了超過10個圖像分類數據集的基準，但是允許對所有這些數據集進行訓練。更重要的是，它的目的不是訓練單個分類器。相反，他們希望各領域能夠通過在多任務環境中傳遞歸納偏差來互相幫助。Triantafillou等人[39]提出了一種用於基準化few-shot分類算法的元數據集。

對於單目深度估計問題，Ranftl等人使用多個數據集，並通過多任務學習框架將其混合。我們受此啓發，旨在促進數據集混合和跨數據集泛化在語義分割方面的進展。與Ranftl等人處理幾何任務(深度估計)的工作不同，我們面臨跨數據集的語義標記的不一致性，併爲解決這些不一致性做出了貢獻。

3. MSeg Dataset

表1列出了MSeg中使用的語義分割數據集。這組數據集是一個選擇後的結果，考慮了更多的候選人。未被使用的數據集，以及不包括這些數據集的原因，都在附錄中列出。

我們選擇訓練/測試數據集分割的指導原則是，大的、現代的數據集對於訓練是最有用的，而老的和小的數據集對於測試是很好的候選者。我們在這些數據集的驗證子集上測試zero-shot跨數據集性能。請注意，來自測試數據集的數據(包括它們的訓練分割)從來沒有在MSeg中用於訓練。對於驗證，我們使用表1中列出的訓練數據集的驗證子集。

我們使用免費的，學術版的Mapillary Vistas[25]。在此，我們放棄對交通標誌，交通信號燈和車道標誌進行高度詳細的分類，以支持更廣泛地使用MSeg。

對於COCO[19]，我們以COCO Panoptic的分類作爲出發點，而不是COCO Stuff[4]。COCO Panoptic的分類法將一些基於材料的COCO類合併到與其他數據集更兼容的常見類別中。例:floormarble, floor-other, and floor-tile被合併到地板中。

將構成數據集簡單地組合在一起可以生成大約200K個帶有316個語義類的圖像(在合併具有同義名稱的類之後)。我們發現，在原始組合數據集上進行訓練會導致較低的準確性和較差的泛化。我們認爲，失敗的主要原因是不同數據集中的分類和註釋不一致。下面的小節將解釋這些問題和我們的解決方案。

3.1 分類

爲了訓練一個跨域的語義模型，我們需要一個統一的分類。我們遵循一系列決策規則(如圖3所示)來決定對構成數據集的分類進行拆分和合並操作。我們將通過構成數據集獲得的316個類壓縮爲194個類的統一分類。完整的列表在圖4中給出，並在附錄中進一步描述和可視化。這些類中的每一個都是從構成數據集中的類派生出來的。

在設計MSeg分類時，我們有兩個主要目標。首先，應該儘可能多地保留類。例如，護欄不應該僅僅因爲COCO、BDD或IDD沒有註釋就被丟棄。合併類會降低結果模型的識別能力。其次，分類法應該是扁平的，而不是分層的，以最大限度地與標準的訓練方法兼容。

MSeg類別可以與組件數據集中的類具有以下關係之一：（a）它可以與組件分類法中的類直接對應，（b）可以是合併了一個類別中的多個類的結果組件分類法，（c）可能是在組件分類法中拆分一個類的結果（一對多映射），或者（d）可能是從組件分類法中的不同類中拆分出來的類的並集。

圖2顯示了40個類的這些關係。例如，COCO和ADE20K中的類person對應於Mapillary數據集中的四個類(person、rider-other、bicycle和motorbicycle)。因此，COCO和ADE20K中的person標籤需要根據上下文分爲上述四個map類別之一。(參見圖2中的框COCO-E和ADE20K-D)。Mapillary比其他駕駛數據集更細粒度，並且將坑洞、停車、道路、自行車道、服務道、人行橫道、車道標記、車道標記、人行橫道分別進行分類。這些類被合併到一個統一的MSeg road類中。(參見圖2中的方框Mapillary-C。)從組件數據集中合併和分離類有不同的缺點。合併很容易，並且可以通過編程方式執行，不需要額外的標記。缺點是，投入到原始數據集的標記工作被犧牲了，結果的分類具有更粗的粒度。另一方面，分裂是勞動密集型的。要從組件數據集中拆分類，需要重新標記該類的所有掩碼。這爲最終的分類提供了更細的粒度，但是需要花費時間和人力。圖3中總結的過程是我們權衡這些成本的方法。、

3.2 重新標記拆分類的實例

我們利用Amazon Mechanical Turk (AMT)重新標記需要分割的類的掩碼。我們只重新註釋用於學習的數據集，而保留完整的評估數據集。我們沒有重新計算邊界，而是將問題表示爲多路分類，並要求註釋器根據MSeg分類法將每個掩碼分類爲更細粒度的類別。我們在附錄中包括一個標籤屏幕、工作流和標籤驗證過程的例子。我們一共劃分了31個class，重新標記了221323個掩膜。我們在圖2中可視化了一些拆分操作，並在附錄中提供了更多的細節。

AMT工作人員有時會提交不準確的、隨機的、甚至是對抗性的決策[35]。爲了確保註釋質量，我們將標記任務嵌入到每批工作中[6,12,29]，至少佔每批工作的10%。這些哨兵是任務的地面真相是明確的，是由我們手動註釋。我們使用sentinels自動評估每個註釋器的可靠性，這樣我們就可以將工作引向更可靠的註釋器。五個工人批註每一批，工作被重新提交，直到所有提交的批次達到100%的標記準確度。之後，以多數票決定類別;不滿足這些標準的類別由專家註釋器(作者之一)在內部手動標記。

4. 實驗結果

4.1 實現細節

我們使用HRNet-W48[37]架構作爲我們的模型。我們使用具有動量和多項式學習速率衰減的SGD，學習速率從0.01開始。**當從多個數據集中形成一個大小爲m的minibatch時，我們按照訓練數據集的數量n來平均分割這個minibatch，這意味着每個數據集將爲每個minibatch貢獻m/n個例子。**因此，在我們的訓練過程中，對於統一數據集沒有epoch的概念，而只是從每個數據集中看到的全部樣本。例如，在一個有效的COCO epoch中，Mapillary將完成超過6個有效的epoch，因爲它的數據集小於COCO的1 / 6。我們一直訓練，直到每個數據集的圖像都被看到了100萬個裁剪圖片。

跨組件數據集的圖像分辨率不一致。例如，Mapillary包含許多分辨率爲20004000的圖像，而大多數ADE20K圖像的分辨率爲300400。在訓練之前，我們使用2或3倍超分辨率[17]來首先向上採樣低分辨率的訓練數據集到一個高分辨率的訓練數據集(至少1000p)。在訓練時，我們將來自不同數據集的圖像調整到一致的分辨率。具體來說，在我們的實驗中，我們調整了所有圖片的大小，使它們的短邊爲1080像素(同時保留長寬比)，並使用裁剪大小爲713*713像素。在測試時，我們將圖像大小調整爲三種不同分辨率之一(圖像較短的一側爲360/720/1080)，執行推斷，然後將預測映射插值回原始分辨率進行評估。分辨率級別(360/720/1080)是爲每個數據集設置的。更多的細節在附錄中提供。

4.2 在留存數據集上使用MSeg分類

在推理時，我們在每個像素上得到統一分類類別的概率向量。必須將這些統一的分類概率轉換成測試數據集分類體系。例如，在摩托車手、自行車手和騎車人的統一分類中，我們有三個獨立的概率。我們把這三個加在一起來計算一個cityscapes騎車人的概率。

4.3 Zero-shot遷移性能

我們使用MSeg訓練集來訓練一個統一的語義分割模型。表2列出了模型向MSeg測試數據集的Zero-shot遷移的結果。注意，模型在訓練期間沒有看到這些數據集。爲了進行比較，我們列出了在組成MSeg的單個訓練數據集上訓練的相應模型的性能。作爲參考，我們還列出了在測試數據集的訓練分割上進行訓練的oracle模型的性能。注意，WildDash沒有一個訓練集，因此沒有爲它提供oracle性能。

表2中的結果表明，有時可以通過對具有兼容先驗的特定訓練數據集進行訓練來獲得在特定測試數據集上的良好性能。例如，COCO的訓練在VOC上有很好的表現，Mapillary下的訓練在KITTI上有很好的表現。但是沒有一個單獨的訓練數據集在測試數據集中產生良好的性能。相反，在MSeg上訓練的模型在所有數據集上執行一致。這在總體性能上是很明顯的，通過跨數據集的調和平均值進行了總結。通過mseg訓練模型得到的調和平均mIoU比最佳單獨訓練基線(COCO)的精度高28%。

表2:MSeg測試數據集上的語義分割精度(mIoU)。(Zero-shot cross-dataset泛化)。頂部:在單個訓練數據集上訓練的模型的性能。中間:同樣的模型在MSeg(我們的結果)上訓練。底部:供參考，oracle模型在測試數據集上的性能訓練。最右邊的一列是一個彙總度量:跨數據集的調和平均值。

4.4 在訓練數據集上的性能

表3列出了MSeg訓練數據集上訓練模型的準確性。我們在驗證集上進行測試，並在數據集和MSeg分類中共同出現的類子集上計算IoU。除了Cityscapes和BDD100K之外，所有訓練數據集的驗證集的結果都不能直接與文獻進行比較，因爲MSeg分類涉及合併多個類。正如預期的那樣，經過單獨訓練的模型在相同的數據集上測試時通常表現出良好的準確性:經過COCO訓練的模型在COCO上表現良好，等等。MSeg模型的總體性能是通過數據集間的調和平均值來總結的。它比最好的個人訓練基線(COCO)高出68%。

4.5 WildDash基準

WildDash基準[44]專門評估語義分割模型的魯棒性。圖像主要包含不尋常和危險的道路場景(例如，惡劣的天氣、噪音、失真)。基準測試的目的是測試在其他數據集上訓練的模型的健壯性，而不提供自己的訓練集。爲驗證提供了一小組70個帶註釋的圖像。評估的主要模式是一個排行榜，帶有一個測試服務器和一個帶有隱藏註釋的測試集。主要的評估指標是元平均mIoU，它結合了與不同危害和每幀IoU相關的性能指標。

我們將在MSeg上訓練的模型的結果提交到WildDash測試服務器，並使用多尺度推理。請注意，WildDash不在MSeg訓練集中，提交的模型在訓練期間從未見過WildDash圖像。結果見表4。我們的模型在排行榜上排名第一。值得注意的是，我們的模型比在多個數據集上訓練並在訓練中使用WildDash驗證集的方法表現更好。與(像我們的)在訓練中沒有利用WildDash數據的最佳先驗模型相比，我們的模型的準確率提高了9.3個百分點:相對提高了24%。

4.6 定性的結果

圖5提供了來自不同測試數據集的圖像的定性結果。與基線不同，MSeg模型在所有領域都是成功的。在ScanNet上，我們的模型甚至比提供的地面事實提供了更準確的椅子預測。相比之下，ADE20K模型對錶格是盲目的，而地圖訓練的模型在ScanNet的室內環境中完全失敗。在CamVid上，map-和coco -訓練的模型錯誤地預測了路面上的人行道;ADE20K和coco培訓的模型沒有騎手的概念，並將騎自行車的人誤認爲行人。在Pascal VOC上，我們的模型是唯一能正確識別一個人站在飛機的移動樓梯上的模型;一個經過20年訓練的模型錯誤地預測了一艘船，而一個地圖模型看到了一輛車。在另一個Pascal圖像上，ADE20K沒有horse類，相應的模型無法識別它。

4.7 消融研究

表6報告了對我們的兩個貢獻的評估:統一分類(第3.1節)和兼容的重新標記(第3.2節)。簡單的合併基線是在組合數據集上訓練的模型，該數據集使用一種簡單的合併分類，其中類是所有訓練類的聯合，並且每個測試類只有在它們具有相同的名稱時才映射到一個通用類。MSeg (w/o重新標記)基線使用統一的MSeg分類，但不爲拆分類使用手工重新標記的數據(第3.2節)。在給出的複合數據集(MSeg)上訓練的模型比基線具有更好的性能。

5. 結論

我們提出了一個用於多域語義分割的複合數據集。爲了構造複合數據集，我們協調了七個語義分割數據集的分類。在需要劃分類別的情況下，我們通過Mechanical Turk平臺進行了大規模的mask重新打標籤。我們展示了生成的複合數據集可以訓練一個統一的語義分割模型，該模型可以跨域提供一致的高性能。經過訓練的模型可以推廣到以前未見過的數據集，並且目前在WildDash的語義細分排行榜上排名第一，在訓練過程中沒有暴露WildDash數據。我們認爲，目前的工作是邁向更廣泛部署穩健的計算機視覺系統的一步，並希望它將支持未來在零鏡頭泛化方面的工作。代碼、數據和經過訓練的模型可以在https://github.com/mseg -dataset上獲得。

MSeg: A Composite Dataset for Multi-domain Semantic Segmentation——論文翻譯

摘要