《Automatic Image-Based WasteClassification》論文筆記

論文翻譯

Abstract

      ~~~~~~由於市民和公司每天產生的廢物量不斷增加,在大城市環境中的固體廢物管理成爲一個複雜的問題。當前的計算機視覺和深度學習技術可以幫助對廢物類型進行自動檢測和分類,以進行進一步的回收任務。在這項工作中,我們使用TrashNet數據集來訓練和比較不同的深度學習架構,以對垃圾類型進行自動分類。特別是,比較了幾種卷積神經網絡(CNN)架構:VGG,Inception和ResNet。使用合併的Inception-ResNet模型獲得了最佳的分類結果,該模型達到了88.6%的準確度。這些是通過考慮的數據集獲得的最佳結果。

1 Introduction

      ~~~~~~垃圾收集和回收是現代城市(尤其是大城市)的基本服務。由於可利用的自然資源的減少以及由於產生的垃圾量增加而產生的環境問題,因此需要再循環以減少公民的污染和健康問題。歐洲平均每年產生517公斤垃圾,其中只有一小部分被回收1。根據環境保護署的數據,美國人產生的廢物中有75%可回收,但實際上只有30%可回收。當前,大多數垃圾分類過程都是手工完成的,這給工人帶來了許多健康問題,既費時又需要向公民徵收財務稅2。此外,必須儘快進行廢物分離,以減少廢物被其他材料污染3
      ~~~~~~廢物的分離和回收對於可持續發展的社會是必不可少的。當前,在自動垃圾分類任務中將ICT(例如,使用諸如智能傳感器,雲平臺或物聯網之類的技術和設備)應用於智能城市可以顯着提高這些過程的效率[1]。可以通過垃圾的類型4,廢物的可生物降解性2或其他方面5進行分類。另一方面,世界各地的反垃圾組織和城市政府正在通過人工審覈來評估城市清潔度6。廢物的定位和量化是提高城市清潔度的重要步驟,在印度等人口過剩的國家,這可能成爲健康問題5
      ~~~~~~這些自動垃圾回收系統還可以利用計算機視覺來分析回收工廠捕獲的圖像或視頻,以確定混合垃圾中存在哪種物體。這一階段的良好效果將帶動整個回收過程的良好效果。此外,隨着機器學習技術的發展,特別是深度學習,已經取得了很好的基於圖像的垃圾分類結果3
      ~~~~~~在本文中,我們採用一種有監督的方法對圖像中存在的幾種類型的廢物(例如玻璃,紙張,紙板,塑料等)進行有效分類。爲此,我們訓練並比較了幾種深度分類模型,以識別圖像中存在的不同廢物類別。 TrashNet數據集的圖片4)。
      ~~~~~~論文組織如下。第二部分回顧了基於圖像的廢物分類系統。第3部分概述了不同的深度神經架構使用或監督分類的廢物。第四部分描述了數據集和廢物分類實驗。第五部分是本研究的結論。

2 Previous Work

      ~~~~~~當前用於廢物分離的計算機視覺系統的目標是使用圖像分析技術對物體進行檢測和分類。此過程可以分爲以下步驟:
      ~~~~~~ 1. 細分:涉及分離每種類型的廢物。首先,需要對圖像進行一些預處理,以去除噪聲(例如高斯模糊),增強對比度(例如直方圖均衡)或將其二值化(例如Otsualgorithm)。之後,可以應用多種邊緣檢測方法(例如Canny或分水嶺算法)將圖像分割爲均勻區域1
      ~~~~~~ 2. 特徵提取:在深度學習技術發展之前,需要特徵提取方法(即基於形狀,紋理或顏色描述符)從分段區域中提取有用信息,並從這些特徵中構建自動分類模型。例如,統計矩,基於傅立葉,基於Gabor的描述符,直方圖東方梯度(HOG)是其中一些使用的方法15。另外,在分類階段之前,使用主成分分析(PCA)來降低數據維數5
$~~~~~~$3,學習和分類:提取特徵後,將訓練分類模型以識別廢物中的對象。例如,相關算法7,K最近鄰(KNN)1或SVM 34。 從深度學習的出現開始,各種類型的深度神經體系結構(如AlexNet 4,Faster R-CNN 8或GoogleNet 6)也被應用到所考慮的問題中。 最近已經爲此應用構建了特殊的神經體系結構,例如GarbNet 5或OscarNet 9,它們基於預先訓練的卷積神經網絡體系結構,例如AlexNet或VGG-19。
      ~~~~~~分類時要考慮的一個方面是圖像分辨率。如果圖像很大,可以使用一個滑動窗口6。此外,當數據集大小很小時,可以像在4中那樣應用數據擴充技術。參考文獻中提出的系統主要集中在廢物類型的本地化和分類上。其中一些系統還被實現爲Android應用程序,就像由Mittal等人開發的SpotGarbage一樣。
      ~~~~~~然而,由於許多方法都使用自己的數據集,因此很難對所提方法之間的準確性進行公平比較。因此,可以使用不同的廢物類別來訓練每個提出的模型。表1比較了一些當前基於圖像的深度學習系統,用於垃圾分類。可以理解的是,近年來已經取得了一些良好的結果。我們在這項工作中的目標是評估其他深度模型,這些模型可以改善TrashNet數據集的當前最新垃圾分類。
在這裏插入圖片描述

3 Deep Architectures for Supervised Waste Classification

      ~~~~~~基於卷積神經網絡(CNN)模型的當前許多用於監督分類的圖像的神經體系結構。CNN由卷積層組成,在這些卷積層中,神經元通過卷積函數而不是通過一般的矩陣乘法連接,因此權重是共享的,而不是全部相連。結果,獲得了對於平移,旋轉和其他變換而言不變的空間圖案。
      ~~~~~~在我們的實驗中,我們使用了幾種基於卷積層的神經結構。特別是:
      ~~~~~~ 1. VGG:VGG體系結構是爲高分辨率圖像上的定位和分類任務開發的10。 VGG網絡由深度不斷增加的卷積層和所有卷積層中的小內核(即3×3)組成。 在這項工作中,我們專注於兩個VGG模型:
         ~~~~~~~~~ (a)VGG-16:在VGG-16 11中,由13個卷積層和3個完全連接的層組成的體系結構如下。 一塊具有最大池的兩個64深度卷積層的塊,一個具有最大池的兩個128深度卷積層的塊,具有最大池的三個256深度卷積層的一個塊,兩個具有512深度卷積的塊 具有最大池化的層,具有4096個神經元的兩個全連接層,具有與數據集的類一樣多的神經元和作爲激活函數的SoftMax的一個全連接層。圖1(a)展示了這種體系結構。
         ~~~~~~~~~(b)VGG-19:VGG 19 11是先前模型的變體。唯一的區別是最後三個卷積塊是由4個卷積層而不是3個卷積層形成的。圖1(b)顯示了此體系結構。
      ~~~~~~ 2. ResNet:從諸如AlexNet或VGG之類的深度卷積網絡中,研究一直集中在增加體系結構的深度上,但是消失的梯度問題阻止了它的實現。ResNet引入了跳過連接,以避免降低網絡性能12。結果,從卷積層獲得的特徵映射與前一層獲得的特徵映射相結合。在我們的案例中,我們使用了ResNet-18,它由三個32深度卷積層的一個塊和兩個卷積層的四個塊組成,其深度分別增加了64、128、256和512。除前兩層具有5×5維濾鏡外,所有卷積層均具有3×3維濾鏡。最後,在網絡的底部,有兩個完全連接或密集的層,分別具有512和6個神經元。圖1(c)顯示了ResNet-18架構。
      ~~~~~~ 3. Inception:Inception贏得了ImageNet大規模視覺識別挑戰賽2014(ILSVRC14)。它的主要貢獻是在保持計算預算不變的同時增加了網絡的深度和寬度13。該版本的第一個版本是衆所周知的GoogLeNet。在Inception模塊中,卷積層塊是並行的,而不是VGG中的序列。這意味着,在VGG架構中,卷積層的輸出是塊中隨後的卷積層的輸入,而在Inception架構中,塊中的所有或部分卷積層都具有相同的輸入,並且它們在末尾串聯 圖1(d)顯示了Inception架構。
      ~~~~~~ 4. Inception-ResNet:Szegedy等14結合了Inception和ResNet概念:避免梯度消失的殘差連接和通過保持計算成本來增加網絡的Inception模塊。圖1(e)顯示了最終的Inception-ResNet體系結構。
在這裏插入圖片描述

4 Classification Experiments Using TrashNet

4.1 The TrashNet Dataset

      ~~~~~~TrashNet數據集4由斯坦福大學的Mindy Yang和Gary Thung創建。該數據集包含六類廢物的RGB圖像,其中每個圖像僅出現一種類型的垃圾。特別是:玻璃,紙張,紙板,塑料,金屬和普通垃圾。當前,該數據集由2,527張圖像組成,每類包含以下圖像分佈:玻璃501張,紙張594張,紙板403張,塑料482張,金屬410張和一般垃圾137張。通過將物體放置在白色海報板上並使用陽光和/或室內照明來捕獲圖像。所有圖片均已調整爲512×384的空間分辨率。圖2說明了TrashNet數據集中存在的六個類。
      ~~~~~~由於深度神經網絡需要更大的數據集,因此通常的做法是通過在每個原始圖像上應用一組變形(即旋轉,縮放或亮度校正等)來增強原始圖像的原始集合。
在這裏插入圖片描述

4.2 Data Pre-processing

      ~~~~~~我們的首要目標是開發一個深度學習模型,該模型使用TrashNet數據集對孤立的垃圾元素進行分類。爲此,我們嘗試了前面解釋的所有深度卷積體系結構。但是,對於所有模型,由於計算問題,我們都需要調整圖像的大小並將其亮度值標準化爲0到1。
      ~~~~~~此外,由於我們有少量的圖像來訓練我們的模型,因此使用數據擴充來生成一個僞無限數量的訓練樣本。在訓練模型的同時,通過對原始數據進行變換組合,生成新的圖像。變換是隨機選擇的:在0 - 40之間的旋轉,在0% - 20%之間的寬度變化,在0% - 20%之間的高度變化,在0% - 20%之間的剪切,在0% - 20%之間的變焦,在0% - 20%之間的水平翻轉。

4.3 Classification Experiments and Results

      ~~~~~~我們首先將原始圖像集合隨機分爲三個子集:分別爲訓練,驗證和測試。所有子集具有相同的類率。由於圖像數量很少,我們決定將其中的80%用於訓練,將10%用於驗證,將其餘10%用於測試。爲了獲得更可靠的結果,我們採用了5倍交叉驗證策略,即隨機創建5個訓練/驗證/測試集。而且,如前所述,訓練樣本是通過數據增強技術增加的。本小節中給出的結果與測試數據集的5次運行的平均值相對應。
在這裏插入圖片描述
      ~~~~~~第二階段是配置每個網絡的參數。在所有情況下,網絡的權重都是隨機初始化的。對於我們在實驗中考慮的所有網絡,我們使用16個樣本的批次大小,隨機梯度下降(SGD)作爲優化算法,學習率爲0.0002。訓練期間採用了早期停止策略。如果此結果在25epoch時間內沒有改善,我們將模型保留爲沒有驗證損失的情況,並停止訓練。此外,在所有模型的每個卷積層塊的末尾都引入了批處理歸一化層。圖像被調整爲197×283像素以訓練模型。
      ~~~~~~表2給出了使用五個經過測試的深層網絡獲得的均值和標準偏差準確性結果的對比研究。此外,該表還顯示了訓練模型所需的歷時的對比研究。一方面,ResNet模型以88.66%的準確度實現了最佳結果。此外,由於標準偏差最小,因此ResNet模型是最穩定的模型。但是,Inception-ResNet模型產生了相似的結果。另一方面,ResNet模型是不需要培訓的時代。我們可以得出結論,ResNet模型是精度和速度最好的。
      ~~~~~~表3將我們使用ResNet模型得到的最佳結果與其他應用於廢物分類的深度學習模型進行了比較。結果表明,雖然我們的模型與Kennedy等人的[9]模型比較接近,但與其他模型相比,我們的模型更接近。然而,Kennedy混合了TrashNet和PASCAL數據集,class 7 (non waste)是第二個數據集。另一方面,他的結果顯示,他們對模型進行了過度擬合,在non-wasteclass (PASCAL數據集)中獲得了良好的結果,而在TrashNet數據集中獲得了較低的結果。
在這裏插入圖片描述
      ~~~~~~最後,圖3顯示了針對每個測試的不同深度架構所獲得的混淆矩陣。當我們爲每種架構訓練了五個模型時,我們顯示的模型的準確性接近平均準確性。我們不能更準確地確定類別,因爲它取決於模型。

5 Conclusion

      ~~~~~~在本文中,我們評估了幾種CNN架構在垃圾自動分類中的應用。在我們對TrashNet數據集的實驗中,使用平均準確率爲88.66%的ResNet體系結構獲得了最佳分類結果。此外,與現有的技術水平相比,我們在samedataset上取得了最好的結果。在未來的工作中,我們將研究生成具有多種類型垃圾的真實合成圖像,這些圖像將用於訓練我們的模型,然後用結合多個類的真實圖像進行測試

References


  1. Rodr ́ıguez, I., P ́erez, J., Salmador, A.: Intelligent garbage classifier. Int. J. Interact.Multimed. Artif. Intell.1(1), 31–36 (2008) ↩︎ ↩︎ ↩︎ ↩︎

  2. Sudha, S., Vidhyalakshmi, M., Pavithra, K.: An automatic classification methodfor environment (2016) ↩︎ ↩︎

  3. Sakr, G.E., Mokbel, M., Darwich, A., Khneisser, M.N., Hadi, A.: Comparing deeplearning and support vector machines for autonomous waste sorting. In: IEEEInternational Multidisciplinary Conference on Engineering Technology (IMCET),pp. 207–212. IEEE (2016) ↩︎ ↩︎ ↩︎

  4. Yang, M., Thung, G.: Classification of trash for recyclability status. CS229 ProjectReport 2016 (2016) ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  5. Mittal, G., Yagnik, K.B., Garg, M., Krishnan, N.C.: SpotGarbage: smartphoneapp to detect garbage using deep learning. In: Proceedings of the 2016 ACM Inter-national Joint Conference on Pervasive and Ubiquitous Computing, pp. 940–945.ACM (2016) ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  6. Rad, M.S., et al.: A computer vision system to localize and classify wastes on thestreets. In: Liu, M., Chen, H., Vincze, M. (eds.) ICVS 2017. LNCS, vol. 10528, pp.195–204. Springer, Cham (2017).https://doi.org/10.1007/978-3-319-68345-418 ↩︎ ↩︎ ↩︎

  7. Bri ̃nez, L.J.C., Rengifo, A., Escobar, M.: Automatic waste classification using com-puter vision as an application in Colombian high schools. In: 6th Latin-AmericanConference on Networked and Electronic Media (LACNEM 2015), pp. 1–5. IET(2015) ↩︎

  8. Awe, O., Mengistu, R., Sreedhar, V.: Smart trash net: waste localization and clas-sification (2017) ↩︎

  9. Kennedy, T.: OscarNet: using transfer learning to classify disposable waste (2016) ↩︎

  10. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scaleimage recognition. arXiv preprintarXiv:1409.1556(2014) ↩︎

  11. Deng, J., Dong, W., Socher, R. Li, L.-J., Li, K., Fei-Fei, L.: ImageNet: a large-scalehierarchical image database. In: 2009 IEEE Conference on Computer Vision andPattern Recognition, CVPR 2009, pp. 248–255. IEEE (2009) ↩︎ ↩︎

  12. He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pp. 770–778 (2016) ↩︎

  13. Szegedy, C., et al.: Going deeper with convolutions. In: Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, pp. 1–9 (2015) ↩︎

  14. Szegedy, C., Ioffe, S., Vanhoucke, V., Alemi, A.A.: Inception-v4, inception-resnetand the impact of residual connections on learning. In: AAAI, vol. 4, p. 12 (2017) ↩︎

發佈了26 篇原創文章 · 獲贊 6 · 訪問量 6492
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章