《SpotGarbage: Smartphone App to Detect Garbage UsingDeep Learning》論文筆記

ABSTRACT

      ~~~~~~保持清潔衛生的公民環境是必不可少但艱鉅的任務,尤其是在發展中國家。 爲了吸引市民追蹤和報告附近地區,本文提出了一種名爲SpotGarbage的新型智能手機應用程序,該應用程序可以檢測並粗略分割用戶單擊的帶有地理標籤的圖像中的垃圾區域。 該應用程序利用提出的全卷積網絡的深度架構來檢測圖像中的垃圾。 該模型已在新引入的圖像垃圾(GINI)數據集中進行了訓練,平均準確率達到87.69%。 本文還提出了網絡體系結構的優化方案,以減少87.9%的內存使用量和96.8%的預測時間,而不會降低準確性,從而有利於在資源受限的智能手機中使用它。

ACM Classification Keywords

I.5.4. Pattern Recognition: Applications—Computer Vision;I.5.1. Pattern Recognition: Models—Neural nets; I.2.1. Artifi-cial Intelligence: Applications and Expert Systems

Author Keywords

Garbage Detection; Deep Learning; Computer Vision; FullyConvolutional Neural Networks; Smartphone; Android

INTRODUCTION

      ~~~~~~印度等國家的城市景觀見證了拐角處的人行道變成了垃圾場。 如果不及時清除,除了會引起眼痛外,還會導致健康危害。 由於人口密度高和他們之間缺乏認識,問題變得更加嚴重,這使當局很難追蹤有垃圾的地區。 一種檢查垃圾的有前途的解決方案,方法是爲公民提供一種易於訪問,及時且可靠的媒介,使他們可以向當局報告附近垃圾的存在。最近智能手機的普及使其成爲任何解決方案接觸大衆的理想平臺。此外,大多數現代智能手機都配備了相當強大的攝像頭。考慮到垃圾的視覺衝擊特性,基於圖像感知垃圾的檢測是一種直觀、實用的方法。
      ~~~~~~動機,過去存在基於移動應用程序的計劃,該計劃允許人們通過上載垃圾圖像來報告附近的這種威脅[21]。 然而,這些解決方案依賴於人類來識別圖像中的垃圾,這使得它們對於大規模使用是不切實際的。 由於大量虛假上傳(例如人物圖像和自拍照)[26],這些應用也未成功,需要手動驗證。 因此,一種有前途的解決方案應自動可靠地檢測圖像中是否存在垃圾,從而最大程度地減少人爲干預。
      ~~~~~~實現這種解決方案的最簡單方法是要求應用程序將每個用戶單擊的圖像上載到服務器以進行自動垃圾檢測。 但是,這種方法的瓶頸是速度緩慢,有時網絡連接不穩定,人們在智能手機上節儉使用互聯網數據計劃的心態[27]。 因此,該解決方案應儘量避免上傳每張圖片,而應在手機上對其進行處理。 它應該通過網絡發送最少的信息,例如GPS座標,垃圾的嚴重性以及(可選)包含垃圾的圖像的分段區域。 在電話上處理圖像還有助於引起用戶反饋,以驗證用於垃圾檢測的機器學習模型。 此外,在圖像中分割垃圾區域可以允許確定垃圾的嚴重性。
      ~~~~~~本文通過引入一個Android應用程序SpotGarbage,朝着這種解決方案邁出了第一步,該應用程序採用了稱爲GarbNet的卷積神經網絡(CNN),可以自動檢測並定位不受約束的真實世界圖像中的垃圾,如圖1所示。 CNN是任意大小的圖像,輸出是突出顯示垃圾塊的圖像的粗粒度分段。 此外,GarbNet已優化爲在資源約束環境中執行。 這促進了其在無處不在的移動平臺上的部署。 這是第一次使用最新的深度學習和計算機視覺技術來處理圖像中的垃圾檢測。 總體而言,本文做出了以下貢獻:

  • 本文介紹了一個新的帶註釋的數據集,稱爲圖像垃圾(GINI)。 數據集是包含垃圾的幾張野生圖像的集合。 每個圖像還標註了感知的嚴重性和生物降解性水平。
  • 一個完全卷積的架構GarbNet在GINI數據集上進行了訓練,以高靈敏度和高特異性對圖像中的垃圾進行分類和檢測。
  • 一款名爲SpotGarbage的Android應用程序,它部署了GarbNet的優化版本,以近實時地確定用戶單擊的帶有地理標籤的圖像中是否存在垃圾。

RELATED WORK

      ~~~~~~儘管沒有現有文獻描述從圖像進行垃圾檢測的任務,但是有可能將該任務與計算機視覺中的其他對象識別任務相關聯。這是由於垃圾的內在本質部分與對象相似。用於對象識別的現有方法是手工製作的用於描述對象特徵的圖像描述符。流行的圖像特徵集包括定向梯度直方圖(HOG),尺度不變特徵變換(SIFT),Gabor濾波器,Gaborwavelets和Fischer Kernels 。近年來,由於深度學習技術能夠直接從像素強度中自動學習豐富特徵表示的層次結構,因此在計算機視覺中變得越來越流行。卷積神經網絡(CNN)在ImageNet大規模視覺識別Challenge(ILSVRC)上提供最先進的圖像識別性能方面至關重要,場景標記,語義分割和材料分類。
      ~~~~~~由於GPU上高效的並行處理CUDA框架,因此訓練/測試大規模CNN的能力成爲可能。但是,基於CUDA的CNN在通用CPU上的有限性能限制了它們在不受計算資源限制的無處不在的設備(例如智能手機)中的應用。儘管已經提出了許多優化程序來減少CNN的空間和時間複雜度,但要利用它們的全部潛力來提供實用的解決方案仍然是一個公開的挑戰。
在這裏插入圖片描述

GARBAGE IN IMAGES (GINI) DATASET

      ~~~~~~訓練CNN來檢測垃圾需要帶有垃圾相關注釋的大型圖像數據集。但是,目前沒有可用的垃圾圖像數據集。第一個目標是收集可用於訓練健壯的CNN來檢測圖像中垃圾的各種圖像。BingImage Search API用來對垃圾和非垃圾相關圖像進行爬網。 查詢(例如路邊垃圾,市場垃圾)用於獲取包含垃圾的各種圖像。這樣就彙編了2561張圖像,其中有956張圖像是通過垃圾相關查詢獲得的。
      ~~~~~~從垃圾相關查詢中獲得的圖像由於以下兩個原因而不能直接用於訓練CNN:首先,必須提取包含垃圾的圖像區域(請參閱圖2(b)左下方的圖像集)以進行訓練 CNN。這是因爲使用整個圖像作爲垃圾的示例,當其中只有一部分對應於垃圾時,會影響訓練過程。其次,一些與垃圾相關的查詢會導致圖像中不包含垃圾,但與垃圾有“相似性” 如圖2(b)右上角的圖像集中所示的垃圾。這些圖像不能用於訓練帶有標籤作爲垃圾的CNN。
在這裏插入圖片描述
      ~~~~~~開發瞭如圖2(a)所示的基於Web的平臺來獲取這些圖像的用戶註釋。向註釋者呈現了一系列圖像,這些圖像將被標記爲是否包含垃圾。該門戶網站還允許註釋者繪製一個邊界框,以標記包含垃圾的區域。此外,如果圖像包含垃圾,註釋者還報告他/她的垃圾嚴重性和生物降解性的感知水平。隨後,從18至21歲年齡段的83位用戶中共收集了1494條註釋,其中包括534張圖像,其中450張用於本文的實驗。使用Cohen的Kappa評估的評分者間可靠性爲0.615。

METHODOLOGY

      ~~~~~~自動垃圾檢測的根本挑戰是明確定義垃圾。有兩種方法可以在圖像中感知垃圾。第一種方法處理的是檢測存在的物體與背景存在異常的單個對象,例如鬱鬱蔥蔥的綠色景觀中的塑料瓶和錫罐,如圖3右下圖所示,而第二種方法則將垃圾視爲垃圾。如圖3左下圖所示,單個實體是模糊的亂碼和/或腐爛的對象的集合體。類似於對象,垃圾具有其自身的顯着特徵,但是與常規對象不同,垃圾具有先天的隨機性,並且定義不明確。另外,垃圾具有背景的漸變性,但不同之處在於它具有豐富的隨機發生特徵;包括但不限於極端變化的紋理,顏色,邊緣,形狀和大小。此外,由於塑料袋通常由各種材料組成,如塑料、紙、金屬、陶瓷和食品,因此不能將其視爲單一材料。本文討論的方法是針對後一類表現出非晶態特徵的垃圾進行檢測。
      ~~~~~~本文的總體目標是檢測圖像中垃圾的存在,並對圖像中與垃圾對應的區域進行近似標定。這個目標是通過使用從圖像中提取的補丁來訓練一個模型來實現的。通過再次提取小塊並結合它們的預測,得到測試圖像的最終預測。

Patch Generation

      ~~~~~~來自GINI數據集的圖像經過處理以生成固定大小的補丁。爲了避免在學習垃圾的區別特徵時產生歧義,將具有不完全垃圾區域的垃圾圖像(如圖2(b)中的部分垃圾圖像所示)從此過程中排除。其餘圖像首先被分爲5層褶皺,以避免相互之間的相關性 褶皺處的補丁。裁剪每個摺疊中的圖像以生成不同大小的補丁,從而使模型能夠適應多種尺度和不同級別的上下文信息。patch尺寸選擇爲10%、20%、40%和80%,stride爲較小圖像尺寸的9.1%,以執行Poisson-disk age。補丁進一步通過執行隨機採樣過量(0,2π)之間的旋轉。這增加了訓練集的大小,這有助於防止過擬合。更重要的是,它還使模型旋轉不變。總的來說,這將生成一組500,000個補丁,平均分配給垃圾類和非垃圾類。

GarbNet Model

      ~~~~~~垃圾的對象化允許garbnet的權重使用預先訓練的模型AlexNet進行初始化,該模型已經爲1000路對象識別訓練了100萬張圖像。通過這樣做,GarbNet能夠利用已經學習的表示的豐富層次結構,從而實現更好的泛化。用於初始化GarbNet的預訓練的AlexNet模型是來自Caffe model Zoo的開放源碼實現。該體系結構已被修改以執行二進制分類。網絡的兩個完全連接的層,緊隨五個卷積層並每個包含4096個神經元,經過優化,分別具有512和256個神經元。GarbNet的監督微調是通過5層分層交叉驗證進行的,其中訓練和驗證集分別由大約380,000個和20,000個補丁組成。使用Nvidia TitanX在Caffe上對模型進行了150,000次迭代,批量大小爲100,並在每5,000次迭代後進行驗證。每25,000次迭代後,初始學習速率1×10-3減少4倍。 動量爲0.9,重量衰減爲5×10-5。此外,在訓練過程中會隨機鏡像和裁剪補丁樣本,以防止過度擬合。

Optimizing the GarbNet Model

      ~~~~~~最終的模型必須能夠產生快速的響應,並在智能手機上部署低內存佔用。優化全連接層,減少神經元數量,大大減少了87.9%的尺寸和模型參數,降低了應用程序運行所需的空間。使用常規的CNN和簡單的滑動窗口方法,由於接收域的重疊,導致了大量的冗餘計算。CNN的卷積層是平移不變的。它們對局部輸入區域進行操作,並且不知道空間大小。這個特性可以通過允許整個圖像在一個單一的通道中進行處理,而不是作爲網絡的輸入,來加速前饋計算。這是通過將完全連接的層轉換爲卷積層來實現的,從而使體系結構一次就可以與整個圖像進行卷積。 例如,對於大小爲227×227的輸入圖像,最終卷積層的輸出爲一組大小爲6×6的256個特徵圖。 因此,後續連接的層中的權重將重新排列,以形成512個大小爲6×6的過濾器內核,步幅可更改。他將常規CNN轉換爲完全卷積網絡(FCN),模型尺寸沒有任何變化。 該計算得到了高度攤銷,與單純的滑窗方法相比,將FCN的時間減少了12倍。
在這裏插入圖片描述
      ~~~~~~基於FCN的GarbNet模型爲測試圖像中的所有補丁同時生成一個分類映射,而不是單一的分類,如果至少有一個圖像樣本被分類爲垃圾,則返回正。通過改變大小和重疊(步長)來確定它們的最佳值。AlexNet模型在前兩個卷積層中的每一個之後執行本地響應歸一化(LRN)。從圖4可以明顯看出,LRN層約佔總預測時間的42%。在Alex網絡中合併LRN層的基礎是經驗性的。因此,另一個優化步驟將是刪除這些層,從而減少預測時間。進行實驗以排除從網絡上刪除LRN層對模型準確性的不利影響。

Image Processing

      ~~~~~~以前沒有可用的結果來檢測圖像中的垃圾,以對提出的方法進行基準測試。使用從補丁中提取的大量特徵進行訓練的反向傳播網絡用作基準。所使用的特徵提取器是文獻中常見的最新圖像描述符。首先將補丁扭曲爲256×256的固定尺寸,以提取恆定大小的特徵向量。彎曲的貼片與具有4個波長和4個方向的Gabor小波濾波器組進行卷積。用寬度等於相應濾波器波長一半的高斯濾波器對結果進行平滑處理。然後,在每個像素上應用PCA來提取最大方差的方向。輸出下降採樣產生16,384個特徵。此外,使用一個16的細胞大小來提取特徵,在3個顏色通道上取梯度大小的最大值,從而產生另一組7,936個特徵。最後,每50%的重疊64×64子樣本附加與RGB,HSV和Lab顏色空間相對應的直方圖,每個通道具有25個bin,以生成總大小爲35,345的特徵向量。 因此,特徵向量提供了圖像塊的廣泛表徵。 使用交叉驗證實驗對反向傳播網絡的學習速率和隱藏層節點的數量進行了微調。

RESULTS AND DISCUSSION

      ~~~~~~通過5次交叉驗證實驗,確定了GarbNet模型的patch尺寸和重疊參數。將補丁分類爲垃圾的概率設置爲0.99,以保證最大的預測置信度和最小的假陽性。確定最佳的patch尺寸和重疊度分別爲較小圖像維數的25%和6.82%。
在這裏插入圖片描述
      ~~~~~~表5報告了用於對圖像中的各個面片進行分類的不同技術的性能。 顯然,基於深度學習的方法明顯優於依賴圖像處理的方法,從而使準確性提高了約7%,特異性提高了11%。 此外,可以觀察到,帶有LRN的GarbNet能夠比單純的基於滑動窗口的CNN更快地執行11次預測,而不會降低準確性。 與傳統的圖像處理相比,該方法還可以預測6倍的速度。 此外,與使用帶有LRN的FCN和滑動窗口CNN相比,從模型中刪除歸一化層導致的預測時間分別減少了將近63.5%和96.8%,而不會影響預測的準確性。
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~
      ~~~~~~

發佈了26 篇原創文章 · 獲贊 6 · 訪問量 6486
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章