多尺度多目標檢測之金字塔

原創

xiaomu_347

2020-06-19 23:03

在日常學習工作中，經常會碰到一個概念，那就是金字塔（pyramid），本文就該概念進行一定的闡述，具體如下：

（1）圖像金字塔

圖像金字塔結構，即對圖像進行一定比例的縮放，從而得到一系列不同尺寸的樣本圖像序列，在縮放過程中一般採用線性差值等方法，在縮放的同時可以加入濾波、模糊等處理，常見的形式有：

高斯金字塔(Gaussianpyramid): 用來向下採樣，主要的圖像金字塔。

拉普拉斯金字塔(Laplacianpyramid): 用來從金字塔低層圖像重建上層未採樣圖像，在數字圖像處理中也即是預測殘差，可以對圖像進行較大程度的還原，配合高斯金字塔一起使用。

這裏的向下與向上採樣，是對圖像的尺寸而言的（和金字塔的方向相反），向上就是圖像尺寸加倍，向下就是圖像尺寸減半。

圖像金字塔的作用在於解決目標檢測中的多尺度問題，在比較早的時候，是通過改變滑動窗口的形式來檢測圖像中大小不一的物體，而目前階段，更多的是採用滑動窗口規格不變，改變圖片大小來檢測圖像中尺度不一致的物體，金字塔的層級越多，計算量更大，花費的時間會更多，但是，在某種程度上有獲得更準確的結果。主要根據自己的應用場景選擇合適的比例進行生成圖像金字塔，如人臉檢測MTCNN中就用到圖像金字塔來實現多尺度檢測。

（2）特徵金字塔（fpn）

FPN是一種利用常規CNN模型來高效提取圖片中各維度特徵的方法。FPN通過利用常規CNN模型內部從底至上各個層對同一scale圖片不同維度的特徵表達結構，提出了一種可有效在單一圖片視圖下生成對其的多維度特徵表達的方法。它可以有效地賦能常規CNN模型，從而可以生成出表達能力更強的feature maps以供下一階段計算機視覺任務像object detection/semantic segmentation等來使用。本質上說它是一種加強主幹網絡CNN特徵表達的方法。

上圖(a)中的方法即爲常規的生成一張圖片的多維度特徵組合的經典方法。即對某一輸入圖片我們通過壓縮或放大從而形成不同維度的圖片作爲模型輸入，使用同一模型對這些不同維度的圖片分別處理後，最終再將這些分別得到的特徵（feature maps）組合起來就得到了我們想要的可反映多維度信息的特徵集。此種方法缺點在於需要對同一圖片在更改維度後輸入處理多次，因此對計算機的算力及內存大小都有較高要求。

圖(b)中的方法則只拿單一維度的圖片做爲輸入，然後經CNN模型處理後，拿最終一層的feature maps作爲最終的特徵集。顯然此種方法只能得到單一維度的信息。優點是計算簡單，對計算機算力及內存大小都無過高需求。此方法爲大多數R-CNN系列目標檢測方法所用像R-CNN/Fast-RCNN/Faster-RCNN等。因此最終這些模型對小維度的目標檢測性能不是很好。

圖(c)中的方法同樣是拿單一維度的圖片做爲輸入，不過最終選取用於接下來分類或檢測任務時的特徵組合時，此方法不只選用了最後一層的high level feature maps，同樣也會選用稍靠下的反映圖片low level 信息的feature maps。然後將這些不同層次（反映不同level的圖片信息）的特徵簡單合併起來（一般爲concat處理），用於最終的特徵組合輸出。此方法可見於SSD當中。不過SSD在選取層特徵時都選用了較高層次的網絡。比如在它以VGG16作爲主幹網絡的檢測模型裏面所選用的最低的Convolution的層爲Conv4，這樣一些具有更低級別信息的層特徵像Conv2/Conv3就被它給漏掉了，於是它對更小維度的目標檢測效果就不大好。

圖(d)中的方法同圖(c)中的方法有些類似，也是拿單一維度的圖片作爲輸入，然後它會選取所有層的特徵來處理然後再聯合起來做爲最終的特徵輸出組合。（作者在論文中拿Resnet爲實例時並沒選用Conv1層，那是爲了算力及內存上的考慮，畢竟Conv1層的size還是比較大的，所包含的特徵跟直接的圖片像素信息也過於接近）。另外還對這些反映不同級別圖片信息的各層自上向下進行了再處理以能更好地組合從而形成較好的特徵表達。而此方法正是我們本文中要講的FPN CNN特徵提取方法。

補充：

對於多尺度檢測，目前採用的方法還有SNIPER等，

在每個尺度下都有一個重點關注區域，框中區域的目標都在最佳尺度。還加入了重點排除區域，在許多背景中，許多目標是無需識別的。

總結，對於多尺度目標檢測，從原始的採用不同尺度的卷積核，再到不同尺度的輸入圖像（圖像金字塔），FPN，再到sniper，方法在不斷的更新迭代中，而且在深度學習中多采用anchor機制來實現對多目標多尺度的檢測，這樣簡單快捷。

參考鏈接：

https://www.jianshu.com/p/5a28ae9b365d（FPN: 一種高效的CNN特徵提取方法）

https://blog.csdn.net/yychentracy/article/details/86288143（目標檢測中的多尺度問題）

https://blog.csdn.net/yychentracy/article/details/93301489（目標檢測研究方向之多尺度目標檢測）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

多尺度多目標檢測之金字塔

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

python之web框架django

mysql數據庫的常見操作

圖像化界面開發之QT入門

大數據之hadoop與spark

神經網絡之loss總結學習

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結