[計算機視覺論文速遞] 2018-03-31

通知:這篇文章有10篇論文速遞信息,涉及Re-ID、深度估計、超分辨率、顯著性檢測、GAN、VOA和卷積神經網絡綜述等方向

往期回顧

[計算機視覺論文速遞] 2018-03-30

TensorFlow和深度學習入門教程

你現在應該閱讀的7本最好的深度學習書籍

Re-ID

[1]《Pose-Driven Deep Models for Person Re-Identification》

Abstract:行人重識別(re-id)是識別和匹配不重疊視圖的攝像機記錄的不同位置人員的任務。re-id的主要挑戰之一是人物姿態和攝像機角度的巨大差異,因爲它們都不會受re-id系統的影響。在這項工作中,介紹了一種有效的方法來將粗略的相機視圖信息和細粒度姿態信息整合到用於學習區分性重新嵌入的卷積神經網絡(CNN)模型中。在最近的工作中,姿勢信息或者在重新識別系統內被明確地建模,或者明確地用於預處理,例如通過姿勢規範化人員圖像。相反,所提出的方法表明,將相機視圖以及檢測到的身體關節位置直接用於標準CNN可以用於顯著提高所學習的re-id嵌入的魯棒性。在四個具有挑戰性的監控和視頻重新標識數據集上,已經實現了對當前技術水平的重大改進。此外,引入了MARS數據集的一種新的重新排序,稱爲X-MARS,以允許在軌跡數據上進行鍼對單圖像重新識別訓練的模型的交叉驗證。

arXiv:https://arxiv.org/abs/1803.08709

[2]《Weighted Bilinear Coding over Salient Body Parts for Person Re-identification》

Abstract:深度卷積神經網絡(CNN)已經證明了在行人重識別(Re-ID)方面的有很大的作用。現有的基於CNN的方法利用全局平均池(GAP)來聚合Re-ID的中間卷積特徵。但是,該策略僅考慮局部特徵的一階統計量,並將同一重要位置處的局部特徵視爲同等重要,導致次優特徵表示。爲了解決這些問題,我們提出了一種新穎的用於CNN網絡中局部特徵聚合的加權雙線性編碼(WBC)模型,以追求更具代表性和區分性的特徵表示。具體而言,雙線性編碼被用於編碼信道方面的特徵相關性以捕獲更豐富的特徵交互。同時,對雙線性編碼應用加權方案,根據識別的重要性自適應調整不同位置的局部特徵權值,進一步提高特徵聚合的可辨性。爲了處理空間偏差問題,我們使用顯著的部分網絡來導出顯著的身體部位,並將WBC模型應用於每個部分。通過連接每個部分的WBC編碼特徵形成的最終表示既具有區分性又能抵抗空間不對齊。包括Market-1501,DukeMMC-reID和CUHK03三個基準的實驗證明了我們的方法與其他最先進的方法的良好表現。

arXiv:https://arxiv.org/abs/1803.08580

深度估計

[3]《Revisiting Single Image Depth Estimation: Toward Higher Resolution Maps with Accurate Object Boundaries》

Abstract:我們重新討論從單個RGB圖像估計場景深度的問題。 儘管近期深度學習方法取得了成功,但我們表明,通過訓練由兩個子網絡組成的深層網絡,在兩個方面仍有改進的空間; 用於提供初始深度估計的基礎網絡,以及用於提煉它的精化網絡。 首先,可以使用以順序方式訓練的子網絡之間的跳躍連接來改進估計的深度圖的空間分辨率。 其次,我們可以通過使用建議的使用深度梯度的損失函數來提高場景中物體邊界的估計精度。 實驗結果表明,所提出的網絡和方法提高了基線網絡的深度估計性能,特別是對於小物體的重建和邊緣失真的細化,並且優於基準數據集上的最新方法。

arXiv:https://arxiv.org/abs/1803.08673

超分辨率

[4]《Fast, Accurate, and, Lightweight Super-Resolution with Cascading Residual Network》

Abstract:近年來,深度學習方法已成功應用於單幅圖像超分辨率任務。 儘管它們表現出色,但由於計算量大,所以深度學習方法無法輕易應用到實際應用中。 在本文中,我們通過提出一個準確而輕量級的圖像超分辨率深度學習模型來解決這個問題。 詳細來說,我們設計了一個在殘差網絡上實現級聯機制的架構。 我們還提出了提出的級聯殘餘網絡的變體模型,以進一步提高效率。 我們廣泛的實驗表明,即使參數和操作少得多,我們的模型也能達到與最先進方法相媲美的性能。

arXiv:https://arxiv.org/abs/1803.08664

顯著性檢測

[5]《PDNet: Prior-model Guided Depth-enhanced Network for Salient Object Detection》

ICME 2018

Abstract:全卷積神經網絡(FCNs)在包括顯著物體檢測在內的許多計算機視覺任務中表現出色。然而,在基於深度學習的顯著性檢測中仍然需要解決兩個問題。一個是缺乏大量的註釋數據來訓練網絡。另一個是缺乏魯棒性來提取包含複雜場景的圖像中的顯著物體。在本文中,我們提出了一種新的體系結構-PDNet,這是一種用於RGB-D顯著物體檢測的強大的先前模型引導深度增強網絡。與現有的將圖像像素的RGB-D值直接饋送到網絡的作用相比,所提出的體系結構由用於處理RGB值的主網絡和充分利用深度提示幷包含深度的子網絡組成基於網絡的功能。爲了克服用於訓練的標記RGB-D數據集的有限尺寸,我們使用大的傳統RGB數據集來預訓練主網絡,這證明對最終準確度有很大貢獻。對五個基準數據集進行廣泛的評估表明,我們提出的方法對於最先進的方法有良好的表現。

arXiv:https://arxiv.org/abs/1803.08636

github:https://github.com/cai199626/PDNet

GAN

[6]《Generative Adversarial Autoencoder Networks》

Abstract:我們引入一個有效的模型來克服訓練生成對抗網絡(GAN)時模式崩潰的問題。首先,我們提出一個新的生成器,發現它更好地處理模式崩潰。並且,我們應用獨立的自動編碼器(AE)來約束髮生器,並將其重構樣本視爲“真實”樣本,以減慢鑑別器的收斂,從而減少梯度消失問題並穩定模型。其次,從AE提供的潛在和數據空間之間的映射,我們進一步通過潛在和數據樣本之間的相對距離來規範AE,以明確防止發生器陷入模式崩潰設置。當我們找到一種可視化MNIST數據集模式崩潰的新方法時,這個想法就來了。就我們所知,我們的方法是第一個成功提出並應用潛在和數據樣本的相對距離來穩定GAN的方法。第三,我們提出的模型,即生成對抗自動編碼器網絡(GAAN),在合成,MNIST,MNIST-1K,CelebA和CIFAR-10數據集上經驗證明,它是穩定的,既沒有梯度消失也沒有模式崩潰問題。實驗結果表明,我們的方法可以近似良好的多模態分佈,並取得比這些基準數據集上最先進的方法更好的結果。

arXiv:https://arxiv.org/abs/1803.08887

github:https://github.com/tntrung/gaan

[7]《Fictitious GAN: Training GANs with Historical Model》

Abstract:生成對抗網絡(GAN)是學習生成模型的強大工具。 實際上,訓練可能會因缺乏convergence而受到影響。 GAN通常被視爲兩個神經網絡之間的two player zero-sum遊戲。 在這裏,我們利用這種博弈論的觀點來研究訓練過程的收斂行爲。 受虛擬遊戲學習過程的啓發,引入了一種稱爲Fictitious GAN的新型訓練方法。 Ficititous GAN使用歷史模型的混合來訓練深度神經網絡。 具體來說,鑑別器(或生成器)根據對來自一系列先前訓練的生成器(或鑑別器)的混合輸出的最佳響應而被更新。 結果表明,Fictitious GAN可以有效解決標準訓練方法無法解決的一些收斂問題。 證明,生成器輸出的平均值與數據樣本具有相同的分佈。

arXiv:https://arxiv.org/abs/1803.08647

VOA

[8]《Explicit Reasoning over End-to-End Neural Architectures for Visual Question Answering》

AAAI 2018

Abstract:除了數據驅動的圖像和自然語言處理外,許多視覺和語言任務都需要常識推理。在這裏,我們採用視覺問答(VQA)作爲示例任務,系統需要用自然語言回答關於圖像的問題。當前最先進的系統嘗試使用深度神經架構來解決任務,並取得了令人滿意的性能。但是,由此產生的系統通常是不透明的,他們很難理解需要額外知識的問題。在本文中,我們在一組倒數第二個基於神經網絡的系統之上提出了一個明確的推理層。推理層可以在需要額外知識的情況下推理和回答問題,同時爲最終用戶提供可解釋的界面。具體而言,推理層採用基於概率軟邏輯(PSL)的引擎來推理一籃子輸入:視覺關係,問題的語義解析以及來自word2vec和ConceptNet的背景知識本體。在VQA數據集上生成的答案和關鍵證據預測的實驗分析驗證了我們的方法。

arXiv:https://arxiv.org/abs/1803.08896

綜述

[9]《What Do We Understand About Convolutional Networks?》

Abstract:本文將回顧使用多層卷積體系結構的最重要的方法。重要的是,典型的卷積網絡的各個組成部分將通過回顧不同的方法來進行討論,這些方法的設計決策基於生物學發現和/或合理的理論基礎。此外,將通過可視化和實證研究來了解ConvNets的不同嘗試。 最終目標是闡明ConvNet體系結構中每一層處理的作用,提煉我們目前對ConvNets的理解,並強調關鍵的開放問題。

arXiv:https://arxiv.org/abs/1803.08834

其它

[10]《Geometric and Physical Constraints for Head Plane Crowd Density Estimation in Videos》

Abstract:在擁擠的場景中進行人數統計的最先進的方法依賴於深度網絡來估計圖像平面中的人員密度。透視失真(perspective distortion)效果可以通過學習尺度不變特徵或者估計不同尺寸小片的密度來隱式處理,這兩者都不能說明尺度變化必須在整個場景中保持一致的事實。在本文中,我們表明,向網絡提供一個顯著的尺度變化模型會顯著提高性能。另外一個好處是,它可以讓我們根據每平方米地面上的人數進行推理,從而使我們能夠實施不需要學習的物理啓發性時間一致性約束。 這產生了一種算法,在擁擠的場景中勝過最先進的方法,尤其是當透視效果很強時。

arXiv:https://arxiv.org/abs/1803.08805

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章