【AI視野·今日CV 計算機視覺論文速覽第160期】Wed, 25 Sep 2019

AI視野·今日CS.CV 計算機視覺論文速覽
Wed, 25 Sep 2019
Totally 39 papers
👉上期速覽✈更多精彩請移步主頁

Interesting:

📚Interactive Sketch & Fill新版插畫小哥, 通過給定一個輪廓模型就可以生成一系列推薦的形狀，以及最終合成出的結果。在這個過程中可以不斷進行交互，下圖中的紅色爲刪除綠色爲添加線段。可以基於不同的條件從同一形狀生成不同的外形(from 牛津 adobe 伯克利)

下圖顯示模型的流程，包括了一個形狀補全Gs和外表生成Ga兩個生成器及其鑑別器：

第一階段的模型補全如下圖所示。輸入的草圖可以進行多尺度補全：

幾種不同的條件補全器：

website:https://arnabgho.github.io/iSketchNFill/

📚輕量級圖像超分辨網絡LWSR,文章主要共享了三個方面首先爲了有效地從低分辨率特徵中抽取特徵，研究人員構建了信息池來混合多尺度特徵，並將信息池饋入流程的後半部分；其次利用了壓縮模塊來進一步減小了參數數量，最後通過證明移除了一系列激活層來保持信息提升結果。(from 中科院大學)

模型中的殘差單元，其中包含了尺度因子的一個分支：

一些結果如下圖所示：

code:https://github.com/Sudo-Biao/s-LWSR

📚Deep Mangoes芒果檢測和種類識別, (from CIRAD.fr)

📚PST900:熱成像數據集及分割模型, (from 賓大)

數據集：

分割網絡模型：

📚基於超聲波圖像的胚胎圖像分割, (from 紐約大學)

📚**系統級的低功耗目標檢測系統, (from 中科院自動化所)

Daily Computer Vision Papers

Interactive Sketch & Fill: Multiclass Sketch-to-Image Translation
Authors Arnab Ghosh, Richard Zhang, Puneet K. Dokania, Oliver Wang, Alexei A. Efros, Philip H.S. Torr, Eli Shechtman
Arnab Ghosh 6 32 PM我們提出了一種基於GAN的交互式草圖到圖像翻譯方法，該方法可以幫助新手用戶創建簡單對象的圖像。當用戶開始繪製所需對象類型的草圖時，網絡會交互式地建議可行的完成方式，並向用戶顯示相應的合成圖像。這將啓用反饋循環，用戶可以在其中基於網絡的建議來編輯其草圖，並在繪製時可視化完成的形狀和最終渲染的圖像。爲了在廣泛的對象類中使用單個訓練模型，我們引入了一種基於選通的方法進行類條件調整，該方法允許我們從單個生成器網絡生成不同的類而無需特徵混合。視頻可在我們的網站上找到

Object-Contextual Representations for Semantic Segmentation
Authors Yuhui Yuan, Xilin Chen, Jingdong Wang
在本文中，我們解決了語義分割的問題，並將重點放在用於穩健分割的上下文聚合策略上。我們的動機是像素的標籤是像素所屬對象的類別。我們提出一種簡單而有效的方法，即對象上下文表示，通過利用相應對象類的表示來表徵像素。首先，我們基於由地面真實分割監督的特徵圖構造對象區域，然後計算對象區域表示。其次，我們計算每個像素與每個對象區域之間的表示相似度，並使用對象上下文表示來增強每個像素的表示，這是所有對象區域表示根據它們與像素的相似性的加權聚合。我們憑經驗證明，所提出的方法在六個具有挑戰性的語義分割基準測試中取得了競爭優勢，這些基準測試分別是Cityscapes，ADE20K，LIP，PASCAL VOC 2012，PASCAL Context和COCO Stuff。值得注意的是，我們以單一模型在Cityscapes排行榜上排名第2位。

Unified Vision-Language Pre-Training for Image Captioning and VQA
Authors Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao
本文提出了一個統一的視覺語言預訓練VLP模型。該模型的統一之處在於：1可以針對視覺語言生成（例如圖像字幕）或理解（例如視覺問題回答任務）進行微調，而2可以使用共享的多層變壓器網絡進行編碼和解碼，這與許多使用單獨模型實現編碼器和解碼器的現有方法。使用雙向和序列化seq2seq掩蓋視覺語言預測的兩個任務的無監督學習目標，可以在大量圖像文本對上對統一VLP模型進行預訓練。兩項任務的區別僅在於預測所基於的上下文。這是通過爲共享的變壓器網絡使用特定的自我注意遮罩來控制的。據我們所知，VLP是第一個報告的模型，它在三個具有挑戰性的基準數據集COCO Captions，Flickr30k Captions，和VQA 2.0。可以在以下位置獲得代碼和預先訓練的模型

Posture and sequence recognition for Bharatanatyam dance performances using machine learning approach
Authors Tanwi Mallick, Partha Pratim Das, Arun Kumar Majumdar
理解舞蹈等表演藝術的基本語義是一項艱鉅的任務。舞蹈本質上是多媒體，並且跨越時間以及空間。捕獲和分析舞蹈的多媒體內容對於保護文化遺產，建立視頻推薦系統，幫助學習者使用補習系統非常有用。要開發用於舞蹈的應用程序，需要解決舞蹈分析的三個方面：1對舞蹈視頻進行分段以找到代表性的動作元素； 2匹配或識別檢測到的動作元素； 3識別通過組合一個舞蹈而形成的舞蹈序列某些規則下的動作元素數量。本文試圖解決舞蹈分析的三個基本問題，以理解舞蹈形式的潛在語義。我們的重點是印度古典舞ICD形式，即Bharatanatyam。由於舞蹈是由音樂驅動的，因此我們將音樂以及動作信息用於關鍵姿勢提取。接下來，我們使用機器學習以及深度學習技術來識別關鍵姿勢。最後，使用隱馬爾可夫模型HMM識別舞蹈序列。我們使用Kinect捕獲了婆羅多（Bharatanatyam）舞蹈的多模式數據，並建立了帶註釋的數據集用於ICD研究。

Augmented Memory for Correlation Filters in Real-Time UAV Tracking
Authors Yiming Li, Changhong Fu, Fangqiang Ding, Ziyuan Huang, Jia Pan
判別相關濾波器DCF出色的計算效率隨着各種複雜的改進而逐漸消失。由於DCF框架的傳統外觀更新方案中歷史視圖的指數衰減，以前的外觀也逐漸被遺忘，從而降低了模型的魯棒性。在這項工作中，提出了一種基於DCF框架的新型跟蹤器，以在以實時速度運行時增加以前出現的視圖的存儲。培訓中同時引入了一些歷史視圖和當前視圖，以使跟蹤器適應新的外觀並記住以前的外觀。提出了一種新穎的快速壓縮上下文學習，以有效地提高過濾器的判別能力。在UAVDT和UAV123數據集上進行的大量實驗已驗證，所提出的跟蹤器與CPU上超過40 FPS的其他26個頂級DCF和基於深度的跟蹤器相比具有競爭優勢。

PST900: RGB-Thermal Calibration, Dataset and Segmentation Network
Authors Shreyas S. Shivakumar, Neil Rodrigues, Alex Zhou, Ian D. Miller, Vijay Kumar, Camillo J. Taylor
在這項工作中，我們建議使用長波紅外LWIR圖像作爲使用基於學習的技術進行語義分割的可行支持方式。我們首先提出一種便攜式且易於使用的被動式校準目標和程序，以解決RGB熱像儀校準問題。其次，我們展示了PST900，它是894個經過同步和校準的RGB和熱圖像對的數據集，具有來自DARPA地下挑戰賽的四個不同類別的每個像素的人類註釋。最後，我們提出了一種用於快速語義分割的CNN架構，該架構以獨立利用RGB圖像的方式結合了RGB和熱圖像。我們將我們的方法與最新技術進行了比較，並表明我們的方法在我們的數據集中表現優於它們。

Synthetic dataset generation for object-to-model deep learning in industrial applications
Authors Matthew Z. Wong, Kiyohito Kunii, Max Baylis, Wai Hong Ong, Pavel Kroupa, Swen Koller
大圖像數據集的可用性已成爲基於深度學習的分類和檢測方法成功的關鍵因素。雖然日常物品的數據集廣泛可用，但特定工業用例的數據例如在倉庫中識別包裝產品仍然很少。在這種情況下，必須從頭開始創建數據集，這對在工業應用中深度學習技術的部署構成了關鍵瓶頸。

Monocular Pedestrian Orientation Estimation Based on Deep 2D-3D Feedforward
Authors Chenchen Zhao, Yeqiang Qian, Ming Yang
自主駕駛的準確行人方位估計有助於自主車輛獲得相關環境中行人的意圖，這是諸如避免碰撞和預警的安全措施的基礎。然而，由於行人相對較小且行人高度變形，普通行人方位估計模型無法從行人中提取足夠全面的信息，因此其性能受到限制，特別是單眼行人模型無法獲取物體和相關環境的深度信息。本文提出了一種新的單眼行人方位估計模型，稱爲FFNet。除了捕獲攝像頭外，該模型還根據行人與行人之間的邏輯關係，將行人的2D和3D尺寸添加爲其他兩個輸入。行人的2D和3D尺寸是從攝像機捕獲的圖像中確定的，並通過連接到方向估算器的兩個前饋鏈接進一步使用。前饋鏈接增強了所提出模型的網絡結構的邏輯性和可解釋性。實驗表明，經過相同的訓練過程後，提出的模型比大多數最新模型至少增加了1.72 AOS。該模型在KITTI數據集的方向估計評估中也具有競爭性結果。

A System-Level Solution for Low-Power Object Detection
Authors Fanrong Li, Zitao Mo, Peisong Wang, Zejian Liu, Jiayun Zhang, Gang Li, Qinghao Hu, Xiangyu He, Cong Leng, Yang Zhang, Jian Cheng
近年來，藉助深度學習，對象檢測取得了令人矚目的進展。但是，現有技術的算法都是計算和存儲密集型的。儘管開發了許多輕量級網絡以在精度和效率之間進行權衡，但使其在嵌入式設備上實用仍是一個挑戰。在本文中，我們提出了一種用於在異構嵌入式設備上進行有效目標檢測的系統級解決方案。該檢測網絡被量化爲低位，並允許使用移位算子高效實現。爲了充分利用低位量化的優勢，我們設計了具有可編程邏輯的專用加速器。在加速器內部，根據不同卷積層的異構特性，利用混合數據流。我們採用一種簡單但資源友好的列優先切片策略，將計算密集型卷積層映射到可以支持任意特徵大小的加速器。可以在低功耗CPU內核上執行其他操作，並且整個系統以流水線方式執行。作爲案例研究，我們在輸入尺寸爲512x512的真實監控視頻上評估了目標檢測系統，結果發現該系統可以以6.9W的成本實現18 fps的推理速度，並且mAP爲66.4已在PASCAL VOC 2012數據集上驗證。

Deep Mangoes: from fruit detection to cultivar identification in colour images of mango trees
Authors Philippe Borianne UMR AMAP , Frederic Borne UMR AMAP , Julien Sarron, Emile Faye EGCE
本文介紹了從樹木的彩色圖像中檢測和鑑定芒果果實的結果。我們評估Faster R CNN網絡的行爲和性能，以確定其在植物品種，種植計劃和視覺信息獲取環境方面是否特別強大，可以在特別異質的條件下檢測和分類水果。該網絡經過培訓，可以從3,000個具有代表性的帶標籤水果註釋中區分出Kent，Keitt和Boucodiekhal芒果品種。然後，以0.7的置信度閾值和0.25的非最大抑制閾值測試由大約7,000個註釋組成的驗證集。 F1分數爲0.90，Faster R CNN非常適合在500x500像素的圖塊中進行簡單的水果檢測。然後，我們將多重切片方法與Jaccard矩陣相結合，以合併幾次檢測到的對象的不同部分，從而將以圖塊比例進行的檢測報告給原始的6,000x4,000像素大小的圖像。儘管如此，F1分數爲0.56，品種識別Faster R CNN網絡對同時檢測芒果果實和識別其各自的品種提出了一些限制。儘管已證明在水果檢測中存在錯誤，但檢測到的芒果果實的品種鑑定率約爲80。理想的解決方案可以結合使用Mask R CNN進行樹木的圖像預分割和雙流Faster R CNN來檢測芒果果實並確定其各自的品種，從而提供與用戶期望更相關的預測。

Restyling Data: Application to Unsupervised Domain Adaptation
Authors Vasileios Gkitsas, Antonis Karakottas, Nikolaos Zioulis, Dimitrios Zarpalas, Petros Daras
機器學習由數據驅動，然而，儘管它們的可用性不斷提高，但訓練數據需要費力，費時且容易出錯的標籤或獲取基礎事實，在某些情況下這是非常困難的，甚至是不可能的。最近的工作已經訴諸於合成數據的生成，但是當將合成數據訓練的模型應用於現實世界時，其性能較差，這帶來了無監督域自適應的挑戰。在這項工作中，我們研究了一種從另一角度出發的無監督域自適應技術，以避免對抗性訓練和週期一致性的複雜性。我們利用逼真的樣式轉移的最新進展，並採用完全數據驅動的方法。雖然已經在域自適應GAN的複雜目標中隱式提出了這一概念，但我們採用一種明確的方法並將其直接應用爲數據預處理。最終的技術具有可擴展性，高效性和易於實施性，可爲複雜的現有技術提供競爭性性能，並可爲領域適應開闢新途徑。

Multi-Person 3D Human Pose Estimation from Monocular Images
Authors Rishabh Dabral, Nitesh B Gundavarapu, Rahul Mitra, Abhishek Sharma, Ganesh Ramakrishnan, Arjun Jain
從單個圖像進行多人3D人體姿勢估計是一個具有挑戰性的問題，尤其是在野外環境中，因爲缺少3D註釋數據。我們提出了HG RCNN，這是一個基於Mask RCNN的網絡，該網絡還利用Hourglass架構的優勢進行多人3D人體姿勢估計。提出了一種分兩個階段的方法，該方法首先估計每個興趣區域RoI中的2D關鍵點，然後將估計的關鍵點提升到3D。最後，使用弱透視投影假設以及焦距和根平移的聯合優化，將估計的3D姿勢放置在相機座標中。結果是不需要多人3D姿勢數據集的用於多人3D人體姿勢估計的簡單模塊化網絡。儘管其公式很簡單，但HG RCNN在MuPoTS 3D上達到了最先進的結果，同時還逼近了相機座標系中的3D姿勢。

Single Camera Training for Person Re-identification
Authors Tianyu Zhang, Lingxi Xie, Longhui Wei, Yongfei Zhang, Bo Li, Qi Tian
人物識別ReID旨在在不同的相機中找到同一個人。訓練這樣的系統通常需要從監視視頻中註釋大量的交叉攝像頭行人，這特別是在攝像頭數量大的情況下很費力。以不同的方式，本文在未經探索的單攝像機訓練SCT設置中研究ReID，其中訓練集中的每個人僅出現在一個攝像機中。就我們所知，此設置從未被研究過。 SCT具有低成本數據收集和註釋的優勢，因此使ReID系統易於在全新的環境中進行培訓。然而，由於缺乏跨相機人員的出現，這帶來了重大挑戰，而傳統方法在很大程度上依賴於這種方法來提取辨別特徵。應對SCT設置中的挑戰的關鍵在於設計一種有效的機制來補充跨相機註釋。我們從用於特徵提取的常規深度網絡開始，在此基礎上，我們提出了一種新穎的損失函數，稱爲多攝像機負損失MCNL。這是一種由概率引起的度量學習損失，表明在多相機系統中，一個圖像更可能比其他相機中最相似的負樣本更接近同一相機中最相似的負樣本。在實驗中，MCNL大大提高了SCT設置中ReID的準確性，這爲在新的目標場景上快速部署具有良好性能的ReID系統鋪平了道路。

Direct training based spiking convolutional neural networks for object recognition
Authors Shibo Zhou, Ying Chen, Qiang Ye, Jiangxi Li
基於直接訓練的尖峯神經網絡SNN最近由於其在新興的神經形態硬件上的高能效而備受關注。但是，由於加標活動的不可區分性，大多數相關的SNN對於複雜的數據集（例如CIFAR 10）仍然無法實現較高的目標識別精度。即使其中一些可以達到90的精度，能耗仍然很高。這些網絡非常高。考慮到這一點，我們在本研究中提出了一種使用時間編碼方案的基於直接監督學習的尖峯卷積神經網絡SCNN，旨在利用最小的可訓練參數來高精度識別圖像中的對象。 MNIST和CIFAR 10數據集用於評估建議網絡的性能。對於MNIST數據集，與其他現有技術模型相比，擬議的帶噪聲輸入的網絡能夠達到較高的識別精度99.13，但使用的可訓練參數比它們低得多。對於CIFAR 10數據集，所提出的帶有數據增強步驟的網絡可以達到80.49。的識別精度，這是在使用時域編碼方式的基於直接訓練的SNN領域中最先進的精度。另外，在此類網絡中使用的可訓練參數的數量遠少於文獻中報道的基於轉換的SCNN中的數量。

Enhancing Traffic Scene Predictions with Generative Adversarial Networks
Authors Peter K nig, Sandra Aigner, Marco K rner
我們提出了一條新的兩級管道，用於預測仍能可靠檢測到相關物體的交通場景幀。使用最近的視頻預測網絡，我們首先根據過去的幀生成一系列將來的幀。然後，第二個網絡會增強這些框架，以使它們看起來更逼真。這確保了預測幀的質量足以實現物體的精確檢測，這對於自動駕駛汽車尤其重要。爲了驗證這兩個階段的方法，我們對Cityscapes數據集進行了實驗。爲了增強效果，我們訓練了兩種基於生成對抗網絡的圖像到圖像轉換方法，一種用於盲運動去模糊，一種用於圖像超分辨率。所有得到的預測都使用傳統指標和最新的物體檢測網絡進行了定量評估，顯示出增強的幀在質量上得到了改善。雖然傳統的圖像比較指標（即MSE，PSNR和SSIM）無法確認這種視覺印象，但目標檢測評估卻非常相似。與非增強型預測相比，性能最佳的預測增強流水線能夠將每個預測步驟的用於檢測汽車的平均精度值提高約9。

Distortion Estimation Through Explicit Modeling of the Refractive Surface
Authors Szabolcs P vel, Csan d S ndor, Lehel Csat
高精度校準是高可靠性3D計算機視覺算法所必需的。一個具有挑戰性的情況是，由於折射，相機在保護玻璃或透明物體後面，圖像嚴重變形，無法單獨使用針孔相機模型，並且需要失真校正步驟。通過直接建模折射介質的幾何形狀，我們通過跟蹤從相機到目標的各個光線來構建圖像生成過程。將生成的圖像與其扭曲的觀察到的對應圖像進行比較，我們通過使用RBF神經網絡通過模型反演來估計折射表面的幾何參數。我們提出了一種圖像收集方法，該方法可生成適合查找失真參數的數據，並在合成和真實數據上測試我們的算法。我們分析算法的結果。

On the Convergence of ADMM with Task Adaption and Beyond
Authors Risheng Liu, Pan Mu, Jin Zhang
隨着學習和視覺的發展，乘數ADMM的交替方向法已成爲具有線性約束的可分離優化模型的流行算法。然而，由於ADMM及其數值變體（例如，不精確，近端或線性化）在處理複雜的學習和視覺任務時由於其任務適應能力較弱而難以獲得最新的性能。最近，人們對將任務特定的計算模塊（例如，設計的過濾器或學習的體系結構）結合到ADMM迭代中的興趣日益濃厚。不幸的是，這些與任務相關的模塊引入了不受控制且不穩定的迭代流，它們還破壞了原始優化模型的結構。因此，現有的理論研究對於這些導致的任務特定迭代無效。在本文中，我們開發了一個簡單且通用的近端ADMM框架，以結合針對學習和視覺問題的靈活任務特定模塊。我們嚴格證明了目標函數值和約束違反的收斂性，並提供了由迭代複雜度衡量的最壞情況下的收斂速度。我們的研究不僅爲分析任務自適應ADMM提供了新的視角，而且還爲設計用於實際應用的實際優化方法提供了有意義的指導。進行數值實驗以驗證理論結果並證明我們算法框架的效率。

Image Recognition using Region Creep
Authors Kieran Greer
本文介紹了一種新型的圖像分類器，該分類器使用了淺層架構並具有非常快速的學習階段。圖像被解析爲較小的區域，每個區域以及相關的輸出類別都直接保存爲一個區域。呈現新圖像時，將與每個零件進行直接匹配，並返回最佳匹配區域。這些區域可以彼此重疊，並且當從一個區域移動到其鄰近區域時，區域圖像部分可能只會出現很小的變化。因此，通過累加鄰居的結果，可以猜測一個區域的最佳圖像部分。實際上，這是分類器的關聯功能，可以通過將直接匹配替換爲區域匹配建議的內容來重建缺失或嘈雜的輸入，這被稱爲“區域蠕變”。由於每個區域都存儲了它所屬的類別，因此圖像分類過程對其進行求和以返回整個圖像的首選類別。分類器主要在本地級別工作，因此要給它某種類型的全局圖片，需要添加規則。這些規則在整個圖像級別均有效，並且基本上規定，如果存在一組像素，則應刪除另一組像素，或者也應存在另一組像素。儘管規則看起來非常具體，但是大多數構造可以自動完成。對一組手寫數字的測試產生了最新的結果。

Fast and Accurate Convolutional Object Detectors for Real-time Embedded Platforms
Authors Min Kook Choi, Jaehyung Park, Heechul Jung, Jinhee Lee, Soo Heang Eo
隨着對象檢測網絡的改進，對象檢測網絡的多種變體已經實現了令人印象深刻的性能。但是，大多數模型的性能評估都集中在檢測精度上，並且性能驗證主要基於高端GPU硬件。在本文中，我們提出了一種實時對象檢測器，它可以保證嵌入式平臺上實時系統的均衡性能。所提出的模型利用了RefineDet模型的基本頭部結構，該模型是單發物體檢測器SSD的變體。爲了確保實時性能，具有相對較淺層或較少參數的CNN模型已用作主幹結構。除了基本的VGGNet和ResNet結構之外，各種骨幹結構（例如MobileNet，Xception，ResNeXt，Inception SENet和SE ResNeXt）已用於此目的。通過適當組合中間層，可以成功地訓練對象檢測網絡。通過評估MS COCO 2017對象檢測數據集評估了擬議探測器的準確性，並測試了NVIDIA Drive PX2和Jetson Xaviers板上的推理速度，以驗證嵌入式系統的實時性能。實驗表明，所提出的模型在嵌入式系統環境中的準確性和推理速度方面確保了平衡的性能。此外，與高端GPU不同，嵌入式GPU的使用還涉及有效推理的其他一些問題，這些問題已在本文中得到了確認。這些代碼和模型可以在Web鏈接上公開獲得。

IR-Net: Forward and Backward Information Retention for Highly Accurate Binary Neural Networks
Authors Haotong Qin, Ruihao Gong, Xianglong Liu, Ziran Wei, Fengwei Yu, Jingkuan Song
權重和激活二值化是深度神經網絡壓縮的有效方法，並且可以通過利用按位運算來加速推理。儘管許多二值化方法通過最小化前向傳播中的量化誤差提高了模型的準確性，但是在二值化模型和全精度模型之間仍然存在明顯的性能差距。我們的經驗研究表明，量化會在正向和反向傳播中帶來信息損失，這是訓練高精度二進制神經網絡的瓶頸。爲了解決這些問題，我們提出了一個信息保留網絡IR網絡來保留包含前向激活和後向漸變的信息。 IR Net主要依靠兩個技術貢獻：1，天秤座參數二值化Libra PB通過正向傳播中的平衡和標準化權重來最小化量化誤差和參數信息丟失2誤差衰減估計器EDE通過逐漸向後逼近符號函數來最小化梯度的信息丟失傳播，共同考慮更新能力和準確的梯度。在CIFAR 10和ImageNet數據集上使用各種網絡結構進行的全面實驗表明，所提出的IR網絡可以始終勝過最先進的量化方法。

PolSAR Image Classification Based on Dilated Convolution and Pixel-Refining Parallel Mapping network in the Complex Domain
Authors Xiao Dongling, Liu Chang
有效和準確的極化合成孔徑雷達PolSAR圖像分類和有限數量的先前標籤始終充滿挑戰。對於一般的監督式深度學習分類算法，逐像素算法可實現少量標記像素的精確而低效率的分類，而像素映射算法可實現有效而邊緣粗糙的分類，且需要更多的先驗標記。爲了考慮效率，準確性和先驗標記，我們在複雜域中提出了一種新穎的像素細化並行映射網絡，稱爲CRPM Net，並提出了用於PolSAR圖像分類的相應訓練算法。 CRPM Net由兩個並行子網絡組成：a複雜域中的傳遞擴張卷積映射網絡C複雜交叉卷積神經網絡Cs CNN激活的擴張CNN，旨在精確定位，高效和充分利用相位信息b與C Dilated CNN並行連接的複雜域編碼器解碼器網絡，該網絡將提取更多上下文語義特徵。最後，我們設計了一種兩步算法，通過細化錯誤分類的標記像素，以少量標記像素訓練Cs CNN和CRPM網絡，以實現更高的準確性。我們在AIRSAR和E SAR數據集上驗證了所提出的方法。實驗結果表明，CRPM Net可以實現最佳的分類結果，並且在PolSAR圖像分類的效率和準確性方面均明顯優於某些最新技術。 CRPM Net的源代碼和經過訓練的模型可從以下網站獲得：

FEED: Feature-level Ensemble for Knowledge Distillation
Authors SeongUk Park, Nojun Kwak
知識蒸餾KD旨在通過在培訓階段將教師網絡的預測提供給學生網絡，從而在教師學生框架中傳遞知識，以幫助學生網絡更好地推廣。它可以使用高容量的老師，也可以使用多位老師的集合。但是，當要使用基於特徵圖的蒸餾方法時，後者不方便。作爲一種解決方案，本文提出了一種功能強大的通用訓練算法，即用於知識蒸餾FEED的特徵級集成，其目的是使用多個教師網絡來傳遞集成知識。我們介紹了兩種訓練算法，它們可以在特徵圖級別將集成知識傳遞給學生。在基於特徵圖的蒸餾方法中，使用多個並行的非線性轉換來傳遞多位老師的知識有助於學生找到更通用的解決方案。我們將此方法稱爲並行FEED，在CIFAR 100和ImageNet上的實驗結果表明，該方法具有明顯的性能增強，而在測試時沒有引入任何其他參數或計算。我們還展示了按順序向學生提供教師信息的實驗結果，因此命名爲順序FEED，並討論了所獲得的課程。另外，在特徵圖上測量重建誤差的經驗結果爲增強提供了提示。

Unsupervised Deep Features for Privacy Image Classification
Authors Chiranjibi Sitaula, Yong Xiang, Sunil Aryal, Xuequan Lu
由於不瞭解隱私信息，在線共享圖像對廣泛的用戶構成了安全威脅。深度功能已被證明是圖像的有力代表。但是，深層功能通常會遇到較大的問題，並且需要大量數據才能進行微調。與普通圖像（例如場景圖像）相比，隱私圖像由於敏感信息而常常受到限制。在本文中，我們提出了一種新穎的方法，該方法可以處理有限的數據並生成較小尺寸的深層特徵。對於訓練圖像，我們首先從預先訓練的模型中提取初始深度特徵，然後使用K均值聚類算法來學習這些初始深度特徵的質心。我們使用從訓練特徵中學到的質心來提取每個測試圖像的最終特徵，並使用三角形編碼對最終特徵進行編碼。爲了提高特徵的可分辨性，我們進一步執行了從不同層獲得的兩個建議的無監督深層特徵的融合。實驗結果表明，在分類準確性和測試時間方面，所提出的特徵均優於最新的深層特徵。

Multi-scale discriminative Region Discovery for Weakly-Supervised Object Localization
Authors Pei Lv, Haiyu Yu, Junxiao Xue, Junjin Cheng, Lisha Cui, Bing Zhou, Mingliang Xu, Yi Yang
在圖像中缺乏監督的對象的本地化是計算機視覺社區研究的關鍵問題。許多現有的弱監督對象定位WSOL方法通過使用深度卷積神經網絡獲得的特徵圖激活圖來估計最具區分性的區域來解決此問題，也就是說，將僅定位具有最具區分性的響應的對象或其中的部分。但是，當一個圖像包含多個具有相同類型的對象或較小的對象時，激活圖通常顯示不同的局部最大響應或相對較弱的響應。在本文中，我們提出了一種簡單而有效的多尺度判別區域發現方法，該方法不僅可以定位更多積分對象，而且可以僅使用圖像級別的類標籤來定位儘可能多的對象。流入CNN不同卷積層的梯度權重被用作我們方法的輸入，這與以前的方法不同，僅考慮了最終卷積層的梯度權重。爲了爲對象定位任務挖掘更多的判別區域，利用梯度權重圖的多個局部最大值來生成具有平行滑動窗口的定位圖。此外，融合來自不同卷積層的多尺度定位圖以產生最終結果。我們基於VGGnet在ILSVRC 2016，CUB 200 2011和PASCAL VOC 2012數據集上評估了所提出的方法。在ILSVRC 2016上，提出的方法產生的Top 1本地化誤差爲48.65，比之前的結果高2.75。在PASCAL VOC 2012上，我們的方法實現了0.43的最高定位精度。即使對於CUB 200 2011數據集，我們的方法仍然可以取得競爭性結果。

Learning deep representations for video-based intake gesture detection
Authors Philipp V. Rouast, Marc T. P. Adam
在進食場合中自動檢測單個攝入手勢有可能改善飲食監測並支持飲食建議。現有研究通常利用諸如慣性和音頻傳感器之類的人體解決方案，而將視頻用作地面真理。很少嘗試直接基於視頻進行進氣姿勢檢測。在這項研究中，我們解決了這一差距，並表明深度學習架構可以成功地應用於基於視頻的進氣手勢檢測問題。爲此，我們使用102位參與者的360度視頻收集並標記就餐場合的視頻數據。應用來自視頻動作識別的最先進方法，我們的結果表明1最佳模型的F 1得分爲0.858，2外觀特徵比運動特徵貢獻更多，3多個視頻幀形式的時間上下文對於頂部模型性能。

Relational Learning for Joint Head and Human Detection
Authors Cheng Chi, Shifeng Zhang, Junliang Xing, Zhen Lei, Stan Z. Li, Xudong Zou
隨着深度卷積神經網絡的發展，頭部和人體檢測已得到快速改善。但是，這兩項任務通常在不考慮其固有相關性的情況下進行單獨研究，從而導致1頭部檢測經常陷入更多的誤報中； 2人類檢測器的性能經常在人羣場景中急劇下降。爲了解決這兩個問題，我們提出了一種新穎的聯合頭部和人體檢測網絡，即JointDet，它可以有效地同時檢測頭部和人體。此外，我們設計了一個頭部關係識別模塊，以進行頭部和人體之間的關係學習，並利用這種學習的關係來重新獲得被抑制的人體檢測並減少頭部假陽性。爲了驗證所提方法的有效性，我們對CityPersons和Caltech USA數據集的頭部邊界框進行了註釋，並對CrowdHuman，CityPersons和Caltech USA數據集進行了廣泛的實驗。結果，提出的JointDet檢測器在這三個基準上均達到了最新的性能。爲了促進對頭部和人體檢測問題的進一步研究，所有新的註釋，源代碼和訓練有素的模型將公開。

diffGrad: An Optimization Method for Convolutional Neural Networks
Authors Shiv Ram Dubey, Soumendu Chakraborty, Swalpa Kumar Roy, Snehasis Mukherjee, Satish Kumar Singh, Bidyut Baran Chaudhuri
隨機梯度體面SGD是深層神經網絡成功背後的核心技術之一。梯度提供有關功能變化最快的方向的信息。基本SGD的主要問題是所有參數的步長均等，而與梯度行爲無關。因此，深度網絡優化的有效方法是爲每個參數設置自適應步長。最近，已經進行了一些嘗試來改善梯度下降方法，例如AdaGrad，AdaDelta，RMSProp和Adam。這些方法依賴於過去梯度平方的指數移動平均值的平方根。因此，這些方法沒有利用梯度的局部變化的優勢。本文基於當前梯度與過去梯度之間的差異（即diffGrad）提出了一種新穎的優化器。在提出的diffGrad優化技術中，針對每個參數調整步長，以使其對於較大的梯度更改參數應具有較大的步長，對於較低的梯度更改參數應具有較小的步長。使用在線學習框架的後悔約束方法進行收斂性分析。本文對三個合成的複雜非凸函數進行了嚴格的分析。還對CIFAR10和CIFAR100數據集進行了圖像分類實驗，以觀察diffGrad相對於最先進的優化器（例如SGDM，AdaGrad，AdaDelta，RMSProp，AMSGrad和Adam）的性能。實驗中使用了基於殘差單元ResNet的卷積神經網絡CNN體系結構。實驗表明，diffGrad的性能優於其他優化器。此外，我們還顯示了diffGrad使用不同的激活函數在網絡上的性能均一。源代碼在以下位置公開可用

Automatic techniques for cochlear implant CT image analysis
Authors Yiyuan Zhao
本文的目的是使IGCIP術後階段所需的圖像處理技術完全自動化，並對IGCIP中使用的自動圖像處理技術的魯棒性進行全面分析，並評估IGCIP過程的敏感性。整體到單個組件。已開發的自動方法包括在植入後CT中自動定位緊密和遠距的CI電極陣列，以及基於刺激模式自動選擇電極配置。結合爲IGCIP開發的現有自動技術，提出的自動方法使端到端IGCIP過程能夠將植入前後的CT圖像作爲輸入，並生成患者定製的電極配置作爲輸出。

Offline identification of surgical deviations in laparoscopic rectopexy
Authors Arnaud Huaulm , Sandrine Voros, Fabian Reche, Jean Luc Faucheron, Alexandre Moreau Gaudry, Pierre Jannin
目的中位患者中有14.4人在手術期間至少發生了一次不良事件，其中三分之一是可以預防的。不良事件的發生迫使外科醫生採取糾正策略，因此偏離了標準的手術過程。因此，很明顯，不良事件的自動識別是患者安全的主要挑戰。在本文中，我們提出了一種使我們能夠識別這種偏差的方法。我們專注於確定由於手術事件而不是解剖學特異性導致的外科醫生與標準手術過程的偏差。鑑於典型外科手術流程的高度可變性，這尤其具有挑戰性。方法我們引入了一種新方法，該方法旨在基於多維非線性時間標度和隱藏的半馬爾可夫模型，通過手動標註手術過程來自動檢測和區分手術過程偏差。然後使用交叉驗證對方法進行評估。結果最佳結果的準確性超過90。查全率和查準率均高達70。我們提供了對錯誤檢測到的觀察結果的詳細分析。結論帶有隱藏半馬氏模型的多維非線性時間標度爲檢測偏差提供了有希望的結果。我們對錯誤檢測的觀測值的錯誤分析提供了不同的線索，以進一步改進我們的方法。意義我們的方法證明了自動檢測手術偏差的可行性，該偏差可用於技能分析和開發基於情境感知的計算機輔助手術系統。

s-LWSR: Super Lightweight Super-Resolution Network
Authors Biao Li, Jiabin Liu, Bo Wang, Zhiquan Qi, Yong Shi
用於超分辨率SR的深度學習DL架構通常包含大量參數，這被視爲獲得令人滿意的性能的關鍵優勢。但是，隨着手機廣泛用於拍照和修飾照片，此角色極大地阻礙了DL SR模型在移動設備上的部署。爲了解決這個問題，本文提出了一種超輕量級的SR網絡的LWSR。我們的工作主要有三方面的貢獻。首先，爲了有效地從低分辨率圖像中提取特徵，我們建立了一個信息庫來混合來自管道前半部分的多級信息。因此，信息池向後半部分提供來自先前各層的層次結構特徵的組合。其次，我們採用壓縮模塊來進一步減小參數的大小。深入的分析證實了其在模型複雜性和準確性之間進行權衡的能力。第三，通過揭示激活在深度模型中的特定作用，我們刪除了SR模型中的幾個激活層，以保留更多信息以提高性能。大量實驗表明，我們的LWSR具有有限的參數和操作，可以實現與其他繁瑣的DL SR方法相似的性能。

Multi-scale fully convolutional neural networks for histopathology image segmentation: from nuclear aberrations to the global tissue architecture
Authors R diger Schmitz, Frederic Madesta, Maximilian Nielsen, Ren Werner, Thomas R sch
組織病理學診斷取決於廣泛範圍內的同時信息，範圍從核像差在數學結構上大約爲O 0.1微米，在細胞結構上大約爲10微米，到全局組織結構gtrapprox大約爲1毫米。考慮到人類病理學家使用哪種信息，我們介紹並研究了將多個且廣泛分開的空間尺度集成到基於U Net的通用體系結構中的不同策略。基於此，我們提出了一種新的，端到端的可訓練，多尺度，多編碼器全卷積神經網絡，用於人類形態學在組織病理學中啓發計算機視覺。

Dimension Estimation Using Autoencoders
Authors Nitish Bahadur, Randy Paffenroth
維度估算DE和維度縮減DR是兩個緊密相關的主題，但目標卻大不相同。在DE中，人們嘗試估計隨機向量的一組測量結果中的固有維數或潛在變量的數量。但是，在DR中，人們試圖將隨機矢量線性或非線性地投影到較低維空間，以保留原始高維空間中包含的信息。當然，這兩個想法是緊密聯繫在一起的，因爲例如將DR設置爲小於DE建議的尺寸可能會導致信息丟失。因此，在本文中，我們將重點關注一類稱爲自動編碼器的深度神經網絡，該網絡廣泛用於DR，但對DE的研究較少。我們表明，在將自動編碼器用於DE時，除了重要的DR DE技術（例如主成分分析）所出現的問題之外，還出現了幾個重要的問題。我們解決自動編碼器體系結構選擇和正則化技術的問題，這些選擇和正則化技術使人們可以將自動編碼器潛在層表示轉換爲固有維數的估計。

Deformable Non-local Network For Video Super-Resolution
Authors Hua Wang, Dewei Su, Longcun Jin, Chuangchuang Liu
視頻超分辨率VSR任務旨在通過使用其對應的低分辨率幀和多個相鄰幀來恢復高分辨率視頻幀。目前，許多基於深度學習的VSR方法都依靠光流來執行幀對齊。最終恢復結果將受到光流精度的極大影響。然而，光流估計不能完全準確，並且總是存在一些誤差。在本文中，我們提出了一種新的基於非流的可變形非本地網絡DNLN。具體來說，我們在對齊模塊中應用了改進的可變形卷積，以在特徵級別實現自適應幀對齊。此外，我們利用非局部模塊捕獲參考幀和對齊的相鄰幀之間的全局相關性，並同時增強對齊幀中所需的精細細節。爲了重建最終的高質量HR視頻幀，我們使用殘差密集塊中的殘差來充分利用分層功能。在多個數據集上的實驗結果表明，提出的DNLN可以在視頻超分辨率任務上達到最先進的性能。

Analysis of Generalized Entropies in Mutual Information Medical Image Registration
Authors Vinicius Pavanelli Vianna, Luiz Otavio Murta Junior
互信息MI是圖像配準中使用的標準方法，也是研究最多的一種方法，但是當以自動方式使用時，可能會發散併產生錯誤的結果。在這項研究中，我們比較了3D Slicer和ITK衍生軟件解決方案中使用的ITK Mattes MI函數的結果，以及我們自己的MICUDA Shannon和Tsallis MI函數在3D數學空間中的平移，旋轉和比例變換下的結果。通過比較，可以瞭解爲什麼在某些情況下配準會失敗，以及如何生成更強大的自動算法來配準醫學圖像。由於我們的算法被設計爲使用GPU計算，因此在提高註冊質量的同時，我們還獲得了巨大的速度提升。

The Field-of-View Constraint of Markers for Mobile Robot with Pan-Tilt Camera
Authors Hongxuan Ma, Wei Zou, Zheng Zhu, Siyang Sun, Zhaobing Kang
在導航和視覺伺服領域，通常通過標記上的特徵點來計算相對姿勢，因此將標記保持在相機視圖中是一個重要的問題。在本文中，我們提出了一種新穎的方法來計算攝像機標記的視野FOV約束。我們的方法可以使相機在移動機器人運動期間保持所有特徵點的可見性。根據相機的角孔徑，移動機器人可以獲得相機無法將所有特徵點保留在圖像中的FOV約束區域。基於FOV約束區域，可以指導移動機器人從初始位置移動到目的地。最後，基於配備有云臺攝像機的移動機器人進行了仿真和實驗，這驗證了該方法獲得FOV約束的有效性。

Non-monotonic Logical Reasoning Guiding Deep Learning for Explainable Visual Question Answering
Authors Heather Riley, Mohan Sridharan
用於許多模式識別問題的最新算法依賴於深度網絡模型。訓練這些模型需要標記大量的數據集和大量的計算資源。而且，很難理解這些學習模型的工作原理，從而限制了它們在某些關鍵應用中的使用。爲了解決這些侷限性，我們的體系結構從認知系統研究中汲取了靈感，並融合了常識邏輯推理，歸納學習和深度學習的原理。在回答有關場景的解釋性問題和潛在的分類問題時，該體系結構使用深度網絡從圖像中提取特徵並生成查詢答案。在這些深層網絡之間，它嵌入了具有不完整常識領域知識的非單調邏輯推理組件和決策樹歸納組件。它還可以增量地學習和解釋以前未知的約束域狀態的約束。我們在模擬和真實世界圖像的數據集的上下文中評估了該體系結構，並在模擬機器人的計算，執行和計劃說明中進行了描述。實驗結果表明，與深度網絡的端到端體系結構相比，當訓練數據集較小時，我們的體系結構在分類問題上具有更高的準確性，與較大的數據集具有可比的準確性，並且對於解釋性問題的答案更準確。此外，以增量方式獲取以前未知的約束條件可以提高回答解釋性問題的能力，並且擴展非單調邏輯推理以支持計劃和診斷可以提高在模擬機器人上計算和執行計劃的可靠性和效率。

Automatic Mouse Embryo Brain Ventricle & Body Segmentation and Mutant Classification From Ultrasound Data Using Deep Learning
Authors Ziming Qiu, Nitin Nair, Jack Langerman, Orlando Aristizabal, Jonathan Mamou, Daniel H. Turnbull, Jeffrey A. Ketterling, Yao Wang
高頻超聲HFU非常適合於體內胚胎小鼠的成像，因爲它是無創且實時的。從3D HFU圖像手動分割腦室BV和整個身體非常耗時，並且需要專門的培訓。本文提出了一種基於深度學習的分割流水線，該流水線可自動執行目前正在研究小鼠胚胎髮育中的基因突變的耗時且重複的任務。即，儘管由於胚胎的位置和形狀變化以及成像僞像而帶來了很大的挑戰，但該管道仍可以準確地對小鼠胚胎的3D HFU圖像中的BV和身體區域進行分割。基於BV分割，進一步訓練了3D卷積神經網絡CNN以檢測具有Engrailed 1 En1突變的胚胎。該算法分別實現了BV和人體分割的0.896和0.925骰子相似性係數DSC，以及突變體分類的95.8準確性。通過基於梯度的詢問和經過訓練的分類器的可視化，可以證明該模型集中於已知受En1突變影響的形態結構。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁

pic from pexels.com

【AI視野·今日CV 計算機視覺論文速覽第160期】Wed, 25 Sep 2019

Interesting:

Daily Computer Vision Papers

【英文寫作日知錄第1期】句式彙總 Sun, 05 July 2020

【AI視野·今日CV 計算機視覺論文速覽第166期】Mon, 28 Oct 2019

【AI視野·今日CV 計算機視覺論文速覽第167期】Mon, 11 Nov 2019

【研究方法】好的研究想法從哪裏來--劉知遠

【AI視野·今日CV 計算機視覺論文速覽第168期】Fri, 15 Nov 2019

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【AI視野·今日CV 計算機視覺論文速覽 第160期】Wed, 25 Sep 2019

Interesting:

Daily Computer Vision Papers

【AI視野·今日CV 計算機視覺論文速覽第160期】Wed, 25 Sep 2019