【AI視野·今日CV 計算機視覺論文速覽 第169期】Fri, 22 Nov 2019

AI視野·今日CS.CV 計算機視覺論文速覽
Fri, 22 Nov 2019
Totally 56 papers
👉上期速覽更多精彩請移步主頁

在這裏插入圖片描述

Interesting:

📚DR-KFD用於三維重建的可差分視覺度量方法, 在對於形狀的多視角渲染下,對三維形狀和圖像空間視覺的差異來度量重建的效果。同時基於MSE開發了一種可差分的圖像空間距離,從概率關鍵點圖中計算得到。這種可差分的視覺形狀度量方法可以方便的插入現有的重建網絡中去,代替目標空間中Chamfer和測地線距離等度量,優化生成結果的視覺效果和結構保真度。(from 西蒙弗雷澤大學 加拿大)
下圖展示了使用這種度量訓練的結果由於Chamfer distance的結果:
在這裏插入圖片描述
現有方法主要使用測地線和Chamfer距離作爲度量:
在這裏插入圖片描述
抽取描述子和計算損失的過程:
在這裏插入圖片描述
在這裏插入圖片描述
訓練出的效果更好:
在這裏插入圖片描述

📚基於巨像素的複雜場景的單目三維重建, 在相機和拍攝對象同時都在移動時候,需要建立有效的對應關係來構建三維模型。研究人員假設場景可以被近似爲一系列逐片的平面小單元,每個平面具有自己的剛體運動,在幀之間的的動態變換儘可能的滿足剛體變換。這就將對場景的建模問題簡化爲對一系列剛體平面結構及其剛體運動的建模。基於對場景的圖割實現小平面單元分割,將這一問題進一步轉化爲了一個類似三維拼圖的任務,將對應的片元拼接在正確的三維位置,使得邊界結構更爲連續。(from 澳大利亞國立)
在這裏插入圖片描述
在這裏插入圖片描述
重建出的深度圖效果很好,由於video-popup的方法:
在這裏插入圖片描述

📚基於邊界上的邊界點檢測來實現場景文本檢測, 通過檢測邊界點來檢測和校正文本。(from 華中科技大學和阿里巴巴 AAAI)
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

📚LCD學習二維圖像與三維點雲間的跨域描述子, 可用於圖像檢索、三維匹配、二維三維匹配檢索、稀疏深度稠密估計。(from 新加坡技術設計 斯坦福 東京大學)
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

📚學習從圖像中定位聲源, (from KAIST)
在這裏插入圖片描述
在這裏插入圖片描述

📚CCGAN基於分類驅動的圖像去霧網絡模型, (from 北京交通大學)
在這裏插入圖片描述
與相關方法的比較:
在這裏插入圖片描述在這裏插入圖片描述

📚RIS-GAN利用殘差和照明關係通過生成對抗來移除圖像中的陰影, (from 武漢科技大學)
在這裏插入圖片描述

📚人臉和聲音的相關檢索方法, 通過聲音來檢索對應的人臉,包括聲音人臉匹配和聲音人臉檢索。(from 人民大學)
在這裏插入圖片描述
在這裏插入圖片描述

📚通過衛星圖像識別受損建築,包括了一系列自然災害後的衛星數據集可以從表格中查看 (from CMU)
在這裏插入圖片描述
在這裏插入圖片描述
code:https://github.com/DIUx-xView/xview2-baseline/

📚眼部識別數據庫和應用綜述, (from Federal University of Parana, Curitiba, Brazil)
文章中的表格總結了一系列相關數據集和方法,可以進一步查閱:
在這裏插入圖片描述
在這裏插入圖片描述

📚腿部肌肉橫截面的語義分割, (from GE 醫療)
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述


Daily Computer Vision Papers

Adversarial Examples Improve Image Recognition
Authors Cihang Xie, Mingxing Tan, Boqing Gong, Jiang Wang, Alan Yuille, Quoc V. Le
對抗性示例通常被視爲對ConvNets的威脅。在這裏,我們提出了一個相反的觀點對抗性示例,如果以正確的方式加以利用,可以用來改進圖像識別模型。我們建議使用AdvProp,這是一種增強型對抗訓練方案,可以將對抗性示例作爲其他示例,以防止過度擬合。我們的方法的關鍵是針對對抗性示例使用單獨的輔助批處理規範,因爲它們與常規示例具有不同的基礎分佈。

AdaFilter: Adaptive Filter Fine-tuning for Deep Transfer Learning
Authors Yunhui Guo, Yandong Li, Liqiang Wang, Tajana Rosing
訓練有素的深度神經網絡模型越來越多。但是,仍不清楚如何有效地將這些模型用於新任務。轉移學習旨在將知識從源任務轉移到目標任務,是解決此問題的有效方法。精調是用於深度神經網絡的一種流行的轉移學習技術,其中對預訓練模型的參數進行幾輪訓練,以使其適應新任務。儘管它很受歡迎,但在本文中,我們顯示出微調存在幾個缺點。我們提出了一種稱爲AdaFilter的自適應微調方法,該方法僅選擇經過預訓練的模型中的卷積濾波器的一部分,以根據每個示例進行優化。我們使用循環門控網絡根據前一層的激活選擇性地微調卷積濾波器。我們對7個公共圖像分類數據集進行了實驗,結果表明,AdaFilter可以將標準微調的平均分類誤差降低2.54。

Unsupervised Domain Adaptation by Optical Flow Augmentation in Semantic Segmentation
Authors Oluwafemi Azeez
生成現實生活中的圖像標籤非常昂貴,並且現實生活中的圖像與模擬圖像之間存在領域差距,因此在後者上訓練的模型無法適應前者。解決此問題可以完全消除完全標記現實生活數據集的需要。類均衡的自我訓練是嘗試減小領域差距的現有技術之一。此外,使用流圖增強RGB在簡單的語義分割中具有改進的性能,並且跨域保留了幾何形狀。因此,通過用密集的光流圖來增強圖像,可以改善語義分割中的域自適應。

Learning to Localize Sound Sources in Visual Scenes: Analysis and Applications
Authors Arda Senocak, Tae Hyun Oh, Junsik Kim, Ming Hsuan Yang, In So Kweon
視覺事件通常在我們的日常生活中伴隨着聲音。但是,這些機器能否僅通過像人類一樣觀察來學習視覺場景和聲音之間的關聯以及對聲源進行定位?爲了研究其經驗可學習性,在本文中,我們首先提出一種新穎的無監督算法,以解決聲音定位問題視覺場景中的資源。爲了實現這一目標,開發了一種利用注意力機制處理每個模式的兩流網絡結構,用於聲源定位。網絡自然顯示場景中的本地化響應,而無需人工註釋。此外,還開發了一個新的聲源數據集用於性能評估。但是,我們的經驗評估表明,在某些情況下,無監督方法會得出錯誤的結論。因此,我們表明,由於衆所周知的相關性和因果不匹配誤解,如果沒有人類先驗知識就無法解決這個錯誤的結論。爲解決此問題,由於兩流網絡的一般體系結構,我們可以通過簡單的修改將網絡擴展到受監管的和半監管的網絡設置。我們表明,即使有少量監督(即半監督設置)也可以有效糾正錯誤結論。此外,我們展示了學習的音頻和視覺嵌入在交叉模式內容對齊方面的多功能性,並將該算法擴展到了一個新的應用中,即基於聲效的360度視頻中基於攝像機顯像的自動平移。

Ocular Recognition Databases and Competitions: A Survey
Authors Luiz A. Zanlorensi, Rayson Laroca, Eduardo Luz, Alceu S. Britto Jr., Luiz S. Oliveira, David Menotti
虹膜和眼周區域作爲生物特徵的用途已得到廣泛研究,這主要是由於虹膜特徵的奇異性以及當圖像分辨率不足以提取虹膜信息時眼周區域的使用。除了提供有關個人身份的信息之外,還可以探索從這些特徵中提取的特徵,以獲得其他信息,例如個人性別,吸毒的影響,隱形眼鏡的使用,欺騙等。這項工作對爲眼識別而創建的數據庫進行了調查,詳細介紹了它們的協議以及如何獲取它們的圖像。我們還將描述和討論最流行的眼識別競賽,重點介紹提交的算法,該算法僅使用虹膜特徵並融合虹膜和眼周區域信息即可達到最佳效果。最後,我們描述了將深度學習技術應用於眼識別的一些相關作品,並指出了新的挑戰和未來的方向。考慮到存在大量的眼科數據庫,並且每個數據庫通常都是針對特定問題而設計的,因此我們認爲這項調查可以對眼科生物識別技術的挑戰提供廣泛的概述。

Synthesizing Visual Illusions Using Generative Adversarial Networks
Authors Alexander Gomez Villa, Adrian Mart n, Javier Vazquez Corral, Jes s Malo, Marcelo Bertalm o
視覺幻覺對於視覺科學家來說是非常有用的工具,因爲它們使他們能夠更好地探查視覺系統的極限,閾值和錯誤。在這項工作中,我們介紹了第一個使用人工神經網絡ANN生成新穎視覺幻覺的框架。它採用生成對抗網絡的形式,具有視覺幻覺生成器和兩個區分模塊,一個用於誘導者背景,另一個用於確定候選者是否確實是一個幻覺。該模型的一般性可以通過合成不同類型的錯覺來說明,並通過心理物理實驗進行驗證,這些實驗證實了我們的人工神經網絡的輸出確實是人類觀察者的視覺錯覺。除了合成可能有助於視覺研究人員的新視覺幻覺之外,所提出的模型還具有開闢新方法來研究人工神經網絡與人類視覺感知之間異同的潛力。

Knowledge Graph Transfer Network for Few-Shot Recognition
Authors Riquan Chen, Tianshui Chen, Xiaolu Hui, Hefeng Wu, Guanbin Li, Liang Lin
很少有鏡頭學習旨在從很少的樣本中學習新穎的類別,給定一些基本類別並具有足夠的訓練樣本。這項任務的主要挑戰是,新穎的類別容易受對象的顏色,紋理,形狀或背景背景即特異性支配,這在給定的少數訓練樣本中是不同的,但在相應類別中並不常見,請參見圖1。幸運的是,我們發現傳遞相關的基於類別的信息可以幫助學習新穎的概念,從而避免新穎性概念被特異性支配。此外,在不同類別之間合併語義相關性可以有效地規範此信息傳遞。在這項工作中,我們以結構化知識圖的形式表示語義相關性,並將該圖集成到深度神經網絡中,以通過新穎的知識圖轉移網絡KGTN促進少量鏡頭學習。具體地,通過用對應類別的分類器權重初始化每個節點,學習傳播機制以通過圖自適應地傳播節點消息,以探索節點交互並將基本類別的分類器信息轉移到新類別的分類器信息。與目前的領先競爭對手相比,在ImageNet數據集上進行的廣泛實驗顯示出顯着的性能改進。此外,我們構建了一個涵蓋較大規模類別(即6,000個類別)的ImageNet 6K數據集,並且對該數據集進行的實驗進一步證明了我們提出的模型的有效性。

All You Need Is Boundary: Toward Arbitrary-Shaped Text Spotting
Authors Hao Wang, Pu Lu, Hui Zhang, Mingkun Yang, Xiang Bai, Yongchao Xu, Mengchao He, Yongpan Wang, Wenyu Liu
近來,旨在同時從混亂圖像中檢測和識別文本的端到端文本點播在計算機視覺中引起了越來越多的興趣。與將文本檢測描述爲邊界框提取或實例分割的現有方法不同,我們在每個文本實例的邊界上定位一組點。通過這些邊界點的表示,我們建立了一個簡單而有效的方案來端到端識別文本,可以讀取任意形狀的文本。在包括ICDAR2015,TotalText和COCO Text在內的三個具有挑戰性的數據集上進行的實驗表明,該方法在場景文本檢測和端到端文本識別任務方面始終領先於最新技術。

Learning Spatial Fusion for Single-Shot Object Detection
Authors Songtao Liu, Di Huang, Yunhong Wang
金字塔形特徵表示法是解決對象檢測中尺度變化挑戰的常用方法。然而,對於基於特徵金字塔的單發檢測器而言,不同特徵尺度之間的不一致是主要限制。在這項工作中,我們提出了一種新穎的數據驅動的金字塔特徵融合策略,稱爲自適應空間特徵融合ASFF。它學習了空間過濾衝突信息以抑制不一致性的方法,從而改善了特徵的尺度不變性,並引入了幾乎免費的推理開銷。藉助ASFF策略和可靠的YOLOv3基線,我們在MS COCO數據集上實現了最佳的速度精度折衷,在60 FPS時報告了38.1 AP,在45 FPS時報告了42.4 AP,在29 FPS時報告了43.9 AP。該代碼位於

Quantization Networks
Authors Jiwei Yang, Xu Shen, Jun Xing, Xinmei Tian, Houqiang Li, Bing Deng, Jianqiang Huang, Xiansheng Hua
儘管深度神經網絡非常有效,但其高昂的計算和存儲成本嚴重挑戰了其在便攜式設備上的應用。結果,將全精度神經網絡轉換爲低位寬整數版本的低位量化一直是活躍而有前途的研究主題。現有方法將網絡的低位量化公式化爲近似或優化問題。基於近似的方法面臨梯度失配問題,而基於優化的方法僅適用於量化權重,並且可能在訓練階段引入較高的計算成本。在本文中,我們提出了一種新的觀點,即通過將低位量化公式化爲可量化的非線性函數稱爲量化函數,來解釋和實現神經網絡量化。可以以無損且端到端的方式學習所提出的量化函數,並以簡單統一的方式對神經網絡的任何權重和激活進行工作。在圖像分類和目標檢測任務方面的大量實驗表明,我們的量化網絡優於現有方法。我們相信,提出的方法將爲神經網絡量化的解釋提供新的見識。我們的代碼位於

Heuristic Black-box Adversarial Attacks on Video Recognition Models
Authors Zhipeng Wei, Jingjing Chen, Xingxing Wei, Linxi Jiang, Tat Seng Chua, Fengfeng Zhou, Yu Gang Jiang
我們研究了在黑盒設置中攻擊視頻識別模型的問題,其中模型信息未知,對手只能進行查詢以檢測預測的前1類及其概率。與對圖像的黑匣子攻擊相比,攻擊視頻更具挑戰性,因爲視頻的高維性使搜索視頻中的對抗性擾動的計算成本高得多。爲了克服這一挑戰,我們提出了一種啓發式黑匣子攻擊模型,該模型僅在選定的幀和區域上產生對抗性擾動。更具體地說,提出了一種基於啓發式的算法來測量視頻中每個幀對生成對抗性示例的重要性。基於幀的重要性,所提出的算法啓發式搜索幀的子集,其中所生成的對抗示例具有較強的對抗攻擊能力,同時保持攝動低於給定範圍。此外,爲了進一步提高攻擊效率,我們建議僅在所選幀的顯着區域上生成擾動。以這種方式,所產生的擾動在時間和空間域上都是稀疏的。對UCF 101數據集和HMDB 51數據集攻擊兩種主流視頻識別方法的實驗結果表明,所提出的啓發式黑盒對抗攻擊方法可以顯着降低計算成本,並導致針對非目標攻擊的查詢數量減少28多個兩個數據集。

TEINet: Towards an Efficient Architecture for Video Recognition
Authors Zhaoyang Liu, Donghao Luo, Yabiao Wang, Limin Wang, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, Tong Lu
效率是設計用於動作識別的視頻體系結構中的重要問題。 3D CNN見證了從視頻進行動作識別方面的顯着進步。但是,與2D卷積相比,3D卷積經常引入大量參數,並導致高計算量。爲了緩解這個問題,我們提出了一個有效的時間模塊,稱爲時間增強和交互TEI模塊,可以將其插入由TEINet表示的現有2D CNN中。 TEI模塊通過解耦通道相關性和時間交互的建模,提供了一種學習時間特徵的不同範例。首先,它包含運動增強模塊MEM,該模塊將增強運動相關的功能,同時抑制無關的信息(例如背景)。然後,它引入了一個時間交互模塊TIM,以通道方式補充了時間上下文信息。這兩個階段的建模方案不僅能夠靈活有效地捕獲時間結構,而且對於模型推斷也是有效的。我們進行了廣泛的實驗以驗證TEINet在幾個基準上的有效性,例如Something Something V1 V2,Kinetics,UCF101和HMDB51。我們提出的TEINet可以在這些數據集上實現良好的識別精度,但仍然保持較高的效率。

MSD: Multi-Self-Distillation Learning via Multi-classifiers within Deep Neural Networks
Authors Yunteng Luan, Hanyu Zhao, Zhi Yang, Yafei Dai
隨着神經網絡的發展,越來越多的深度神經網絡被用於各種任務中,例如圖像分類。但是,由於巨大的計算開銷,這些網絡無法應用於移動設備或其他低延遲場景。爲了解決這個難題,提出了多出口卷積網絡以允許通過早期出口使用相應的分類器進行更快的推斷。這些網絡利用複雜的設計來提高提前退出的準確性。但是,幼稚地訓練多出口網絡可能會損害深度神經網絡的性能準確性,因爲早期出口分類器始終會干擾特徵生成過程。

Classification-driven Single Image Dehazing
Authors Yanting Pei, Yaping Huang, Xingyuan Zhang
大多數現有的除霧算法通常使用手工特徵或基於卷積神經網絡CNN的方法來使用像素級均方誤差MSE損失生成清晰的圖像。所生成的圖像通常具有更好的視覺吸引力,但對於高水平的視覺任務(例如:圖像分類。在本文中,我們研究瞭解決此問題的新觀點。我們不僅要確保僅在基於像素的度量標準(例如峯值信噪比PSNR)上實現良好的定量性能,還應確保已解模糊的圖像本身不會降低諸如圖像分類之類的高級視覺任務的性能。爲此,我們提出了一個統一的CNN架構,該架構包括三個部分:除霧子網DNet,分類驅動的條件生成對抗網絡子網CCGAN和與圖像分類相關的分類子網CNet,在視覺吸引力和圖像分類。我們對兩個具有挑戰性的細粒度和對象分類CUB 200 2011和Caltech 256的基準數據集進行了全面的實驗。實驗結果表明,在圖像除霧指標和分類精度方面,該方法優於許多最新的單一圖像除霧方法。

ChartNet: Visual Reasoning over Statistical Charts using MAC-Networks
Authors Monika Sharma, Shikha Gupta, Arindam Chowdhury, Lovekesh Vig
儘管通過深度學習實現了感知準確性的改善,但是將精確的視覺感知與推理能力結合在一起的開發系統仍然極具挑戰性。從可訪問性的角度來看,特定的應用領域是基於統計圖(如條形圖和餅圖)進行推理的領域。爲此,我們使用MAC網絡將統計圖上的推理問題公式化爲分類任務,以從通用答案的預定義詞彙表中給出答案。此外,我們通過用迴歸層代替分類層來定位圖像上存在的文本答案,從而增強了MAC網絡的能力,從而爲圖表提供了開放式問題的特定答案。我們稱其爲ChartNet網絡,並證明其在預測詞彙量和詞彙答案之外的功效。爲了測試我們的方法,我們生成了我們自己的統計圖圖像數據集和相應的問題答案對。結果表明,在對這些問題進行推理時,ChartNet始終優於其他最新技術,並且可能是包含統計圖表圖像的應用程序的可行候選人。

Gliding vertex on the horizontal bounding box for multi-oriented object detection
Authors Yongchao Xu, Mingtao Fu, Qimeng Wang, Yukang Wang, Kai Chen, Gui Song Xia, Xiang Bai
目標檢測近來已取得實質性進展。然而,廣泛採用的水平邊界框表示不適用於無處不在的面向對象,例如航空圖像和場景文本中的對象。在本文中,我們提出了一個簡單而有效的框架來檢測多方位的對象。我們沒有直接使四個頂點回歸,而是在每個對應的側面上滑動水平邊界框的頂點,以準確地描述多方位的對象。具體來說,我們迴歸了四個長度比,以表徵每個相對側的相對滑動偏移。這可以促進偏移學習並且避免定向對象的順序標籤點的混亂問題。爲了進一步解決幾乎水平物體的混亂問題,我們還基於物體與其水平邊界框之間的面積比引入​​了一個傾斜因子,指導每個物體的水平或定向檢測的選擇。我們將這五個額外的目標變量添加到快速R CNN的迴歸頭中,這需要可忽略的額外計算時間。大量的實驗結果表明,該方法在沒有花哨的情況下,在多個多方向物體檢測基準上均具有優異的性能,包括航空圖像中的物體檢測,場景文本檢測,魚眼圖像中的行人檢測。

An End-to-End Audio Classification System based on Raw Waveforms and Mix-Training Strategy
Authors Jiaxu Chen, Jing Hao, Kai Chen, Di Xie, Shicai Yang, Shiliang Pu
音頻分類可以區分不同的聲音,這對於日常生活中的智能應用很有幫助。但是,這仍然是一項艱鉅的任務,因爲音頻剪輯中的聲音事件可能是多個甚至重疊的。本文介紹了一種基於原始波形和混合訓練策略的端到端音頻分類系統。與已在現有研究中廣泛使用的人工設計功能相比,原始波形包含更完整的信息,並且更適合於多標籤分類。以原始波形爲輸入,我們的網絡由ResNet結構的兩個變體組成,可以學習判別式表示。爲了探索中間層中的信息,在我們的模型中應用了具有注意力結構的多級預測。此外,我們設計了一種混合訓練策略,以打破由訓練數據量引起的性能限制。實驗表明,該音頻分類系統在音頻集數據集上的平均精度爲37.2。在不使用額外訓練數據的情況下,我們的系統超出了最新的多層次注意模型。

Empirical Autopsy of Deep Video Captioning Frameworks
Authors Nayyer Aafaq, Naveed Akhtar, Wei Liu, Ajmal Mian
基於當代深度學習的視頻字幕遵循編碼器-解碼器框架。在編碼器中,使用2D 3D卷積神經網絡CNN提取視覺特徵,並將這些特徵的轉換版本傳遞給解碼器。解碼器使用單詞嵌入和語言模型將視覺功能映射到自然語言字幕。由於其複合特性,編碼器解碼器管道爲其每個組件提供了多種選擇的自由度,例如CNN模型,特徵轉換,單詞嵌入和語言模型等的選擇。組件選擇會對整個視頻產生巨大影響字幕性能。但是,當前的文獻對此沒有任何系統的研究。本文通過對每個主要組件在當代視頻字幕製作流程中所起的作用進行了首次全面的實證分析,從而填補了這一空白。我們通過改變視頻字幕框架的組成部分來進行廣泛的實驗,並量化僅通過選擇組件就可以實現的性能提升。我們使用流行的MSVD數據集作爲測試平臺,並證明在不對管道本身進行重大更改的情況下,通過仔細選擇組成組件可以顯着提高性能。這些結果有望爲視頻字幕快速發展的方向提供指導,爲將來的研究提供指導。

Voice-Face Cross-modal Matching and Retrieval: A Benchmark
Authors Chuyuan Xiong, Deyuan Zhang, Tao Liu, Xiaoyong Du
可以從算法上學習人的聲音和麪部之間的交叉模式關聯,這可以使很多應用受益。該問題可以定義爲語音面部匹配和檢索任務。最近,在這些任務上已經引起了很多研究關注。但是,這項研究仍處於早期階段。基於隨機元組挖掘的測試方案往往具有較低的測試置信度。小規模數據集無法評估模型的泛化能力。各種任務的績效指標很少。需要爲此問題建立基準。本文首先提出了一個基於綜合研究的框架,用於語音人臉匹配和檢索。它通過針對不同任務的各種性能指標以及對大型數據集的高測試置信度來實現最先進的性能,可以將其用作後續研究的基準。在此框架中,提出了語音錨定的L2範數約束度量空間,並使用基於CNN的網絡和度量空間中的三重態損失學習了交叉模態嵌入。使用這種策略,嵌入學習過程可以更加有效。還分析了框架的不同網絡結構和模型的跨語言傳輸能力。其次,構建了具有來自中國人的115萬張面部數據和0.29M音頻數據的語音面部數據集,並開發了一種方便且質量可控的數據集收集工具。本文的數據集和源代碼將與本文一起發佈。

LCD: Learned Cross-Domain Descriptors for 2D-3D Matching
Authors Quang Hieu Pham, Mikaela Angelina Uy, Binh Son Hua, Duc Thanh Nguyen, Gemma Roig, Sai Kit Yeung
在這項工作中,我們提出了一種新穎的方法來學習2D圖像和3D點雲匹配的本地跨域描述符。我們提出的方法是一個雙自動編碼器神經網絡,它將2D和3D輸入映射到共享的潛在空間表示中。我們顯示,與從2D和3D域中的單個訓練中獲得的那些相比,共享嵌入中的此類本地跨域描述符更具區分性。爲了促進培訓過程,我們通過從公開可用的RGB D場景中收集了約140萬個2D 3D對應關係,其中包含各種照明條件和設置,從而建立了一個新的數據集。我們的描述符是在3D主要實驗中進行評估的:2D 3D匹配,跨域檢索以及稀疏到密集深度估計。實驗結果證實了我們的方法的魯棒性及其競爭優勢,不僅在解決跨域任務方面,而且在能夠泛化解決唯一的2D和3D任務方面。我們的數據集和代碼在url上公開發布

Simultaneous Implementation Features Extraction and Recognition Using C3D Network for WiFi-based Human Activity Recognition
Authors Liu Yafeng, Chen Tian, Liu Zhongyu, Zhang Lei, Hu Yanjun, Ding Enjie
人們對行爲的認識引起了越來越多的關注。已經開發了許多技術來表達人類行爲的特徵,例如圖像,基於骨骼的信息和信道狀態信息CSI。其中,由於CSI易於安裝且對光線的要求不高,因此在某些特殊場合受到了越來越多的關注。但是,CSI信號與人爲行爲之間的關係非常複雜,必須做一些初步的工作才能使CSI功能易於計算機理解。如今,許多工作已從基於CSI的功能動作分解爲兩個部分。一部分用於特徵提取和降維,另一部分用於時間序列問題。他們中的一些人甚至省略了這兩個部分的工作之一。因此,當前的識別系統的準確性遠遠不能令人滿意。在本文中,我們提出了一種新的基於深度學習的方法,即C3D網絡和具有注意力機制的C3D網絡,用於使用CSI信號進行人體動作識別。這種網絡可以同時從空間卷積和時間卷積中提取特徵,並且通過該網絡可以同時實現上述基於CSI的人類動作識別的兩個部分。整個算法結構得到簡化。實驗結果表明,與某些基準方法相比,我們提出的C3D網絡能夠對所有活動實現最佳識別性能。

Relation Network for Person Re-identification
Authors Hyunjong Park, Bumsub Ham
人員重新識別reID旨在從通常由多個攝像機捕獲的一組圖像中檢索感興趣的人的圖像。最近的reID方法表明,即使在缺少身體部位的情況下,利用描述身體部位的局部特徵以及人像本身的全局特徵也可以提供可靠的特徵表示。但是,不考慮身體部位之間的關係而直接使用各個部位級別的特徵,會使在相應部位具有相似屬性的不同人的區分身份變得混亂。爲了解決這個問題,我們爲人reID提出了一個新的關係網絡,該網絡考慮了各個身體部位與其餘部位之間的關係。我們的模型使單個零件級別特徵也合併了其他身體部位的部分信息,從而使其更具區分性。我們還介紹了一種全局對比池GCP方法,以獲得人像的全局特徵。我們建議對GCP使用對比功能,以補充常規的最大和平均合併技術。我們證明了我們的模型在Market1501,DukeMTMC reID和CUHK03數據集上的表現優於最新技術,證明了我們的方法在區分人物表示上的有效性。

Image Aesthetics Assessment using Multi Channel Convolutional Neural Networks
Authors Nishi Doshi, Gitam Shikhenawis, Suman K Mitra
圖像美學評估是研究的新興領域之一。域根據圖像對用戶觀看的愉悅度的基礎將圖像分類爲類別。在本文中,重點是將圖像分爲高質量圖像和低質量圖像。深度卷積神經網絡用於對圖像進行分類。代替僅使用原始圖像作爲輸入,還使用圖像的不同作物和顯着性圖作爲所提出的多通道CNN體系結構的輸入。在廣泛使用的AVA數據庫上報告的實驗表明,與現有方法相比,美學評估性能有所提高。

Furnishing Your Room by What You See: An End-to-End Furniture Set Retrieval Framework with Rich Annotated Benchmark Dataset
Authors Bingyuan Liu, Jiantao Zhang, Xiaoting Zhang, Wei Zhang, Chuanhui Yu, Yuan Zhou
瞭解室內場景已引起計算機視覺界的極大興趣。但是,很少有作品專注於對場景中傢俱的理解,並且也缺乏大規模的數據集來推動這一領域的發展。在本文中,我們首先通過呈現DeepFurniture來填補空白,DeepFurniture是一個註釋豐富的大型室內場景數據集,包括24k室內圖像,170k傢俱實例和20k唯一傢俱標識。在數據集上,我們引入了一個新的基準,即傢俱集檢索。給定室內照片作爲輸入,該任務需要檢測所有傢俱實例並搜索匹配的一組傢俱標識。爲了解決這一艱鉅的任務,我們提出了一個基於功能和上下文嵌入的框架。它包含3個主要貢獻:1引入了帶有附加基於蒙版的分類器的改進蒙版RCNN模型,以更好地利用蒙版信息來緩解傢俱檢測環境中的遮擋問題。 2提出了一種多任務樣式的暹羅網絡來訓練特徵嵌入模型以進行檢索,該模型由一個由自聚類僞屬性監督的分類子網和一個用於估計輸入對是否匹配的驗證子網組成。 3爲了在室內設計中建模傢俱實體之間的關係,採用上下文嵌入模型對檢索結果進行重新排序。廣泛的實驗證明了每個模塊和整個系統的有效性。

xBD: A Dataset for Assessing Building Damage from Satellite Imagery
Authors Ritwik Gupta, Richard Hosfelt, Sandra Sajeev, Nirav Patel, Bryce Goodman, Jigar Doshi, Eric Heim, Howie Choset, Matthew Gaston
我們將介紹xBD,這是一個新的大規模數據集,可用於人道主義援助和災難恢復研究的變更檢測和建築物損壞評估的發展。自然災害響應需要對受災地區受損建築物的準確瞭解。當前的應對策略要求在災難發生後24 48小時內親自評估損失。利用航空影像結合計算機視覺算法來評估損害並減少對人類生命的潛在危險存在巨大的潛力。與多個災難響應機構合作,xBD通過建築物多邊形,損壞級別的序號標籤以及相應的衛星元數據,提供了各種災難事件之前和之後的衛星圖像。此外,數據集還包含邊界框和針對諸如火,水和煙等環境因素的標籤。 xBD是迄今爲止最大的建築物損壞評估數據集,包含45,362公里的圖像上標2上的850,736個建築物註釋。

Controversial stimuli: pitting neural networks against each other as models of human recognition
Authors Tal Golan, Prashant C. Raju, Nikolaus Kriegeskorte
不同的科學理論可以做出類似的預測。要在理論之間進行判斷,我們必須設計理論可以做出不同預測的實驗。在這裏,我們考慮將深度神經網絡作爲人類視覺識別模型進行比較的問題。爲了有效地確定哪些模型可以更好地解釋人類的反應,我們合成了有爭議的刺激圖像,其中不同的模型會產生不同的反應。我們測試了九種不同的模型,這些模型採用了不同的體系結構和識別算法,包括判別模型和生成模型,所有模型都經過訓練可以識別MNIST數字圖像集中的手寫數字。我們合成了有爭議的刺激,以最大程度地提高模型之間的分歧。人類受試者觀察了數百個此類刺激,並判斷了每個圖像中每個手指出現的可能性。我們量化了每個模型預測人類判斷的準確性。我們發現,學習每一類圖像的分佈的生成模型比學會直接從圖像映射到標籤的鑑別模型更好地預測了人爲判斷。表現最佳的模型是基於變分自動編碼器的綜合分析生成模型。但是,基於高斯核密度估計的更簡單的生成模型的性能也優於每個判別模型。沒有一個候選模型可以完全解釋人類的反應。我們討論有爭議的刺激作爲實驗範式的優點和侷限性,以及它們如何在對抗性示例上進行概括和改進,以探討模型與人類感知之間的差異。

Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis
Authors Ceyuan Yang, Yujun Shen, Bolei Zhou
儘管生成對抗網絡GAN在圖像合成方面取得了成功,但對於在深層生成表示中學習到的網絡以及如何由隨機噪聲構成照片逼真的圖像,仍然缺乏足夠的瞭解。在這項工作中,我們表明,高度結構化的語義層次結構作爲變異因子出現,用於從最先進的GAN模型(如StyleGAN和BigGAN)的生成表示中合成場景。通過在不同的抽象級別上使用廣泛的語義來探查分層表示,我們能夠量化激活和輸出圖像中出現的語義之間的因果關係。這樣的量化可以識別出GAN所學習到的人類可以理解的變異因素,以構成場景。定性和定量結果表明,由GAN使用分層智能代碼學習的生成表示專門用於合成不同的層次語義,早期的層傾向於確定空間佈局和配置,中間的層控制分類對象,後面的層最後渲染場景屬性以及配色方案。識別出這樣一組可操縱的潛在變化因子有助於語義場景的操縱。

EnAET: Self-Trained Ensemble AutoEncoding Transformations for Semi-Supervised Learning
Authors Xiao Wang, Daisuke Kihara, Jiebo Luo, Guo Jun Qi
深度神經網絡已成功應用於許多實際應用中。但是,這些成功很大程度上依賴於大量標記數據,而這些數據的獲取成本很高。最近,已經提出了自動編碼轉換AET和MixMatch並分別實現了無監督和半監督學習的最新技術成果。在本研究中,我們訓練自動編碼轉換EnAET的集合,以通過對空間和非空間轉換進行解碼,基於嵌入表示從標記和未標記的數據中學習。這將EnAET與傳統的半監督方法區分開來,後者側重於通過未標記和已標記示例的不同模型來提高預測一致性和置信度。相比之下,我們建議探討在一系列豐富的變革下,自我監督表徵在半監督學習中的作用。在CIFAR 10,CIFAR 100,SVHN和STL10上的實驗結果表明,所提出的EnAET在很大程度上優於現有的半監督方法。特別是,我們將提出的方法應用於極具挑戰性的場景,每類僅包含10張圖像,並表明EnAET在CIFAR 10上的錯誤率可以達到9.35,在SVHN上的錯誤率可以達到16.92。此外,與使用具有相同網絡體系結構的所有標記數據的完全監督學習相比,EnAET可獲得最佳結果。具有較小網絡的CIFAR 10,CIFAR 100和SVHN的性能甚至比基於較大網絡的監督學習方法的技術水平更具競爭力。我們還設置了一個新的性能記錄,在CIFAR 10上的錯誤率爲1.99,在STL10上的錯誤率爲4.52。代碼和實驗記錄在以下位置發佈

Consensus-based Optimization for 3D Human Pose Estimation in Camera Coordinates
Authors Diogo C Luvizon, Hedi Tabia, David Picard
3D人體姿勢估計通常被視爲相對於根部關節估計3D姿勢的任務。或者,在本文中,我們提出了一種在相機座標系中的3D人體姿勢估計方法,該方法允許2D帶註釋的數據和3D姿勢的有效組合,以及直接的多視圖綜合。爲此,我們將問題投射到了不同的角度,即在圖像平面中以像素爲單位預測3D姿勢,並以毫米爲單位估算絕對深度。基於此,我們提出了一種基於共識的優化算法,用於未經校準的圖像的多視圖預測,該算法需要單個單眼訓練程序。我們的方法改進了衆所周知的3D人體姿勢數據集的最新技術,在最常見的基準測試中將預測誤差降低了32。此外,我們還報告了絕對姿勢位置誤差的結果,單眼估計的平均誤差爲80mm,多視角的平均誤差爲51mm。

Multi-Label Classification with Label Graph Superimposing
Authors Ya Wang, Dongliang He, Fu Li, Xiang Long, Zhichao Zhou, Jinwen Ma, Shilei Wen
圖片或視頻始終包含多個對象或動作。由於深度學習技術的迅速發展,已經證明了多標籤識別可以實現相當不錯的性能。最近,利用圖卷積網絡GCN來提高多標籤識別的性能。然而,標籤相關建模的最佳方法是什麼,以及如何藉助標籤系統意識來改善特徵學習仍不清楚。在本文中,我們從以下兩個方面提出一種標籤圖疊加框架,以改進爲多標籤識別而開發的常規GCN CNN框架。首先,通過將基於統計共現信息構建的標籤圖疊加到根據標籤知識先驗而構建的圖中,對標籤相關性進行建模,然後將多層圖卷積應用於最終的疊加圖上以進行標籤嵌入抽象。其次,我們建議利用整個標籤系統的嵌入來更好地學習表示。詳細地,在淺層,中間層和深層添加GCN和CNN之間的橫向連接,以將標籤系統的信息注入到主幹CNN中,以在特徵學習過程中識別標籤。在MS COCO和Charades數據集上進行了廣泛的實驗,表明我們提出的解決方案可以大大提高識別性能,並獲得最新的識別性能。

Unsupervised Object Segmentation with Explicit Localization Module
Authors Weitang Liu, Lifeng Wei, James Sharpnack, John D. Owens
在本文中,我們提出了一種新穎的體系結構,該體系結構基於圖像重建質量來迭代發現和分割場景的對象。與其他方法不同,我們的模型使用一個顯式的定位模塊,該模塊基於每次迭代的像素級重建質量對場景的對象進行定位,其中較簡單的對象往往在較早的迭代中會得到更好的重建,因此首先被分割出來。我們證明,我們的本地化模塊可以提高細分質量,尤其是在具有挑戰性的背景下。

FLNet: Landmark Driven Fetching and Learning Network for Faithful Talking Facial Animation Synthesis
Authors Kuangxiao Gu, Yuqian Zhou, Thomas Huang
會說話的人臉合成已在基於外觀或基於扭曲的方法中得到廣泛研究。以前的作品大多利用單張臉圖像作爲來源,並通過融合他人的面部特徵來生成新穎的面部動畫。但是,可能無法真實,穩定地合成可能隱藏在源圖像中的某些眼睛或牙齒等面部區域。在本文中,我們提出了一種具有里程碑意義的兩流網絡,以生成忠實的面部表情動畫,其中從多個源圖像(而不是單個圖像)創建,保存和傳輸更多面部細節。具體來說,我們提出了一個由學習和獲取流組成的網絡。提取子網直接學習從五個具有明顯標誌性意義的源圖像集中地扭曲和融合面部區域,而學習管道則從訓練面部空間渲染面部器官以進行補償。與基線算法相比,大量實驗表明,該方法在定量和定性方面均具有較高的性能。代碼在

REVAMP$^2$T: Real-time Edge Video Analytics for Multi-camera Privacy-aware Pedestrian Tracking
Authors Christopher Neff, Mat as Mendieta, Shrey Mohan, Mohammadreza Baharani, Samuel Rogers, Hamed Tabkhi
本文介紹了REVAMP 2 T,用於多攝像機隱私感知的行人跟蹤的實時邊緣視頻分析,它是基於分散式情境感知構建的用於隱私保護的端到端集成IoT系統。 REVAMP 2 T提出了新穎的算法和系統構造,以將深度學習和視頻分析推向物聯網設備(即攝像機)之後。在算法方面,REVAMP 2 T提出了一個統一的集成計算機視覺管道,用於跨多個攝像機的檢測,重新識別和跟蹤,而無需存儲流數據。同時,它避免了面部識別,並在運行時基於行人的關鍵特徵來跟蹤和重新識別行人。在物聯網系統方面,REVAMP 2 T提供了基礎架構,以最大限度地利用邊緣硬件,協調全球通信,併爲分佈式物聯網網絡提供系統範圍的重新識別,而無需使用個人身份信息。對於結果和評估,本文還提出了一個新指標Accuracy cdot Efficiency,用於基於準確性,性能和功率效率對物聯網系統進行實時視頻分析的整體評估。 REVAMP 2 T比現有技術高出13倍之多。

Object-Guided Instance Segmentation for Biological Images
Authors Jingru Yi, Hui Tang, Pengxiang Wu, Bo Liu, Daniel J. Hoeppner, Dimitris N. Metaxas, Lianyi Han, Wei Fan
生物圖像的實例分割對於研究對象的行爲和屬性至關重要。對象的聚類,遮擋和粘附問題等挑戰使實例分割成爲一項不平凡的任務。當前的無盒實例分割方法通常依賴於本地像素級別信息。由於缺乏全局對象視圖,因此這些方法容易出現過度分割或分割不足的情況。相反,基於盒子的實例分割方法將對象檢測合併到分割中,從而在識別各個實例中表現更好。在本文中,我們提出了一種新的基於盒子的實例分割方法。主要地,我們從它們的中心點定位對象邊界框。隨後,在分割分支中重用對象功能,作爲在RoI修補程序中分離羣集實例的指南。通過實例歸一化,該模型能夠恢復目標對象的分佈並抑制相鄰附加對象的分佈。因此,在保留目標對象詳細信息的同時,所提出的模型在分割聚類對象方面表現出色。所提出的方法在三個生物數據集的細胞核,植物表型數據集和神經細胞上達到了最先進的性能。

Localized Compression: Applying Convolutional Neural Networks to Compressed Images
Authors Christopher A. George, Bradley M. West
我們解決了將現有卷積神經網絡CNN架構應用於壓縮圖像的挑戰。現有的CNN架構將圖像表示爲具有指定尺寸的像素強度矩陣,該所需尺寸通過降級或裁剪來實現。降級和裁剪很吸引人,因爲結果也是圖像,但是,產生替代壓縮表示的算法可以產生更好的分類性能。此壓縮算法不必是可逆的,但必須與CNN的操作兼容。因此,此問題與將壓縮的CNN應用於未壓縮的圖像的深入研究的問題相對應,當CNN部署到尺寸,重量和功率受限的SWaP設備時,這一問題引起了極大的興趣。我們引入了局部壓縮,即降級的一般化,其中將原始圖像分爲多個塊,然後使用基於採樣或基於隨機矩陣的技術將每個塊壓縮爲較小的大小。通過將壓縮塊的大小與CNN卷積區域的大小對齊,可以使局部壓縮與任何CNN體系結構兼容。我們的實驗結果表明,局部壓縮比通過降級到等效分辨率所實現的分類精度高約1 2。

Active Learning for Deep Detection Neural Networks
Authors Hamed H. Aghdam, Abel Gonzalez Garcia, Joost van de Weijer, Antonio M. L pez
繪製對象邊界框(即標記數百萬個圖像)的成本過高。例如,以常規的城市圖像標記行人平均可能需要35秒。主動學習旨在通過僅選擇能提高檢測網絡準確性的信息圖像來降低標記成本。在本文中,我們提出了一種基於卷積神經網絡進行目標檢測器主動學習的方法。我們提出了一種新的圖像級別評分流程,可以對未標記圖像進行自動選擇排名,這明顯優於傳統分數。所提出的方法可以應用於視頻和靜止圖像集。在前一種情況下,時間選擇規則可以補充我們的評分過程。作爲一個相關的用例,我們廣泛研究了我們的方法在行人檢測任務中的性能。總體而言,實驗表明,所提出的方法比隨機選擇方法具有更好的性能。我們的代碼可在以下位置公開獲得

ID-aware Quality for Set-based Person Re-identification
Authors Xinshao Wang, Elyor Kodirov, Yang Hua, Neil M. Robertson
基於集合的人員身份識別SReID是一個匹配問題,旨在驗證兩個集合是否具有相同的身份ID。現有的SReID模型通常會爲每個圖像生成一個特徵表示,並將它們聚合起來以將其表示爲單個嵌入。但是,由於不完善的跟蹤檢測系統或過分適合瑣碎的圖像,不可避免地會受到噪聲,語義上低質量的圖像的干擾。在這項工作中,我們提出了一個基於ID感知質量的新穎而簡單的解決方案,該質量可測量由其ID信息指導的圖像的感知和語義質量。具體來說,我們提出了一種ID感知嵌入,該嵌入由兩個關鍵組件組成1特徵學習注意,旨在通過專注於中等硬圖像來學習魯棒的圖像嵌入。這樣可以防止過度擬合到瑣碎的圖像,並減輕離羣值的影響。 2特徵融合的重點是融合圖像嵌入在集合中以獲得集合級嵌入。它忽略了嘈雜的信息,並更加註意區分圖像以聚集更多區分信息。在四個數據集上的實驗結果表明,儘管我們的方法簡單,但其性能卻優於最新方法。

SINet: Extreme Lightweight Portrait Segmentation Networks with Spatial Squeeze Modules and Information Blocking Decoder
Authors Hyojin Park, Lars Lowe Sj sund, Nicolas Monet, YoungJoon Yoo, Nojun Kwak
設計輕巧且健壯的人像分割算法是各種面部應用程序的重要任務。但是,該問題已被視爲對象分割問題的子集,並且在語義分割字段中處理較少。顯然,人像分割有其獨特的要求。首先,由於人像分割是在許多現實應用程序的整個過程中進行的,因此需要極其輕巧的模型。其次,此域中沒有任何公共數據集包含足夠數量的具有無偏統計的圖像。爲了解決第一個問題,我們引入了新的極其輕量級的肖像分割模型SINet,其中包含一個信息阻止解碼器和空間壓縮模塊。信息阻塞解碼器使用置信度估計來恢復局部空間信息,而不會破壞全局一致性。空間壓縮模塊使用多個接收場來處理圖像中各種大小的一致性。爲了解決第二個問題,我們提出了一種簡單的方法來創建其他人像分割數據,從而可以提高EG1800數據集的準確性。在對EG1800數據集的定性和定量分析中,我們證明了我們的方法優於各種現有的輕量級細分模型。我們的方法將參數數量從2.1M減少到86.9K,減少了95.9,同時保持了與現有肖像分割方法相比1的精度。我們還顯示了我們的模型已在具有100.6 FPS的真實移動設備上成功執行。此外,我們證明了我們的方法可用於Cityscape數據集上的常規語義分割。該代碼可在https github.com上找到。HYOJINPARK ExtPortraitSeg

Superpixel Soup: Monocular Dense 3D Reconstruction of a Complex Dynamic Scene
Authors Suryansh Kumar, Yuchao Dai, Hongdong Li
這項工作解決了根據圖像對複雜動態場景進行密集3D重建的任務。解決此任務的主要思想是由一系列步驟組成,並且取決於執行過程中多個管道的成功。爲了克服現有算法的這種侷限性,我們提出了一種統一的方法來解決這個問題。我們假設動態場景可以由許多分段的平面近似,其中每個平面都具有其自身的剛性運動,並且兩個幀之間的場景全局變化儘可能地嚴格於ARAP。因此,我們的動態場景模型簡化爲平面結構和這些局部平面結構的剛性運動。使用場景的平面過度分割,我們將此任務簡化爲解決3D拼圖難題。因此,該任務歸結爲正確組裝每個剛性零件,以構造一個3D形狀,該形狀符合在ARAP假設下的場景幾何形狀。此外,我們表明,我們的方法爲透視投影下的運動提供了一種有效的解決方案,以解決結構固有的尺度模糊性。我們提供了一些基準數據集的廣泛實驗結果和評估。與競爭方法的定量比較顯示了最先進的性能。

Third-Person Visual Imitation Learning via Decoupled Hierarchical Controller
Authors Pratyusha Sharma, Deepak Pathak, Abhinav Gupta
我們研究了一種通用的設置,用於從演示中學習,以構建一個代理,該代理可以通過僅從第三人稱視角觀看人類演示的單個視頻來在看不見的場景中操縱新對象。爲了實現此目標,我們的代理商不僅應學會了解所展示的第三方視頻在上下文中的意圖,而且應在其環境配置中執行預期的任務。我們的中心見解是在學習過程中通過將實現目標的任務與如何執行控制器分離開來,明確地實施這種結構。我們提出了一種分層設置,其中高級模塊學習以第三人稱視頻演示爲條件的一系列第一人稱子目標,而低級控制器則預測實現這些子目標的動作。我們的代理根據原始圖像觀察結果進行操作,而無需訪問完整的狀態信息。我們在使用Baxter的真實機器人平臺上顯示結果,以完成將物體倒入盒子中的操作任務。項目視頻和代碼在

Single Image Super Resolution based on a Modified U-net with Mixed Gradient Loss
Authors Zhengyang Lu, Ying Chen
單圖像超分辨率SISR是從單個低分辨率圖像推斷出高分辨率圖像的任務。由於計算機視覺領域中深度卷積神經網絡的發展,超分辨率的最新研究取得了長足的進步。現有的超分辨率重建方法在均方誤差MSE準則中具有較高的性能,但是大多數方法都無法重建具有形狀邊緣的圖像。爲了解決這個問題,提出了由MSE和加權平均梯度誤差組成的混合梯度誤差,並將其作爲損失函數應用於改進的U網。修改後的U net刪除每個塊中的所有批處理歸一化層和卷積層之一。該操作減少了參數數量,因此加快了重建速度。與現有的圖像超分辨率算法相比,該重建方法具有更好的性能和時間消耗。實驗表明,具有混合梯度損耗的改進型U網網絡體系結構在三個圖像數據集SET14,BSD300和ICDAR2003上產生了高水平的結果。代碼可在線獲得。

Segmenting Medical MRI via Recurrent Decoding Cell
Authors Ying Wen, Kai Xie, Lianghua He
編碼器解碼器網絡由於其在層次特徵融合中的出色表現而常用於醫學圖像分割。然而,用於特徵解碼和空間恢復的擴展路徑在融合來自不同層的特徵圖時並未考慮長期依賴性,並且通用編碼器解碼器網絡未充分利用多模態信息來提高網絡魯棒性,尤其是對於分段而言醫學MRI。在本文中,我們提出了一種新穎的特徵融合單元,稱爲遞歸解碼單元RDC,該單元利用卷積RNN來存儲解碼階段中來自先前各層的長期上下文信息。還提出了一種基於RDC的編碼器解碼器網絡,稱爲卷積循環解碼網絡CRDN,用於分割多模態醫學MRI。 CRDN採用CNN骨幹對圖像特徵進行編碼,並通過一系列RDC對其進行分層解碼,以獲得最終的高分辨率得分圖。在BrainWeb,MRBrainS和HVSMR數據集上進行的評估實驗表明,引入RDC可以有效提高分割精度並減小模型大小,並且所提出的CRDN具有醫學MRI中對圖像噪聲和強度不均勻性的魯棒性。

Heart Segmentation From MRI Scans Using Convolutional Neural Network
Authors Shakeel Muhammad Ibrahim, Muhammad Sohail Ibrahim, Muhammad Usman, Imran Naseem, Muhammad Moinuddin
心臟是人體的重要器官之一。即使在很短的時間間隔內,心臟的輕微功能障礙也可能致命,因此,有效監測其生理狀態對於患有心血管疾病的患者至關重要。在最近的過去,已經提出了各種計算機輔助醫學成像系統來分割感興趣的器官。但是,對於使用MRI進行心臟分割,僅提出了幾種方法各有各的優點和缺點。爲了在這一研究領域的進一步發展,我們分析了磁共振圖像的自動心臟分割方法。該分析基於深度學習方法,該方法以逐片的方式處理完整的MR掃描,以預測心臟區域所需的掩模。我們設計了兩個編碼器-解碼器類型的全卷積神經網絡模型

Data Proxy Generation for Fast and Efficient Neural Architecture Search
Authors Minje Park
由於神經結構搜索NAS的最新進展,它在爲特定任務設計最佳網絡方面廣受歡迎。儘管在許多基準測試和競賽中都顯示出令人鼓舞的結果,但NAS在搜索高維體系結構設計空間時仍然受到苛刻的計算成本的困擾,而當我們要使用大規模數據集時,這個問題變得更加嚴重。如果我們能夠爲NAS提供可靠的數據代理,那麼NAS方法的效率就會相應提高。我們製作數據代理的基本觀察結果是,特定數據集中的每個示例對NAS流程都有不同的影響,並且從相對準確度排名的角度來看,大多數示例都是多餘的,我們在製作數據代理時應保留這些示例。我們提出了一種系統的方法,從這種相對準確度排名的角度衡量每個示例的重要性,並根據訓練和測試示例的統計數據製作可靠的數據代理。我們的實驗表明,即使使用10到20倍的數據代理,我們仍可以保持所有可能的網絡配置之間幾乎相同的相對準確度排名。

Large-scale Multi-view Subspace Clustering in Linear Time
Authors Zhao Kang, Wangtao Zhou, Zhitong Zhao, Junming Shao, Meng Han, Zenglin Xu
在過去的幾年中已經提出了許多多視圖子空間聚類MVSC方法。研究人員設法從不同的角度提高聚類的準確性。然而,許多現有技術的MVSC算法通常具有二次或什至三次複雜度,效率低下並且固有地難以大規模應用。在大數據時代,計算問題變得至關重要。爲了填補這一空白,我們提出了一種具有線性階複雜度的大規模MVSC LMVSC算法。受到錨定圖概念的啓發,我們首先爲每個視圖學習一個較小的圖。然後,設計一種新穎的方法來集成這些圖,以便我們可以在較小的圖上實現光譜聚類。有趣的是,事實證明我們的模型也適用於單視圖場景。在各種大型基準數據集上進行的大量實驗證明了我們的方法相對於最新的聚類方法的有效性和效率。

Band-limited Training and Inference for Convolutional Neural Networks
Authors Adam Dziedzic, John Paparrizos, Sanjay Krishnan, Aaron Elmore, Michael Franklin
卷積層是神經網絡架構的核心構建塊。通常,卷積濾波器適用於輸入數據的整個頻譜。我們在訓練過程中人爲地限制了這些濾波器和數據的頻譜,稱爲頻帶限制。頻域約束適用於前饋和反向傳播步驟。在實驗上,我們觀察到卷積神經網絡的CNN對此壓縮方案具有彈性,結果表明CNN學會了利用低頻分量。特別是,我們發現1個有限頻帶訓練可以有效地控制資源使用GPU和內存2個有限頻帶訓練的模型保留了較高的預測精度,而3個不需要修改現有的訓練算法或神經網絡體系結構即可使用,這與其他壓縮方案不同。

NaMemo: Enhancing Lecturers' Interpersonal Competence of Remembering Students' Names
Authors Guang Jiang, Mengzhen Shi, Ying Su, Pengcheng An, Yunlong Wang
用學生的名字稱呼學生可以幫助老師與學生建立融洽的關係,從而促進他們的課堂參與。但是,這種基本而有效的技能對於大學講師而言尤其是亞洲大學中的講師具有挑戰性,他們在日常教學中不得不處理有時超過100組的大型活動。爲了增強講師與人之間互動的能力,我們開發了NaMemo,這是一種基於專用計算機視覺算法的實時名稱指示系統。本文介紹了其設計和可行性研究,結果表明參與教師和學生的接受程度似乎合理。我們還向學生揭示了對濫用或濫用該系統(例如檢查出勤率)的擔憂。總之,我們討論了設計中的機遇和風險,並詳細說明了後續計劃,深入實施,以進一步評估NaMemo對學與教的影響,並探討包括隱私注意事項在內的設計含義。

DeepLABNet: End-to-end Learning of Deep Radial Basis Networks with Fully Learnable Basis Functions
Authors Andrew Hryniowski, Alexander Wong
從完全連接的神經網絡到卷積神經網絡,神經網絡內的學習參數已主要降級爲線性參數,例如卷積濾波器。非線性函數(例如激活函數)在很大程度上得以保留,近年來幾乎沒有例外,參數較少,整個訓練過程都是靜態的,並且設計變化有限。徑向基函數RBF網絡被深度學習社區廣泛忽略,除了網絡中的線性參數之外,它還提供了一種有趣的機制來學習更復雜的非線性激活函數。但是,由於難以將RBF以易於處理且穩定的方式集成到更復雜的深度神經網絡架構中,因此對RBF網絡的興趣隨着時間的流逝而減弱。在這項工作中,我們提出了一種新穎的方法,該方法能夠以自動且易於處理的方式,通過具有完全可學習的激活基礎功能的端到端學習深度RBF網絡。我們證明了在深度神經網絡中啓用可學習的激活基礎函數的方法(我們將其稱爲DeepLABNet)是在複雜網絡體系結構中自動激活函數學習的有效工具。

Semantic Segmentation of Thigh Muscle using 2.5D Deep Learning Network Trained with Limited Datasets
Authors Hasnine Haque, Masahiro Hashimoto, Nozomu Uetake, Masahiro Jinzaki
目的我們提出了一個2.5D深度學習神經網絡DLNN,以將大腿肌肉自動分類爲11類,並在使用有限的數據集訓練時評估其在2D和3D DLNN上的分類準確性。可以根據疾病進展對大腿肌肉體積變化進行操作員不變的定量評估。資料和方法回顧性數據集由從CT DICOM圖像中裁剪出來的48個大腿電視組成。將裁剪後的體積與股骨軸對齊,並以2毫米體素間距重新採樣。提議的2.5D DLNN由三個分別用軸向,冠狀和矢狀肌切片訓練的2D U網組成。表決算法用於組合U Nets的輸出以創建最終分段。 2.5D U Net在裝有38臺電視的PC上進行了培訓,其餘10臺電視用於評估大腿內10個類別的分割精度。左大腿和右大腿的結果分割均被裁剪爲原始CT體積空間。最後,比較了建議的DLNN和2D 3D U Net的分割精度。結果所有類別的平均分割DSC分數準確性爲2.5D U Net爲91.18,平均表面距離ASD準確性爲0.84 mm。我們發現,在使用相同數據集訓練時,2D U Net的平均DSC分數比2.5D U Net的平均分數低3.3,而3D U Net的DSC分數比2.5D U Net的平均DSC分數低2.5。結論我們以合理的準確度實現了大腿肌肉更快的計算效率和自動分割爲11類的效果。能夠隨着疾病的進展定量評估肌肉萎縮。

DR-KFD: A Differentiable Visual Metric for 3D Shape Reconstruction
Authors Jiongchao Jin, Akshay Gadi Patil, Hao Richard Zhang
我們提倡使用差異視覺形狀指標來訓練用於3D重建的深度神經網絡。我們引入了一種度量標準,該度量標準通過測量可從形狀分別渲染的多視圖圖像之間的視覺圖像空間差異來比較兩個3D形狀。此外,我們根據根據比較圖像的概率關鍵點圖計算出的Hard Net特徵定義的均方誤差,開發出可微分的圖像空間距離。我們的差分視覺形狀度量可以輕鬆插入各種重建網絡中,從而取代對象空間畸變度量(例如倒角或地球移動距離),從而優化網絡權重以產生具有更好的結構保真度和視覺質量的重建結果。我們使用獨立於我們的新指標的衆所周知的視覺形狀指標進行檢索和分類任務,並通過感知研究在主觀上進行客觀展示。

RIS-GAN: Explore Residual and Illumination with Generative Adversarial Networks for Shadow Removal
Authors Ling Zhang, Chengjiang Long, Xiaolong Zhang, Chunxia Xiao
殘留圖像和照度估計已被證明對圖像增強非常有幫助。在本文中,我們提出了一個通用且新穎的框架RIS GAN,該框架使用創世對抗網絡探索殘差和光照以去除陰影。結合粗略陰影去除圖像,可以使用估計的負殘留圖像和逆照明圖來生成間接陰影去除圖像,以將粗略陰影去除結果以粗略到精細的方式細化爲細無陰影圖像。設計了三個鑑別器,以與相應的地面真實信息相比較,共同區分預測的負殘留圖像,陰影去除圖像和逆照明圖是真實的還是僞造的。據我們所知,我們是第一個探索殘留物和照明以去除陰影的人。我們在兩個基準數據集(即SRD和ISTD)上評估了我們提出的方法,儘管我們的發生器中沒有設計任何特別的陰影感知組件,但廣泛的實驗表明我們提出的方法可實現優於現有技術的性能。

Feature Extraction in Augmented Reality
Authors Jekishan K. Parmar, Ankit Desai
增強現實AR用於與現實世界相關的各種應用程序。本文首先描述了AR的特點和基本服務。簡介部分還提到了有關虛擬現實VR和AR的簡要歷史。然後,描述了AR Technologies及其工作流程,其中包括完整的AR流程,包括圖像採集,特徵提取,特徵匹配,幾何驗證和關聯信息檢索等階段。特徵提取是AR的本質,因此本文提供了其詳細信息。

AssemblyNet: A large ensemble of CNNs for 3D Whole Brain MRI Segmentation
Authors Pierrick Coup , Boris Mansencal, Micha l Cl ment, R mi Giraud, Baudouin Denis de Senneville, Vinh Thong Ta, Vincent Lepetit, Jos V. Manjon
使用深度學習DL進行全腦分割是一項非常具有挑戰性的任務,因爲與可用的訓練圖像相比,解剖標記的數量非常多。爲了解決這個問題,以前的DL方法提出使用單個卷積神經網絡CNN或幾個獨立的CNN。在本文中,我們提出了一種基於大量CNN處理不同重疊大腦區域的新穎合奏方法。受議會決策系統的啓發,我們提出了一個名爲AssemblyNet的框架,該框架由兩個U Nets程序集組成。這樣的議會制度能夠處理複雜的決定,看不見的問題並迅速達成共識。 AssemblyNet引入了相鄰U網之間的知識共享,由第二個大會以更高的分辨率修改了程序,以完善第一個大會的決定,並通過多數表決獲得了最終決定。在我們的驗證過程中,AssemblyNet與諸如U Net,Joint標籤融合和SLANT之類的最新方法相比,具有競爭優勢。此外,我們研究了掃描重新掃描的一致性以及該方法對疾病影響的魯棒性。這些經驗證明了AssemblyNet的可靠性。最後,我們展示了使用半監督學習來改善我們方法的性能的興趣。

Data Augmentation Revisited: Rethinking the Distribution Gap between Clean and Augmented Data
Authors Zhuoxun He, Lingxi Xie, Xin Chen, Ya Zhang, Yanfeng Wang, Qi Tian
數據增強已被廣泛用作改善泛化的有效方法,尤其是在訓練深度神經網絡時。最近,研究人員提出了一些密集的數據增強技術,這些技術確實提高了準確性,但是我們注意到,這些方法增強數據還導致乾淨數據和增強數據之間存在相當大的差距。在本文中,我們從分析的角度重新審視了這個問題,爲此,我們分別使用經驗風險和廣義誤差這兩個術語來估計預期風險的上限。我們對作爲規則化的數據增強有了一定的瞭解,這突出了主要功能。結果,數據擴充顯着降低了泛化誤差,但同時導致了更高的經驗風險。假設數據增強可以幫助模型收斂到一個更好的區域,則該模型可以受益於通過簡單方法(即,使用較少的增強數據來精煉在完全增強的數據上訓練的模型)實現的較低的經驗風險。我們的方法在一些標準的圖像分類基準上獲得了一致的精度增益,並且該增益轉移到了對象檢測上。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


在這裏插入圖片描述
pic from pexels.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章