【AI視野·今日CV 計算機視覺論文速覽 第161期】Thu, 26 Sep 2019

AI視野·今日CS.CV 計算機視覺論文速覽
Thu, 26 Sep 2019
Totally 37 papers
👉上期速覽更多精彩請移步主頁

在這裏插入圖片描述

Interesting:

📚高效地殘差稠密搜索用於圖像超分辨, (from 華爲諾亞 悉尼大學)

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

📚***爲深度學習合成數據, (from Steklov Institute of Mathematics Synthesis.ai )
在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述
TODO(RJJ):基於這個寫一個合成數據集的總結帖子

📚單圖像單元實現視覺感知任務, (from 北理工)
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述


📚X射線安檢, (from Durham University)
dataset:GDXray SIXray

📚DeepFakes的構建和檢測方法, (from Deakin University, Victoria, Australia )



Daily Computer Vision Papers

Deep Predictive Motion Tracking in Magnetic Resonance Imaging: Application to Fetal Imaging
Authors Ayush Singh, Seyed Sadegh Mohseni Salehi, Ali Gholipour
胎兒磁共振成像MRI受到無法控制的,大的和不規則的胎兒運動的挑戰。胎兒MRI以完全互動的方式執行,其中技術人員監視運動以相對於感興趣的解剖結構以直角指定切片。當前的實踐涉及重複獲取以確保獲取診斷質量的圖像,並逐層地回顧性地記錄掃描以重建3D圖像。但是,基於顯示的2D切片進行手動3D胎兒監視以及在切片(而不是切片)堆棧級別進行導航是次佳且效率低下的。當前的過程高度依賴於操作員,需要進行廣泛的培訓,並且顯着增加了胎兒MRI掃描的時間,這使孕婦難以進行掃描,而且費用昂貴。出於這一動機,我們提出了一種使用深度學習的MRI中基於實時圖像的新運動跟蹤技術,該技術可以顯着改善現有技術。通過將空間和時間編碼器解碼器網絡相結合,我們的系統將學習如何基於直接從獲取的切片序列中推斷出的運動動態來預測胎兒頭部的3D姿勢。與最近的從片段中估計對象的靜態3D姿勢的作品相比,我們的方法學會了預測3D運動的動態。我們在保留的測試集中比較了我們訓練有素的網絡,其中包括具有不同特徵的數據,例如不同的年齡範圍,並使用旨在估計的網絡以及採用的預測方法從志願者受試者記錄的運動軌跡。所有估計和預測任務的結果表明,我們在胎兒MRI中實現了可靠的運動跟蹤。可以使用基於深度學習的快速解剖結構檢測,分割和圖像配準技術來增強此技術,以構建實時運動跟蹤和導航系統。

A closer look at domain shift for deep learning in histopathology
Authors Karin Stacke, Gabriel Eilertsen, Jonas Unger, Claes Lundstr m
域移位是組織病理學中的重要問題。在醫療中心和掃描儀之間,整個幻燈片圖像的數據特性可能會有很大差異,這使得很難將深度學習推廣到看不見的數據。爲了更好地理解該問題,我們提出了一項針對卷積神經網絡的研究,該卷積神經網絡針對H E染色的整個幻燈片圖像的腫瘤分類進行了訓練。我們分析了增強和規範化策略如何影響性能和學習的表示形式,以及經過訓練的模型對功能的響應。最重要的是,我們提出了一種新方法,用於在學習到的特定模型表示的背景下評估域之間的距離。該度量可以揭示模型對域變化的敏感程度,並且可以用於檢測模型將普遍存在問題的新數據。結果表明,訓練數據的準備如何對學習產生重大影響,並且用於分類的潛在表示對數據分佈的變化非常敏感,尤其是在沒有擴充或歸一化訓練的情況下。

MIC: Mining Interclass Characteristics for Improved Metric Learning
Authors Karsten Roth, Biagio Brattoli, Bj rn Ommer
度量學習試圖嵌入對象的圖像,以使嵌入空間捕獲類定義的關係。但是,圖像的可變性不僅是由於所描繪的對象類別不同,而且還取決於其他潛在特徵,例如視點或照明。除了這些結構化特性之外,隨機噪聲還阻礙了所關注的視覺關係。度量學習的常用方法是強制執行在所有因素(感興趣的因素除外)下不變的表示。相反,我們建議顯式學習對象類共享的潛在特徵。然後,我們可以直接解釋結構化的視覺可變性,而不用假定它是未知的隨機噪聲。我們提出了一種新穎的替代任務,以使用單獨的編碼器學習跨類共享的視覺特徵。通過減少編碼器的相互信息,可以與編碼器一起針對類信息進行訓練。在五個標準的圖像檢索基準上,該方法大大改進了現有技術。

Deep Learning for Deepfakes Creation and Detection
Authors Thanh Thi Nguyen, Cuong M. Nguyen, Dung Tien Nguyen, Duc Thanh Nguyen, Saeid Nahavandi
深度學習已成功應用於解決各種複雜問題,從大數據分析到計算機視覺和人的水平控制。然而,深度學習的進步也已被用於創建可以對隱私,民主和國家安全造成威脅的軟件。 Deepfake是最近出現的那些由深度學習驅動的應用程序之一。 Deepfake算法可以創建僞造的圖像和視頻,人類無法將它們與真實圖像區分開。因此,必須提出一種能夠自動檢測和評估數字視覺媒體完整性的技術。本文介紹了用於創建深造假的算法的調查,更重要的是,迄今爲止,文獻中提出了檢測深造假的方法。我們對與Deepfake技術相關的挑戰,研究趨勢和方向進行了廣泛的討論。通過回顧深層仿冒的背景和最新的深層仿冒檢測方法,本研究提供了深層仿冒技術的全面概述,並有助於開發新的,更強大的方法來應對日益嚴峻的深層仿冒。

Dual Adaptive Pyramid Network for Cross-Stain Histopathology Image Segmentation
Authors Xianxu Hou, Jingxin Liu, Bolei Xu, Bozhi Liu, Xin Chen, Mohammad Ilyas, Ian Ellis, Jon Garibaldi, Guoping Qiu
監督語義分割通常假定測試數據與訓練數據位於相似的數據域中。但是,實際上,訓練和看不見的數據之間的域不匹配可能會導致性能顯着下降。爲不同域中的圖像獲得準確的逐像素標籤是繁瑣且費力的,尤其是對於組織病理學圖像。在本文中,我們提出了一種用於組織病理學腺體分割的雙重自適應金字塔網絡DAPNet,它可以從一個染色域轉移到另一個染色域。我們在兩個級別上解決域適應問題:1圖像級別考慮了圖像顏色和樣式的差異; 2特徵級別解決了兩個域之間的空間不一致問題。這兩個組件通過對抗訓練作爲領域分類器實現。我們使用分別具有H E和DAB H染色的兩個腺體分割數據集來評估我們的新方法。廣泛的實驗和消融研究證明了我們的方法對領域自適應分割任務的有效性。我們表明,所提出的方法與其他現有技術方法相比具有良好的性能。

Gated Channel Transformation for Visual Recognition
Authors Zongxin Yang, Linchao Zhu, Yu Wu, Yi Yang
在這項工作中,我們提出了一種適用於深度卷積神經網絡的視覺識別通用轉換單元。該轉換顯式地使用可解釋的控制變量對通道關係進行建模。這些變量確定競爭或合作的神經元行爲,並通過卷積權重對其進行優化,以實現更準確的識別。在Squeeze和Excitation SE網絡中,通道關係是由完全連接的層隱式學習的,並且SE塊在塊級別集成。相反,我們引入了通道歸一化層以減少參數數量和計算複雜度。這個輕量級的層合併了一個簡單的L2歸一化,使我們的轉換單元適用於操作員級別,而無需過多增加其他參數。廣泛的實驗證明了我們裝置的有效性,在許多視覺任務上都有明顯的餘量,即ImageNet上的圖像分類,COCO上的對象檢測和實例分割,Kinetics上的視頻分類。

The Good, the Bad and the Ugly: Evaluating Convolutional Neural Networks for Prohibited Item Detection Using Real and Synthetically Composited X-ray Imagery
Authors Neelanjan Bhowmik, Qian Wang, Yona Falinie A. Gaus, Marcin Szarek, Toby P. Breckon
檢測X射線安全圖像中的違禁物品對於維護邊界和運輸安全以應對各種威脅情況至關重要。卷積神經網絡CNN在大量數據的支持下,在這種自動禁止對象檢測和分類方面取得了進步。但是,整理如此大量的X射線安全圖像仍然是一個巨大的挑戰。這項工作開闢了使用合成圖像的可能性,而無需整理如此大量的帶有手註釋的真實世界圖像。在這裏,我們調查了使用實際和合成X射線訓練圖像對CNN架構檢測雜亂而複雜的X射線安全行李圖像中的三個示例性違禁物品(槍支,槍械零件,刀具)所實現的檢測性能的差異。對於使用真實X射線圖像進行的這3類目標檢測,我們使用Faster R CNN和ResNet 101 CNN架構實現了0.88的平均平均精度mAP。雖然其性能可與0.78 mAP的合成X射線圖像相媲美,但我們的擴展評估證明了使用合成圖像來使X射線安全訓練圖像多樣化以進行自動檢測算法訓練的挑戰和希望。

mustGAN: Multi-Stream Generative Adversarial Networks for MR Image Synthesis
Authors Mahmut Yurt, Salman Ul Hassan Dar, Aykut Erdem, Erkut Erdem, Tolga ukur
多對比度MRI協議提高了可用於診斷的形態學信息的水平。然而,實際上,造影劑的數量和質量受到包括掃描時間和患者運動的各種因素的限制。合成缺失或損壞的對比度可以減輕這種侷限性,從而提高臨牀實用性。多對比度MRI的常用方法涉及一對一和多對一的合成方法。一對一方法將單個源的對比度作爲輸入,並且他們學習了對源的獨特功能敏感的潛在表示。同時,多對一方法會收到多個不同的來源,並且他們會學習一種共享的潛在表示形式,這些表示形式對各個來源之間的共同特徵更爲敏感。對於增強的圖像合成,我們提出一種多流方法,該方法通過將多個一對一流和聯合多對一流混合在一起,跨多個源圖像聚合信息。在多對一流中生成的共享特徵圖和在一對一流中生成的互補特徵圖與融合塊組合。融合塊的位置被自適應地修改以最大化任務特定的性能。對T1,T2,PD加權圖像和FLAIR圖像的定性和定量評估清楚地證明了與以前的現有技術一對一和多對一方法相比,該方法的優越性能。

Non-imaging single-pixel sensing with optimized binary modulation
Authors Hao Fu, Liheng Bian, Jun Zhang
諸如圖像分類之類的常規高級感測任務需要高保真度圖像作爲輸入以提取目標特徵,該目標特徵由複雜的成像硬件或高複雜度的重建算法產生。在這封信中,我們提出了一種單像素傳感SPS,該傳感器直接從單個像素檢測器的耦合測量結果執行傳感任務,而無需常規的圖像採集和重建過程。我們構建了一個深度卷積神經網絡,其中包括目標編碼器和感測解碼器。該編碼器模擬單個像素檢測,並採用可在22kHz物理上實現的二進制調製。編碼器和解碼器都經過培訓,以實現最佳感測精度。在手寫MNIST數據集的分類任務上證明了SPS的有效性,並在1kHz時達到96.68的分類精度。與傳統的成像傳感框架相比,已報道的SPS技術需要較少的測量來實現快速的傳感速率,保持較低的計算複雜性,較寬的工作頻譜和較高的信噪比,並且進一步有利於通信和加密。

CAT: Compression-Aware Training for bandwidth reduction
Authors Chaim Baskin, Brian Chmiel, Evgenii Zheltonozhskii, Ron Banner, Alex M. Bronstein, Avi Mendelson
卷積神經網絡CNN已成爲解決視覺處理任務的主要神經網絡體系結構。阻礙普遍使用CNN進行推理的主要障礙之一是其相對較高的內存帶寬要求,這可能是主要的能源消耗和硬件加速器中的吞吐量瓶頸。因此,有效的特徵圖壓縮方法可以導致實質性的性能提升。受量化意識訓練方法的啓發,我們提出了一種壓縮意識訓練CAT方法,該方法涉及以一種在推理過程中可以更好地壓縮特徵圖的方式訓練模型。我們的方法訓練模型以實現低熵特徵圖,從而使用經典的變換編碼方法在推理時實現有效壓縮。 CAT顯着改善了量化報告的最新技術水平。例如,在ResNet 34上,與基線相比,我們實現了73.1精度0.2降級,每個值的平均表示僅爲1.79位。參考實現隨附於

Multi-modal segmentation with missing MR sequences using pre-trained fusion networks
Authors Karin van Garderen, Marion Smits, Stefan Klein
數據丟失是機器學習中的常見問題,在回顧性成像研究中,它通常以丟失成像模態的形式遇到。我們建議在神經網絡的設計和訓練中考慮缺失的模態,以確保即使在沒有多個圖像的情況下,它們也能夠提供最佳的預測。擬議的網絡將對標準3D UNet架構的三種修改,具有模式退出功能的訓練方案,最後階段具有融合層的多路徑架構以及這些路徑的單獨預訓練相結合。使用BraTS多模式細分挑戰,可以對完整和丟失數據的性能進行增量評估。最終模型相對於缺失數據的最新狀態顯示了顯着改進,並且在訓練過程中需要更少的內存。

Efficient Residual Dense Block Search for Image Super-Resolution
Authors Dehua Song, Chang Xu, Xu Jia, Chunjing Xu, Yunhe Wang
儘管由於深度卷積神經網絡的興起,單圖像超分辨率取得了顯着進步,但深度學習方法在實踐中尤其是對於移動設備面臨着計算和內存消耗的挑戰。針對這個問題,我們提出了一種高效的具有多個目標的殘差密集塊搜索算法,以尋找快速,輕巧和準確的網絡以實現圖像超分辨率。首先,爲了加速超分辨率網絡,我們利用提出的有效殘差密集塊充分利用了特徵尺度的變化。在提出的進化算法中,自動搜索合併和上採樣算子的位置。其次,在大額信貸的指導下發展網絡體系結構,以獲取準確的超分辨率網絡。大筆信用反映了當前大筆的影響,並在模型評估過程中獲得。它通過權衡突變的採樣概率來支持可欽佩的區塊,從而指導進化。大量的實驗結果證明了所提出的搜索方法的有效性,並且所發現的有效超分辨率模型比參數和FLOP數量有限的最新方法具有更好的性能。

Beyond image classification: zooplankton identification with deep vector space embeddings
Authors Ketil Malde, Hyeongji Kim
像許多其他現實世界中的數據類型一樣,浮游動物圖像具有固有的屬性,這些屬性使有效分類系統的設計變得困難。例如,在實際設置中遇到的類的數量可能非常大,並且類可能是模棱兩可或重疊的。此外,研究人員之間和機構之間的分類選擇通常不同。儘管使用標準分類器體系結構在基準測試中已經實現了高精度,但是當將輸出用於生態系統評估和監測時,由不靈活的分類方案引起的偏差可能會產生深遠的影響。

Attention Convolutional Binary Neural Tree for Fine-Grained Visual Categorization
Authors Ruyi Ji, Longyin Wen, Libo Zhang, Dawei Du, Ynajun Wu, Chen Zhao, Xianglong Liu, Feiyue Huang
細粒度的視覺分類FGVC由於變形,遮擋,照明等導致的類內差異高和類間差異小,是一項重要但具有挑戰性的任務。提出了一種注意力卷積二叉神經樹體系結構來解決弱監督FGVC的那些問題。具體來說,我們沿樹結構的邊緣合併了卷積運算,並在每個節點中使用路由功能來確定樹中從根到葉的計算路徑。將最終決策計算爲來自葉節點的預測總和。深度卷積運算學習捕獲對象的表示,並且樹結構表徵從粗糙到精細的層次特徵學習過程。此外,我們使用注意轉換器模塊來強制網絡捕獲歧視性功能。負對數似然損失用於SGD通過反向傳播以端到端的方式訓練整個網絡。在CUB 200 2011,斯坦福汽車和飛機數據集上進行的一些實驗表明,所提出的方法在最新技術方面表現出色。

Accurate and Compact Convolutional Neural Networks with Trained Binarization
Authors Zhe Xu, Ray C. C. Cheung
儘管卷積神經網絡CNN現在已廣泛用於各種計算機視覺應用中,但其龐大的資源需要對參數進行存儲和計算,這使得在移動和嵌入式設備上的部署變得困難。最近,人們探索了二進制卷積神經網絡,以通過僅用1個位量化權重和激活來幫助緩解此問題。但是,與全精度模型相比,精度可能會明顯下降。在本文中,我們提出了一種針對緊湊型二進制CNN的改進的訓練方法,其準確性更高。引入了可訓練的權重和激活比例因子,以增加值範圍。這些縮放因子將通過反向傳播與其他參數一起訓練。此外,還開發了一種特定的訓練算法,包括對不連續二值化函數的導數和作用於權重縮放因子的L 2正則化進行嚴格逼近。通過這些改進,二進制CNN在具有VGG Small Network的CIFAR 10上達到了92.3的精度。在ImageNet上,我們的方法在AlexNet上也獲得了46.1最高的1精度,在Resnet 18上獲得了54.2的精度,超過了先前的工作。

Balancing Specialization, Generalization, and Compression for Detection and Tracking
Authors Dotan Kaufman, Koby Bibas, Eran Borenstein, Michael Chertok, Tal Hassner
我們提出了一種將深度檢測器和跟蹤器專門用於受限設置的方法。設計我們的方法時要牢記以下目標:提高受限域的準確性b防止過度適應新域並忘記通用功能c積極的模型壓縮和加速。爲此,我們提出了一種新穎的損失,可以平衡深度學習模型的壓縮和加速與泛化能力的損失。我們將我們的方法應用於現有的跟蹤器和檢測器模型。我們報告關於VIRAT和CAVIAR數據集的檢測結果。這些結果表明,我們的方法可提供前所未有的壓縮率以及改進的檢測能力。我們會在測試時將其損失用於跟蹤器壓縮,因爲它會處理每個視頻。我們對OTB2015基準的測試表明,在測試期間應用壓縮實際上會提高跟蹤性能。

FALCON: Fast and Lightweight Convolution for Compressing and Accelerating CNN
Authors Chun Quan, Jun Gi Jang, Hyun Dong Lee, U Kang
如何在保留分類任務精度的同時有效壓縮卷積神經網絡CNN的一個有前途的方向是基於深度可分離卷積,它用深度卷積和點式卷積代替了標準卷積。但是,以前基於深度可分離卷積的工作是有限的,因爲1它們大多是啓發式方法,沒有準確瞭解它們與標準卷積的關係,並且2其準確性與標準卷積不匹配。在本文中,我們提出了FALCON,這是一種壓縮CNN的準確,輕巧的方法。 FALCON是通過使用EHP解釋基於深度可分離卷積的現有卷積方法而得出的,EHP是我們提出的近似標準卷積核的數學公式。這樣的解釋導致開發了通用版本等級k FALCON,其進一步提高了準確性,同時犧牲了一點壓縮和計算減少率。另外,我們通過將FALCON裝配到最先進的卷積單元ShuffleUnitV2中來建議FALCON分支,從而提供更高的精度。實驗表明,FALCON和FALCON分支在確保相似精度的同時,性能高達8倍壓縮和8倍計算精簡,性能優於1種基於深度可分離卷積的現有方法和2種標準CNN模型。我們還證明,在許多情況下,秩k FALCON的精度甚至比標準卷積更好,同時使用較少數量的參數和浮點運算。

Cross-View Kernel Similarity Metric Learning Using Pairwise Constraints for Person Re-identification
Authors T M Feroz Ali, Subhasis Chaudhuri
人員識別是在不重疊的攝像機之間匹配行人圖像的任務。在本文中,我們提出了一種非線性交叉視圖相似性度量學習,用於處理實際re ID系統中的小尺寸訓練數據。該方法採用非線性映射,並結合基於成對相似性約束的交叉視圖判別子空間學習和交叉視圖距離度量學習。它是使用內核從線性映射到非線性映射的XQDA的自然擴展,並且學習了非線性轉換,可以有效地處理攝像機視圖之間人員外觀的複雜非線性。重要的是,提出的方法在計算上非常有效。在四個具有挑戰性的數據集上進行的廣泛實驗表明,我們的方法與最先進的方法相比具有競爭優勢。

Conditional Transferring Features: Scaling GANs to Thousands of Classes with 30% Less High-quality Data for Training
Authors Chunpeng Wu, Wei Wen, Yiran Chen, Hai Li
生成對抗網絡GAN大大提高了無監督圖像生成的質量。先前的基於GAN的方法通常需要大量高質量的訓練數據,同時產生少量例如數十個類。這項工作旨在將GAN的規模擴大到數千個課程,同時減少培訓中對高質量數據的使用。我們提出一種基於條件傳遞特徵的圖像生成方法,該方法可以在將低質量圖像轉換爲高質量圖像時捕獲像素級語義變化。此外,自我監督學習已集成到我們的GAN架構中,以提供從培訓數據中觀察到的更多無標籤的語義監督信息。因此,訓練我們的GAN架構所需的高質量圖像要少得多,而附加的少量低質量圖像也要少得多。在CIFAR 10和STL 10上進行的實驗表明,即使從訓練集中刪除了30張高質量的圖像,我們的方法仍然可以勝過以前的圖像。對象類的可擴展性已通過實驗驗證,我們的方法減少了30幅高質量圖像,在生成1,000個ImageNet類以及生成所有3,755類CASIA HWDB1.0中文手寫字符方面獲得了最佳的質量。

Guided Attention Network for Object Detection and Counting on Drones
Authors Yuanqiang Cai, Dawei Du, Libo Zhang, Longyin Wen, Weiqiang Wang, Yanjun Wu, Siwei Lyu
對象檢測和計數是相關但具有挑戰性的問題,尤其是對於具有小對象和雜亂背景的基於無人機的場景而言。在本文中,我們提出了一個新的引導式注意力網絡GANet,用於處理基於特徵金字塔的對象檢測和計數任務。與以前的依賴非監督注意力模塊的方法不同,我們通過在背景和對象之間使用擬議的弱監督背景注意力BA融合不同比例的特徵圖,以實現更多的語義特徵表示。然後,開發了前景注意FA模塊,以考慮對象的全局外觀和局部外觀,以促進準確的定位。此外,新的數據論證策略旨在在各種複雜場景中訓練魯棒模型。在三個具有挑戰性的基準(即UAVDT,CARPK和PUCPR)上進行的廣泛實驗表明,與現有方法相比,該方法的檢測和計數性能爲最新水平。

Stochastic Conditional Generative Networks with Basis Decomposition
Authors Ze Wang, Xiuyuan Cheng, Guillermo Sapiro, Qiang Qiu
儘管生成對抗網絡GAN徹底改變了機器學習,但仍有許多懸而未決的問題可以充分理解它們併發揮其功能。這些問題之一是如何有效地實現多模式數據空間的適當分集和採樣。爲了解決這個問題,我們介紹了BasisGAN,一種隨機條件多模式圖像生成器。通過利用卷積濾波器可以很好地近似爲一小組基本元素的線性組合的觀察,我們學習了即插即用的基本生成器,可以隨機生成僅具有數百個參數的基本元素,以完全嵌入隨機性到卷積濾波器。通過採樣基本元素而不是過濾器,我們在不犧牲圖像多樣性或保真度的情況下,大大降低了建模參數空間的成本。爲了說明此提議的即插即用框架,我們基於最先進的條件圖像生成網絡構造了BasisGAN的變體,並通過簡單地插入基礎生成器來訓練網絡,而無需其他輔助組件,超參數或訓練目標。實驗成功與理論結果相輔相成,這些理論結果表明所提議的基本元素採樣所引入的擾動如何傳播到生成圖像的外觀。

Towards Automated Biometric Identification of Sea Turtles (Chelonia mydas)
Authors Irwandi Hipiny, Hamimah Ujir, Aazani Mujahid, Nurhartini Kamalia Yahya
被動生物特徵識別可以在最小干擾的情況下監控野生生物。我們使用擡高的動作攝像頭並面向下,收集了海龜甲殼的圖像,每個圖像都屬於十六種Chelonia mydas幼體之一。然後,我們從這些圖像中學習了共變和魯棒的圖像描述符,從而實現了索引和檢索。在這項工作中,我們使用學習到的圖像描述符介紹了海龜甲殼的幾個分類結果。我們發現,基於模板的描述符,即“定向梯度直方圖” HOG在分類期間的性能要比基於關鍵點的描述符好得多。對於我們的數據集,由於甲殼圖像中的漸變和顏色信息最少,因此必須具有高維描述符。使用HOG,我們獲得了65的平均分類精度。

Rescan: Inductive Instance Segmentation for Indoor RGBD Scans
Authors Maciej Halber, Yifei Shi, Kai Xu, Thomas Funkhouser
在從家用機器人技術到AR VR的深度感測應用中,通常會以稀疏的時間間隔重複獲取內部空間的3D掃描,例如作爲日常日常使用的一部分。我們提出了一種算法,該算法分析這些重新掃描以推斷帶有語義實例信息的場景的時間模型。我們的算法通過使用過去觀察到的時間模型來歸納地操作,以推斷新掃描的實例分割,然後將其用於更新時間模型。該模型包含跨時間的對象實例關聯,因此即使只有稀疏的觀察結果,也可用於跟蹤單個對象。在針對新任務使用新基準進行實驗的過程中,我們的算法優於基於最新網絡的語義實例細分的替代方法。

Learning Propagation for Arbitrarily-structured Data
Authors Sifei Liu, Xueting Li, Varun Jampani, Shalini De Mello, Jan Kautz
處理包含任意結構(例如,超像素和點雲)的輸入信號,仍然是計算機視覺中的一大挑戰。線性擴散是一種有效的圖像處理模型,最近已與深度學習算法集成在一起。在本文中,我們建議通過空間廣義傳播網絡SGPN以全局方式學習數據點之間的成對關係,以改進對任意結構化數據的語義分割。網絡通過學習的線性擴散過程,在代表任意結構化數據的一組圖形上傳播信息。該模塊可以靈活地嵌入和與多種類型的網絡(例如CNN)一起接受培訓。我們使用語義分割網絡進行實驗,在該網絡中,我們使用傳播模塊來共同訓練不同的數據圖像,超像素和點雲。我們顯示,與不包含此模塊的網絡相比,SGPN不斷提高了像素和點雲分割的性能。我們的方法提出了一種對任意結構化數據的全局成對關係建模的有效方法。

Pretraining boosts out-of-domain robustness for pose estimation
Authors Alexander Mathis, Mert Y ksekg n l, Byron Rogers, Matthias Bethge, Mackenzie W. Mathis
深度神經網絡是用於人類和動物姿態估計的高效工具。但是,對域外數據的魯棒性仍然是一個挑戰。在這裏,我們使用在ImageNet上預訓練的兩個體系結構類MobileNetV2s和ResNets探索姿勢估計的傳遞和泛化能力。我們生成了一個包含30匹馬的新穎數據集,該數據集允許在域內和域外進行看不見的馬測試。我們發現在ImageNet上進行預培訓可以大大提高域外性能。此外,我們表明,對於預訓練和從頭開始訓練的網絡,性能更好的ImageNet架構在姿態估計方面表現更好,並且在進行預訓練時對域外數據有顯着改善。總的來說,我們的結果表明,遷移學習對於域外魯棒性特別有益。

Intelligent image synthesis to attack a segmentation CNN using adversarial learning
Authors Liang Chen, Paul Bentley, Kensaku Mori, Kazunari Misawa, Michitaka Fujiwara, Daniel Rueckert
基於卷積神經網絡CNN的深度學習方法已成功解決了醫學成像中的許多問題,包括圖像分割。近年來,已經顯示出CNN容易受到攻擊,在這種攻擊中,輸入圖像受到相對少量的噪聲干擾,因此CNN不再能夠以足夠的精度對被幹擾的圖像進行分割。因此,探索有關如何攻擊基於CNN的模型以及如何保護模型免受攻擊的方法已成爲熱門話題,因爲這也提供了對CNN的性能和泛化能力的見識。但是,大多數現有工作都採用了不切實際的攻擊模型,即預先指定了產生的攻擊。在本文中,我們提出了一種新穎的方法來生成對抗性示例,以攻擊基於CNN的醫學圖像分割模型。我們的方法具有三個關鍵特徵1生成的對抗示例在變形和外觀擾動方面表現出解剖上的變化2對抗示例攻擊分割模型,因此Dice得分降低了預先指定的數量3不需要指定攻擊預先。我們已經評估了基於CNN的2D CT圖像中多器官分割問題的方法。我們表明,所提出的方法可用於攻擊基於CNN的不同細分模型。

Anchor Loss: Modulating Loss Scale based on Prediction Difficulty
Authors Serim Ryou, Seong Gyun Jeong, Pietro Perona
我們提出了一種新穎的損失函數,該函數根據關於樣本的預測難度來動態地重新縮放交叉熵。圖像分類任務中的深度神經網絡架構難以消除視覺上相似的對象的歧義。同樣,在人體姿態估計中,對稱的身體部位經常使網絡分配無差別的分數,從而使網絡混亂。這是由於輸出預測,其中僅選擇了最高置信度標籤,而未考慮不確定性的度量。在這項工作中,我們將預測難度定義爲來自正負標籤之間的置信度得分差距的相對屬性。更精確地,所提出的損失函數對網絡進行懲罰,以避免錯誤預測的分數顯着。爲了證明損失函數的功效,我們在兩個不同的領域圖像分類和人體姿勢估計上對其進行了評估。與基線方法相比,通過實現更高的準確性,我們發現兩種應用程序都有改進。

Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
Authors Tianyu Pang, Kun Xu, Jun Zhu
衆所周知,對抗性示例可以很容易地製作成愚弄深度網絡,其主要源於輸入示例附近的局部非線性行爲。在訓練中應用混合可以提供一種有效的機制來提高泛化性能和模型對抗魯棒性攝動的魯棒性,從而在訓練示例之間引入全局線性行爲。但是,在先前的工作中,經過混合訓練的模型只能通過直接分類輸入來被動地抵禦對抗性攻擊,在這種情況下,不能很好地利用誘發的全局線性。即,由於對抗性擾動的局部性,因此通過模型預測的全局性主動地破壞局部性將更加有效。受簡單的幾何直覺啓發,我們爲混合訓練模型開發了一個名爲混合推理MI的推理原理。 MI將輸入與其他隨機乾淨樣本混合,如果輸入是對抗性的,則可以縮小並傳遞等效擾動。我們在CIFAR 10和CIFAR 100上的實驗表明,MI可以進一步提高由混合及其變體訓練的模型的對抗魯棒性。

Synthetic Data for Deep Learning
Authors Sergey I. Nikolenko
合成數據是一種用於訓練深度學習模型的越來越流行的工具,尤其是在計算機視覺以及其他領域。在這項工作中,我們嘗試對合成數據的開發和應用中的各個方向進行全面的調查。首先,我們討論用於基本計算機視覺問題的合成數據集,包括低級別(例如光流估計)和高級級別(例如語義分割),合成環境以及用於室外和城市場景自動駕駛的數據集,室內場景,室內導航,空中導航,模擬環境對於機器人技術,計算機視覺之外的合成數據在神經程序設計,生物信息學,NLP等領域的應用,我們還調查了有關改進合成數據開發和替代方法(例如GAN)的工作。其次,我們詳細討論了在合成數據的應用中不可避免出現的合成到實際領域的適應問題,包括使用基於GAN的模型進行的合成到實際精煉以及在沒有顯式數據轉換的情況下在特徵模型級別進行領域自適應。第三,我們轉向合成數據的隱私相關應用程序,並回顧在生成具有不同隱私保證的合成數據集方面的工作。最後,我們着重介紹了在綜合數據研究中開展進一步工作的最有希望的方向。

Towards continuous learning for glioma segmentation with elastic weight consolidation
Authors Karin van Garderen, Sebastian van der Voort, Fatih Incekara, Marion Smits, Stefan Klein
在對來自新域的數據進行卷積神經網絡CNN調整時,災難性的遺忘會降低原始訓練數據的性能。彈性重量合併EWC是防止這種情況的最新技術,我們在訓練和重新訓練CNN以在兩個不同的數據集上分割神經膠質瘤時進行了評估。該網絡在公共BraTS數據集上進行了訓練,並在內部數據集上進行了微調,這些數據集均包含非增強型低級別神經膠質瘤。在這種情況下,EWC被發現可以減少災難性的遺忘,但同時也被發現可以限制對新領域的適應。

Message Scheduling for Performant, Many-Core Belief Propagation
Authors Mark Van der Merwe, Vinu Joseph, Ganesh Gopalakrishnan
Belief Propagation BP是一種消息傳遞算法,用於對概率圖形模型PGM進行近似推斷,可以找到許多應用程序,例如計算機視覺,糾錯碼和蛋白質摺疊。雖然一般而言,該算法的收斂性和速度限制了其在困難推理問題上的實際應用。作爲高度適合並行化的算法,許多核心圖形處理單元GPU可以顯着提高BP性能。通過許多核心繫統改善BP並非易事,算法中消息的調度強烈影響性能。我們對GPU上的BP消息調度進行了研究。我們證明了BP在並行性的基礎上展現了速度和收斂之間的折衷,並表明現有消息調度無法利用這種折衷。爲此,我們提出了一種新穎的隨機消息調度方法,即Randomized BP RnBP,它優於GPU上的現有方法。

Deep learning vessel segmentation and quantification of the foveal avascular zone using commercial and prototype OCT-A platforms
Authors Morgan Heisler, Forson Chan, Zaid Mammo, Chandrakumar Balaratnasingam, Pavle Prentasic, Gavin Docherty, MyeongJin Ju, Sanjeeva Rajapakse, Sieun Lee, Andrew Merkur, Andrew Kirker, David Albiani, David Maberley, K. Bailey Freund, Mirza Faisal Beg, Sven Loncaric, Marinko V. Sarunic, Eduardo V. Navajas
在光學相干斷層掃描血管造影OCT中自動量化小凹周圍血管密度OCT A圖像面臨挑戰,例如可變的內部和內部圖像信噪比,來自外部脈管系統層的投影僞像以及運動僞像。這項研究證明了深度神經網絡在健康和糖尿病眼中自動量化小凹無血管區FAZ參數和OCT A圖像的小凹周圍血管密度的實用性。使用三個OCT A系統(1060nm掃頻光源SS OCT原型),RTVue XR Avanti Optovue Inc.(位於加利福尼亞州弗裏蒙特)和蔡司Angioplex Carl Zeiss Meditec(加利福尼亞州都柏林),獲取三個中央凹區的OCT A圖像。然後使用深度神經網絡執行自動分割。四個FAZ形態參數面積,最小最大直徑,偏心率和小凹周圍血管密度用作結果指標。在所有三個設備平臺上,DNN血管分割的準確性,敏感性和特異性均相當。對於任何系統上的任何結果度量,在自動和手動分割的度量方法之間均未發現顯着差異。對於所有測量,組內相關係數ICC也爲0.51。 OCT A的自動深度學習血管分割可能適用於商業和研究目的,以更好地量化視網膜循環。

Domain-invariant Learning using Adaptive Filter Decomposition
Authors Ze Wang, Xiuyuan Cheng, Guillermo Sapiro, Qiang Qiu
在現實世界中經常遇到域轉移。在本文中,我們通過在卷積神經網絡CNN中僅使用少量領域特定參數對領域轉移進行顯式建模來考慮領域不變深度學習的問題。通過觀察到卷積濾波器可以很好地近似爲一組基本元素的線性組合的觀察結果,我們首次從經驗和理論上表明,通過將常規卷積層分解爲領域特定基礎層和領域共享基礎係數層,同時保持卷積。現在,輸入通道將首先僅在空間上與每個特定領域特定基礎卷積以吸收領域變化,然後使用經過訓練可促進跨領域共享語義的公共基礎係數對輸出通道進行線性組合。我們使用玩具示例,嚴格的分析和真實的示例來說明框架在跨域性能和域適應方面的有效性。使用建議的體系結構,我們只需要少量基礎元素即可對每個附加域進行建模,這帶來了可忽略的附加參數數量,通常爲數百個。

Sign Language Recognition Analysis using Multimodal Data
Authors Al Amin Hosain, Panneer Selvam Santhalingam, Parth Pathak, Jana Kosecka, Huzefa Rangwala
語音控制的個人和家庭助理(例如Amazon Echo和Apple Siri)在各種應用程序中正變得越來越流行。但是,聾啞或聽力障礙DHH用戶無法輕鬆獲得這些技術的優勢。這項研究的目的是使用DHH簽名者可以用來與語音控制設備進行交互的多種方式來開發和評估一種符號識別系統。隨着深度傳感器的發展,骨骼數據被用於視頻分析和活動識別等應用。儘管與經過充分研究的人類活動識別相似,但在手語識別中很少使用3D骨架數據。這是因爲與活動識別不同,手語主要取決於手的形狀模式。在這項工作中,我們研究了結合使用不同深度學習架構將骨骼和RGB視頻數據用於手語識別的可行性。我們在12個用戶和跨越51個標誌的13107個樣本的大規模美國手語ASL數據集中驗證了我們的結果。它被命名爲GMUASL51。我們在6個月內收集了該數據集,並將其公開發布,以期推動進一步的機器學習研究,以改善數字助理的可訪問性。

Carving out the low surface brightness universe with NoiseChisel
Authors Mohammad Akhlaghi
NoiseChisel是一個程序,用於以極少的形態假設來檢測極低的信噪比S N特徵。它於2015年推出,並在一系列數據分析程序和稱爲GNU Astronomy Utilities Gnuastro的庫中發佈。在Gnuastro的最近十個穩定版本中,NoiseChisel大大改善了檢測甚至更微弱的信號的能力,從而使用戶可以更好地控制其內部工作,並修復了許多錯誤。最重要的變化可能是,NoiseChisel的分割功能已移至名爲“分段”的新程序中。另一個重大變化是其真正檢測的最終增長策略,例如,NoiseChisel能夠在單個曝光的SDSS圖像r波段上檢測出M51的外翼,直至S N爲0.25或28.27 mag arcsec2。段也能夠成功地檢測到局部的HII區域。最後,爲了組織受控分析,討論了可複製紙張的概念,本文本身就是可複製快照v4 0 g8505cfd。

Augmenting the Pathology Lab: An Intelligent Whole Slide Image Classification System for the Real World
Authors Julianna D. Ianni, Rajath E. Soans, Sivaramakrishnan Sankarapandian, Ramachandra Vikas Chamarthi, Devi Ayyagari, Thomas G. Olsen, Michael J. Bonham, Coleman C. Stavish, Kiran Motaparthi, Clay J. Cockerell, Theresa A. Feeser, Jason B. Lee
可疑皮膚癌的護理診斷程序的標準是由病理學家對蘇木精曙紅染色的組織進行顯微鏡檢查。病理學家之間的高度不一致和活檢率上升的地區需要更高的效率和診斷的可重複性。我們提出並驗證了一種深度學習系統,該系統將數字化皮膚病理學幻燈片分爲4類。該系統使用來自單個實驗室的5,070張圖像進行開發,並使用3家不同供應商製造的整體幻燈片掃描儀在來自3個測試實驗室的未經固化的13,537張圖像上進行了測試。該系統使用基於深度學習的置信度評分作爲將結果視爲準確的標準,可產生高達98的準確度,並使其可在現實環境中採用。在沒有置信度評分的情況下,該系統的準確性爲78。我們預計,我們的深度學習系統將成爲基礎,可以更快地診斷皮膚癌,確定病例以進行專科醫生審查以及針對性的診斷分類。

Accept Synthetic Objects as Real: End-to-End Training of Attentive Deep Visuomotor Policies for Manipulation in Clutter
Authors Pooya Abolghasemi, Ladislau B l ni
最近的研究表明,利用示範LfD和強化學習RL的學習變異來端到端地訓練機器人操作的多任務深視覺運動策略是可行的。在本文中,我們將端到端LfD架構的功能擴展到混亂中的對象操作。我們首先介紹稱爲“接受合成對象作爲真實ASOR”的數據增強過程。使用ASOR,我們開發了兩種網絡體系結構:隱式注意ASOR IA和顯式注意ASOR EA。兩種架構在整潔的環境中都使用與以前的方法相同的訓練數據演示。實驗結果表明,在雜亂的環境中,ASOR IA和ASOR EA在相當多的試驗中都取得了成功,而以前的方法從未成功。此外,我們發現,即使在整潔的環境中,ASOR IA和ASOR EA的性能也比以前的方法好,即使在整潔的環境中,ASOR EA的性能也比以前的最佳基準要好。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


在這裏插入圖片描述
pic from pexels.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章