【今日CV 計算機視覺論文速覽 第115期】Fri, 10 May 2019

今日CS.CV 計算機視覺論文速覽
Fri, 10 May 2019
Totally 57 papers
👉上期速覽更多精彩請移步主頁

在這裏插入圖片描述

Interesting:

📚****手持設備多幀超分辨, 手機上的相機與單反相比傳感器小、孔徑小像素少使得成像質量不如單反、信噪比也比較低。這篇文章中研究人員提出直接從彩色濾光陣列(color filter arrays,CFAs)中的原始圖像序列得到完整的RGB圖像,並有效處理了手的震顫,並在移動、遮擋、場景變化的情況下取得了很好的效果,同時在移動端處理12M照片只需要100ms。(from google research)
在這裏插入圖片描述
在這裏插入圖片描述
速度和精度分析:
在這裏插入圖片描述
一些驚豔的結果:
在這裏插入圖片描述

📚基於深度注意力採樣模型處理宏像素,通過注意力機制模塊採樣需要處理的位置,代替先前處理大圖像的下采樣方法,使用圖像片作爲輸入。使得大圖像的原分辨率處理成爲可能。基於此研究人員推導出了無偏估計器和可以用SGD訓練的模型。 (from 洛桑理工)
在這裏插入圖片描述
在這裏插入圖片描述

📚**基於自編碼器點雲有損壓縮算法, 第一個直接處理點雲數據的壓縮模型。基於自編碼器實現。(from 北大)
點雲壓縮架構,從n個點壓縮到m個點:
在這裏插入圖片描述
提出的壓縮方法碼率更低峯值信噪比更高:
在這裏插入圖片描述

entropy_bottleneck:https://tensorflow.github.io/compression/docs/entropy_bottleneck.html

📚***Deep Closest Point學習點雲註冊配準的表示, 爲了學習出兩個點雲間的剛體選擇方程,克服ICP陷入局域最小值的侷限,研究人員提出了利用深度網絡實現點雲配準的方法DCP。模型包含點雲嵌入網絡和注意裏模塊結合的點雲生成階段實現粗配準,隨後利用可差分的奇異值分解層抽取最後的剛體變化。並在ModelNet40上進行訓練.具有泛化性,全局特徵抽取性能好(from MIT)
模型架構包含了轉換器結構:
在這裏插入圖片描述
一些點雲配準的效果:
在這裏插入圖片描述
ref:ICPs和PointNetLK Transformer
code:https://github.com/WangYueFt/dcp
author:https://people.csail.mit.edu/yuewang/
Geometric Data Processing group:https://groups.csail.mit.edu/gdpgroup/
prof solomon:https://people.csail.mit.edu/jsolomon/

📚提出識別和檢索方法對於單視角三維重建, 研究人員發現現有的網絡模型都是基於編碼器來從單圖像恢復三維結構的,但利用圖像分類(聚類)和檢索來替換了發現得到的重建結果更好。統計上圖像分類和自編碼器不可區分,意味着自編碼器在做分類而不是重建。研究人員對此進行了深入研究並提出了改進的方向。(from 弗萊堡大學 intel)
We show that encoder-decoder methods are statistically indistinguishable from these baselines, thus indicating that the current state of the art in single-view object reconstruction does not actually perform reconstruction but image classification. We identify aspects of popular experimental procedures that elicit this behavior and discuss ways to improve the current state of research.
在這裏插入圖片描述
不同方法不確定度與IoU與訓練樣本間的關係:
在這裏插入圖片描述在這裏插入圖片描述
dataset:ShapeNet,[ShapeNet Core55.](Li Yi, Lin Shao, Manolis Savva, et al. Large-scale 3D shape reconstruction and segmentation from ShapeNet Core55.CoRR, abs/1710.06104, 2017. 3)
ref:***Open3D:Qian-Yi Zhou, Jaesik Park, and Vladlen Koltun. Open3D: Amodern library for 3D data processing.
Open3D, doc

📚D2-Net局域特徵的聯合描述與檢測網絡, 提出了一種在極差的圖像情況下找到像素級的特徵描述子,利用卷積網絡同時實現了稠密特徵描述和特徵檢測。通過後處理得到的關鍵點比傳統方法具有更魯棒的特徵。這種方法可以有效用於SFM等重建任務。(from DI, ENS Inria ETH Zurich )
一些很難匹配的結果依然效果很好:
在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述
文章提出的方法,第二種:
在這裏插入圖片描述
檢測和描述網絡的結構:
在這裏插入圖片描述
與相關方法的比較:
在這裏插入圖片描述
code:https://github.com/mihaidusmanu/d2-net
dataset: Aachen Day-Night localization dataset InLoc indoor localization benchmark

📚Cycle-IR圖像重定向,針對圖像重定向(縮略圖)重新調整大小的任務(圖像縮略圖技術,在不引入大畸變情況下改變尺寸來適應各種尺寸平面),研究人員提出了基於深度學習的方法,其想法來自於如果一個拉伸變形後的圖像可以恢復出原始圖像,那麼意味着它是有效的retarget。同時通過感知連續損失保持圖像前傳的連續性。並提出了retarget網絡IRNet,加入了空間和通道注意力模塊,可以識別出視覺重要性區域。(from 復旦)
模型思想和架構圖:
在這裏插入圖片描述在這裏插入圖片描述
空間注意力模塊和通道注意力模塊:
在這裏插入圖片描述
一些結果顯示本方法的有效性,可以消除畸變並保持比例結構:
在這裏插入圖片描述
相關方法比較:
在這裏插入圖片描述
code:https://github.com/mintanwei/Cycle-IR
RetargetMe dataset:http://people.csail.mit.edu/mrub/retargetme/
ref:https://blog.csdn.net/piaomiaoju/article/details/9165583
A Comparative Study of Image Retargeting:http://people.csail.mit.edu/mrub/papers/retBenchmark.pdf

📚ROSA對抗樣本魯棒的顯著性目標檢測, 通過噪聲的引入來摧毀對抗擾動,並在這一噪聲的基礎上進行有效的顯著性預測,框架中還包含了部分分割來保持邊緣摧毀對抗擾動和報紙內容。(from 香港大學)
在這裏插入圖片描述
加入本方法後對於對抗樣本處理的穩定性:
在這裏插入圖片描述

📚PPGNet, 提出了一種檢測線元素的網絡,通過圖來描述線的交點、線和關係,並利用PPGNet來抽取了圖像周的線元素。(from 上海科技大學)
在圖表示中,交點和連線可以更爲容易有效的表示出來。
在這裏插入圖片描述
模型的架構圖
在這裏插入圖片描述
dataset:g York Urban and Wireframe
CVPR2019 code:https://github.com/svip-lab/PPGNet

📚***移動端視覺模型的加速技術綜述, 綜述了適用於移動環境的架構、操作算法,基於強化學習和遞歸網絡改進模型精度速度的方法,最後回顧了軟硬件架構和芯片級移動端hpc的發展現狀。(from 華爲)
一些常用的移動端深度學習計算框架:
在這裏插入圖片描述

📚Learning to Evolve, 將進化算法引入深度強化學習來得到比隨機方法更好的策略,充分利用了進化中的變異和組合方式來實現。(from TUM)
在這裏插入圖片描述

📚JD landmark, 106個人臉關鍵點定位數據集,包含約16000張人臉數據(from 京東AI 百度VIS,中科大 美圖 科大訊飛Iflytekco)
數據樣本和106個人臉關鍵點:
在這裏插入圖片描述在這裏插入圖片描述
架構和評測方法(3.2部分包含了比賽參賽者的一些模型數據):
在這裏插入圖片描述在這裏插入圖片描述
project:https://facial-landmarks-localization-challenge.github.io/
68關鍵點:300-W, 300-VW and Menpo challenges
300W [11, 10, 16], composed of LFPW [1],AFW [9], HELEN [7] and IBUG [12],
https://ibug.doc.ic.ac.uk/

📚TE141K and TETGANs, 藝術字體遷移數據集和基準,包含了141081對藝術字體變形配對數據,共152中設計效果。最後比較了14中風格遷移模型,提出了自己的TET-GAN。(from 北大)
在這裏插入圖片描述
TETGAN的架構圖:
在這裏插入圖片描述
在這裏插入圖片描述
14種相關方法的對比:
在這裏插入圖片描述
project:https://daooshee.github.io/TE141K/ could find emails

📚OpenEDS, 通過虛擬顯示頭盔收集的眼部數據集,包含了152個對象,12759張全標記圖像和252690張無標記圖像。還包括了91200幀序列,143對左右眼點雲數據。too那個是提供了對於瞳孔、視網膜、鞏膜和背景的語義分割基準。 (from 倫敦大學學院)
瞳孔標註:
在這裏插入圖片描述
眼部標註信息:
在這裏插入圖片描述
一些實驗的分割結果:
在這裏插入圖片描述在這裏插入圖片描述
project:https://research.fb.com/programs/openeds-challenge


Daily Computer Vision Papers

Learning Interpretable Features via Adversarially Robust Optimization
Authors Ashkan Khakzar, Shadi Albarqouni, Nassir Navab
事實證明,神經網絡在醫學應用中的分類和診斷方面非常成功。然而,決策過程中的模糊性和學習特徵的可解釋性是一個值得關注的問題。在這項工作中,我們提出了一種改進神經網絡分類器的特徵可解釋性的方法。最初,我們提出了一種基線卷積神經網絡,其在準確性和弱監督定位方面具有最先進的性能。隨後,修改損失以將對抗性示例的穩健性整合到訓練過程中。在這項工作中,通過使用地面實況邊界框評估弱監督定位來量化特徵可解釋性。還可以使用類激活圖和顯着性圖來直觀地評估可解釋性。該方法適用於NIH ChestX ray14,這是目前最大的胸部x射線數據集。我們證明了對抗性強大的優化範例在數量上和視覺上都提高了特徵可解釋性。

Interactive Image Generation Using Scene Graphs
Authors Gaurav Mittal, Shubham Agrawal, Anuva Agarwal, Sushant Mehta, Tanya Marwah
近年來,在基於場景的文本描述中生成圖像的領域中已經見證了一些令人興奮的發展。這些方法主要集中在從靜態文本描述生成圖像,並且僅限於一次性生成圖像。他們無法基於增量添加的文本描述以交互方式生成圖像,這些描述更直觀且類似於我們描述圖像的方式。我們提出了一種基於場景描述場景圖的一系列圖形來遞增地生成圖像的方法。我們提出了一種循環網絡架構,其保留在先前步驟中生成的圖像內容,並根據新提供的場景信息修改累積圖像。我們的模型利用Graph Convolutional Networks GCN來滿足可變大小的場景圖以及Generative Adversarial圖像轉換網絡,以生成逼真的多目標圖像,而無需在訓練期間進行任何中間監督。我們使用Coco Stuff數據集進行實驗,該數據集具有多個對象圖像以及描述視覺場景的註釋,並且表明我們的模型明顯優於同一數據集上的其他方法,從而爲增量增長的場景圖生成視覺上一致的圖像。

Show, Price and Negotiate: A Hierarchical Attention Recurrent Visual Negotiator
Authors Amin Parvaneh, Ehsan Abbasnejad, Qi Wu, Javen Shi
作爲賣方或買方的談判是在線購物的基本和複雜方面。對於智能代理來說是具有挑戰性的,因爲它需要提取和利用來自多個源的信息,例如照片,文本和數字,2預測產品的合適價格以達到最佳協議,3表達意圖以自然語言的價格和4個一致的定價爲條件。傳統的對話系統不能很好地解決這些問題。例如,我們認爲價格應該是談判的驅動因素,並且可以由代理商理解。但是傳統上,價格被簡單地視爲單詞標記,即作爲句子的一部分並且與其他單詞共享相同的單詞嵌入空間。爲此,我們提出了我們的Visual Negotiator,它包含一個端到端的深度學習模型,可以預測初始協議價格並在生成引人注目的支持對話框時對其進行更新。對於1,我們的視覺談判者利用注意機制從圖像和文本描述中提取相關信息,並將價格和後來提煉的價格作爲系統的幾個階段的單獨重要輸入,而不是簡單地成爲句子的一部分2,我們使用注意力來學習價格嵌入來估計初始值。隨後,我們以編碼器解碼器的方式生成支持對話框,利用價格嵌入。此外,我們使用分層遞歸模型,該模型學習在一個級別上細化價格,同時在另一個級別生成支持對話框。對於這種分層模型,該層次模型提供一致的定價。根據經驗,我們證明我們的模型在協議價格,價格一致性和語言質量方面顯着改善了CraigslistBargain數據集的協商。

Fully Parallel Architecture for Semi-global Stereo Matching with Refined Rank Method
Authors Yiwu Yao, Yuhua Cheng
提出了具有精細秩方法的高效半全局匹配SGM的視差級完全並行架構。改進的SGM算法採用非參數統一秩模型實現,該模型是秩濾波器AD和秩SAD的組合。通過將局部圖像結構的約束引入秩方法,秩SAD是一種新穎的定義。因此,具有Rank SAD的統一秩模型可以彌補Rank過濾器AD的缺陷。實驗結果表明,精細SGM算法具有良好的主觀質量和客觀性能。 SGM硬件實現的完全並行結構採用合理的差異化策略。數據流的並行性允許具有可接受的最大頻率的特定應用的適當吞吐量。 RTL仿真和綜合的結果確保了所提出的並行架構適用於VLSI實現。

Tuned Inception V3 for Recognizing States of Cooking Ingredients
Authors Kin Ng
烹飪是一項必須每天進行的任務,因此這是許多人認爲理所當然的活動。對於準備膳食的人來說很自然,但對於機器人來說,即使準備一個簡單的三明治也會導致極其艱鉅的任務。在機器人技術中,設計廚房機器人很複雜,因爲烹飪依賴於各種物理相互作用,這些相互作用取決於不同的條件,例如環境的變化,順序指令的正確執行,以及運動,以及檢測烹飪成分的不同狀態可以爲他們正確的把握和操縱。在本文中,我們關注狀態識別的挑戰,並提出一個精細調整的卷積神經網絡,通過重用Inception V3預訓練模型來利用轉移學習。該模型在由11個狀態組成的烹飪數據集上訓練和驗證,例如去皮,切丁,整個等。本文提出的工作可以爲找到解決問題的潛在解決方案提供見解。

Processing Megapixel Images with Deep Attention-Sampling Models
Authors Angelos Katharopoulos, Fran ois Fleuret
由於計算和存儲器限制,現有的深層架構不能在諸如百萬像素圖像的非常大的信號上操作。爲了解決這一侷限,我們提出了一種完全可區分的端到端可訓練模型,該模型僅對全分辨率輸入圖像的一小部分進行採樣和處理。

Bilinear discriminant feature line analysis for image feature extraction
Authors Lijun Yan, Jun Bao Li, Xiaorui Zhu, Jeng Shyang Pan, Linlin Tang
提出了一種新的雙線性判別特徵線分析BDFLA用於圖像特徵提取。最近的特徵線NFL是強大的分類器。最近引入了一些基於NFL的子空間算法。在大多數基於NFL的經典子空間學習方法中,輸入樣本是向量。對於圖像分類任務,應首先將圖像樣本轉換爲矢量。該過程引起高計算複雜性並且還可能導致樣品的幾何特徵的損失。提出的BDFLA是基於矩陣的算法。它旨在最小化類內散射,並基於二維2D NFL最大化類散射。兩個圖像數據庫的實驗結果證實了有效性。

Visualizing the Consequences of Climate Change Using Cycle-Consistent Adversarial Networks
Authors Victor Schmidt, Alexandra Luccioni, S. Karthik Mukkavilli, Narmada Balasooriya, Kris Sankaran, Jennifer Chayes, Yoshua Bengio
我們提出了一個項目,旨在使用Cycle Consistent Adversarial Networks CycleGAN生成描繪氣候變化準確,生動和個性化結果的圖像。通過在極端天氣事件之前和之後的房屋的街景圖像上訓練我們的CycleGAN模型,例如洪水,森林火災等,我們學習了一個映射,然後可以應用於尚未經歷這些事件的位置的圖像。這種視覺轉換與氣候模型預測相結合,以評估長期50年氣候相關事件的可能性和類型,以便在觀衆心目中更接近未來。我們項目的最終目標是通過利用氣候模型預測,在保持科學可信度的同時,通過更加深刻地瞭解氣候變化的影響,使個人能夠對氣候未來做出更明智的選擇。

Machine Vision in the Context of Robotics: A Systematic Literature Review
Authors Javad Ghofrani, Robert Kirschne, Daniel Rossburg, Dirk Reichelt, Tom Dimter
機器視覺對機器人技術至關重要,因爲它依賴於視覺傳感器(如自動移動機器人和智能生產系統)的輸入。爲了創建明天的智能家居和系統,對系統研究領域當前挑戰的概述將用於確定以系統和可重複的方式創建的更多可能方向。在這項工作中,進行了系統的文獻回顧,涵蓋了過去10年的研究。我們從四個數據庫中篩選了172篇論文,並選擇了52篇相關論文。雖然穩健性和計算時間大大提高,但遮擋和光照變化仍然是最大的問題。根據最近出版物的數量,我們得出結論,觀察到的領域與研究界具有相關性和關注性。該領域的許多領域出現了進一步的挑戰。

Human Activity Recognition Using Visual Object Detection
Authors Schalk Wilhelm Pienaar, Reza Malekian
視覺人類活動識別HAR和與其他傳感器的數據融合可以幫助我們跟蹤地下礦工的行爲和活動,幾乎沒有阻礙。現有模型,例如Single Shot Detector SSD,在上下文COCO數據集中的公共對象上訓練,用於檢測礦工的當前狀態,例如受傷礦工與非受傷礦工。 Tensorflow用於實現機器學習算法的抽象層,雖然它使用Python來處理節點和張量,但實際算法在C庫上運行,在性能和開發速度之間提供了良好的平衡。本文進一步討論了用於確定機器學習準確性的評估方法,以及通過數據融合提高採礦環境中人們檢測到的活動狀態的準確性的方法。

Accurate Visual Localization for Automotive Applications
Authors Eli Brosh, Matan Friedmann, Ilan Kadar, Lev Yitzhak Lavy, Elad Levi, Shmuel Rippa, Yair Lempert, Bruno Fernandez Ruiz, Roei Herzig, Trevor Darrell
準確的車輛定位是建立有效的車輛到車輛網絡和汽車應用的關鍵一步。然而,諸如移動電話提供的標準等級GPS數據通常是嘈雜的並且在許多城市區域中表現出顯着的定位誤差。從圖像精確定位的方法通常依賴於基於結構的技術,因此在規模上受到限制並且計算成本高。在本文中,我們提出了一種可擴展的可視化本地化方法,旨在實現實時性能。我們提出了一種混合粗到精的方法,利用視覺和GPS定位線索。我們的解決方案使用自我監督的方法來學習緊湊的道路圖像表示。該表示使得能夠進行有效的視覺檢索並提供粗略的定位提示,其與車輛自我運動融合以獲得高精度的位置估計。作爲評估我們視覺定位方法性能的基準,我們引入了一個新的大型駕駛數據集,該數據集基於從大規模連接的儀表板凸輪網絡獲得的視頻和GPS數據。我們的實驗證實,我們的方法在挑戰城市環境方面非常有效,將定位誤差降低了一個數量級。

A note on 'A fully parallel 3D thinning algorithm and its applications'
Authors Tao Wang, Anup Basu
3D細化算法逐層侵蝕3D二值圖像以提取骨架。本文對Ma和Sonka的細化算法,一種完全並行的3D細化算法及其應用進行了修正,無法保持三維物體的連通性。我們從Ma和Sonka的算法開始,並檢查其連通性保護的驗證。我們的分析導致一組不同的刪除模板,可以保持3D對象的連接。

Agnostic Lane Detection
Authors Yuenan Hou
車道檢測是自動駕駛中的一項重要但具有挑戰性的任務,其受許多因素的影響,例如,光照條件,由其他車輛引起的遮擋,道路上的無關標記以及車道固有的長而薄的特性。傳統方法通常將車道檢測視爲語義分段任務,其將類標籤分配給圖像的每個像素。這種表述很大程度上取決於車道數量是預定義和固定的假設,並且沒有發生車道變換,這並不總是成立。爲了使車道檢測模型適用於任意數量的車道和車道變換場景,我們採用實例分割方法,首先區分車道和背景,然後將每個車道像素分類到每個車道實例中。此外,利用多任務學習範例來更好地利用結構信息,並且使用特徵金字塔結構來檢測極薄的通道。三種流行的通道檢測基準,即TuSimple,CULane和BDD100K,用於驗證我們提出的算法的有效性。

Learning fashion compatibility across apparel categories for outfit recommendation
Authors Luisa F. Polania, Satyajit Gupte
本文解決了在用戶對特定服裝項目感興趣的情況下生成完成服裝的建議的問題。所提出的方法基於用於特徵提取的暹羅網絡,隨後是用於學習時尚兼容性度量的完全連接的網絡。由暹羅網絡生成的嵌入增強了顏色直方圖特徵,這是由顏色在確定時尚兼容性中起重要作用所激發的。網絡的訓練被公式化爲最大後驗MAP問題,其中假設拉普拉斯分佈用於暹羅網絡的濾波器以促進稀疏性,並且假設矩陣變量正態分佈用於度量網絡的權重以有效地利用輸入之間的相關性。每個完全連接層的單元。

OpenEDS: Open Eye Dataset
Authors Stephan J. Garbin, Yiru Shen, Immo Schuetz, Robert Cavin, Gregory Hughes, Sachin S. Talathi
我們提供了一個大規模的數據集,OpenEDS Open Eye Dataset,使用虛擬現實VR頭戴式顯示器拍攝的眼睛圖像,該顯示器安裝有兩個同步的眼鏡攝像頭,在受控照明下以200Hz的幀速率。該數據集是從從152個個體參與者收集的眼睛區域的視頻捕獲中編輯的,並且被分成4個子集,12,759個圖像,其具有用於關鍵眼睛區域虹膜,瞳孔和鞏膜的像素級註釋ii 252,690個未標記的眼睛圖像,iii 91,200個來自隨機選擇的幀持續時間爲1.5秒的視頻序列和靜態143對左右點雲數據,這些數據來自從子集中收集的眼部區域的角膜地形圖,152箇中的143個參與者。已經在OpenEDS上評估了基線實驗,用於瞳孔,虹膜,鞏膜和背景的語義分割任務,平均交叉聯合mIoU爲98.3。我們預計OpenEDS將爲眼動追蹤社區和更廣泛的機器學習和計算機視覺社區的研究人員創造機會,以推進VR應用程序的眼動追蹤狀態。數據集可根據要求下載

Unsupervised automatic classification of Scanning Electron Microscopy (SEM) images of CD4+ cells with varying extent of HIV virion infection
Authors John M. Wandeto, Birgitta Dresp Langley
在數字圖書館中存檔大量醫學或細胞圖像可能需要根據特定標準對隨機分散的圖像數據集進行排序,例如特定局部顏色的空間範圍或顯示生理結構,組織的不同有意義狀態的對比內容,或以特定順序的細胞,指示病理學的進展或衰退,或細胞結構對治療的進行性反應。在這裏,我們使用了我們早期工作中描述的基於自組織地圖SOM,全自動和無監督的分類程序,並將其應用於CD4 T淋巴細胞的最小處理灰度和/或顏色處理的掃描電子顯微鏡SEM圖像,所謂的輔助細胞具有不同HIV病毒粒子感染的程度。結果表明,訓練後SOM輸出中的量化誤差允許在一系列圖像中縮放空間大小和變化方向或局部像素對比度或顏色,其可靠性超過任何人類專家的可靠性。該過程易於實施且快速,並且代表了朝向低成本自動數字圖像存檔的有希望的步驟,其中人類操作員的干預最小。

Alignment-Free Cross-Sensor Fingerprint Matching based on the Co-Occurrence of Ridge Orientations and Gabor-HoG Descriptor
Authors Helala AlShehri, Muhammad Hussain, Hatim AboAlSamh, Qazi Emad ul Haq, Aqil M. Azmi
現有的自動指紋驗證方法被設計爲在假設安裝相同的傳感器用於登記和認證常規匹配的情況下工作。當使用一種基於接觸的傳感器進行登記而另一種基於接觸的傳感器用於認證交叉匹配或指紋傳感器互操作性問題時,效率顯着降低。指紋中的脊取向圖案對於傳感器類型是不變的。基於這一觀察,我們提出了一種強健的指紋描述符,稱爲脊線方向Co Ror的共同出現,它對脊線方向的空間分佈進行編碼。利用該描述符,我們引入了一種有效的交叉匹配問題自動指紋驗證方法。此外,爲了增強該方法的魯棒性,我們通過Gabor HoG描述符合並基於尺度的脊定向信息。將兩個描述符與典型相關分析CCA融合,並使用城市街區距離計算兩個指紋之間的匹配分數。所提出的方法是無對齊的並且可以處理匹配過程而無需註冊步驟。兩個基準數據庫FingerPass和MOLF的強化實驗顯示了該方法的有效性,並揭示了其對現有技術方法的顯着增強,如VeriFinger商業SDK,細節柱面代碼MCC,帶刻度的MCC和薄板樣條TPS模型。擬議的研究將幫助安全機構,服務提供商和執法部門克服不同技術和交互類型的接觸傳感器的互操作性問題。

Inferring the Importance of Product Appearance: A Step Towards the Screenless Revolution
Authors Yongshun Gong, Jinfeng Yi, Dongdong Chen, Jian Zhang, Jiayu Zhou, Zhihua Zhou
如今,幾乎所有的在線訂單都是通過手機,平板電腦和電腦等屏蔽設備進行的。隨着物聯網物聯網和智能家電的快速發展,越來越多的無屏智能設備,例如智能揚聲器和智能冰箱,出現在我們的日常生活中。他們開闢了新的互動方式,可以爲接觸新客戶和增加銷售提供絕佳機會。然而,並非所有項目都適合無屏幕購物,因爲一些項目外觀在消費者決策中起着重要作用。典型的例子包括衣服,娃娃,包和鞋子。在本文中,我們的目的是推斷每個項目在消費者決策中的重要性,並確定適合無屏購物的項目組。具體而言,我們將問題表述爲分類任務,預測項目的外觀是否對人們的購買行爲產生重大影響。爲了解決這個問題,我們從三個不同的視圖中提取特徵,即項目內在屬性,項目圖像和用戶評論,並通過衆包收集一組必要的標籤。然後,我們提出了一個迭代半監督學習框架,其中包含三個精心設計的損失函數。我們對從在線零售巨頭收集的真實世界交易數據集進行了大量實驗

On Applying Machine Learning/Object Detection Models for Analysing Digitally Captured Physical Prototypes from Engineering Design Projects
Authors Jorgen F. Erichsen, Sampsa Kohtala, Martin Steinert, Torgeir Welo
雖然計算機視覺在過去十年中越來越受到計算機科學的關注,但很少有人將其用於工程設計研究。現有的數據集和技術使研究人員能夠捕獲和訪問更多的觀測和視頻文件,因此分析正在成爲一個限制因素。因此,本文正在研究機器學習的應用,即物體檢測方法,以幫助分析物理定型。通過從早期開發項目訪問來自850個原型的5950個圖像的大型數字捕獲物理原型數據集,作者研究了可用於分析該數據集的應用程序。作者使用物理原型圖像的自定義圖像集,從兩個已知的框架(TensorFlow對象檢測API和Darknet)中重新訓練了兩個經過預先訓練的對象檢測模型。結果,提出了四種訓練模型的概念證明,其中兩種模型用於檢測基於木材的片材樣品,兩種模型用於檢測包含微控制器的樣品。所有模型都使用標準度量對象檢測模型性能進行評估,並討論了在工程設計研究中使用對象檢測模型的適用性。結果表明,模型可以分別成功地分類材料的類型和預製組件的類型。但是,需要做更多的工作才能將對象檢測模型完全集成到工程設計分析工作流程中。作者還推斷,使用物體檢測分析物理原型圖像將大大減少在工程設計研究中分析大型數據集所需的工作量。

HAWQ: Hessian AWare Quantization of Neural Networks with Mixed-Precision
Authors Zhen Dong, Zhewei Yao, Amir Gholami, Michael Mahoney, Kurt Keutzer
模型大小和推理速度功率已經成爲許多應用中神經網絡部署的主要挑戰。解決這些問題的有希望的方法是量化。然而,將模型均勻量化到超低精度會導致顯着的精度降低。對此的新穎解決方案是使用混合精確量化,因爲與其他層相比,網絡的某些部分可能允許更低的精度。但是,沒有系統的方法來確定不同層的精度。對於深度網絡而言,強力方法是不可行的,因爲混合精度的搜索空間是層數的指數。另一個挑戰是在將模型量化爲目標精度時用於確定逐塊微調順序的類似因子複雜度。在這裏,我們介紹了Hessian AWare量化HAWQ,一種新穎的二階量化方法來解決這些問題。 HAWQ允許基於層的Hessian譜自動選擇每層的相對量化精度。此外,HAWQ基於二階信息爲量化層提供確定性微調順序。我們使用ResNet20在Cifar 10上顯示我們的方法的結果,使用Inception V3,ResNet50和SqueezeNext模型在ImageNet上顯示我們的方法的結果。將HAWQ與現有技術進行比較表明,與DNAS引用wu2018混合相比,我們可以在ResNet20上實現8倍激活壓縮比的類似更高精度,在ResNet50和Inception V3上使用多達14個較小型號可獲得高達1倍的精度最近提出的RVQuant引用方法2018值和HAQ引用wang2018haq。此外,我們展示了我們可以將SqueezeNext量化爲僅1MB的模型尺寸,同時在ImageNet上實現68以上的top1精度。

Measuring similarity between geo-tagged videos using largest common view
Authors Wei Ding, KwangSoo Yang, Kwang Woo Nam
本文提出了一種基於視頻數據視場FoV發現相似軌跡的新問題。這個問題對於許多社會應用非常重要,例如對移動物體進行分組,對地理圖像進行分類以及識別有趣的軌跡模式。先前的工作僅考慮空間位置或兩個線段之間的空間關係。然而,這些方法顯示了找到具有共同視圖的類似移動對象的限制。在本文中,我們提出了一種新的算法,可以將空間位置和視點分組,以識別類似的軌跡。我們還提出了降低所提議工作的計算成本的新方法。使用真實世界數據集的實驗結果表明,所提出的方法優於先前的工作並降低了計算成本。

Supervised Online Hashing via Hadamard Codebook Learning
Authors Mingbao Lin, Rongrong Ji, Hong Liu, Yongjian Liu
近年來,二進制代碼學習,即a.k.a散列,在大規模多媒體檢索中受到廣泛關注。它旨在將高維數據點編碼爲二進制代碼,因此可以通過漢明空間有效地近似原始高維度量空間。但是,大多數現有的散列方法採用離線批量學習,不適合處理帶有流數據或新實例的增量數據集。相比之下,現有在線哈希的魯棒性仍然是一個開放性問題,而有監督語義信息的嵌入幾乎不會提高在線哈希的性能,這主要是由於監督學習中未知類別數的缺陷。在本文中,我們提出了一種在線哈希方案,稱爲Hadamard Codebook,基於在線哈希HCOH,旨在解決上述問題,以實現健壯和有監督的在線哈希。特別地,我們首先爲每個類標籤分配適當的高維二進制代碼,該標籤由Hadamard代碼隨機生成到每個類標籤,該標籤由Hadamard代碼隨機生成。隨後,採用LSH根據哈希比特減少這種Hadamard碼的長度,這可以在線調整預定義的二進制碼,並在理論上保證語義相似性。最後,我們考慮隨機數據採集的設置,這有利於我們的方法通過隨機梯度下降SGD在線有效地學習相應的哈希函數。值得注意的是,所提出的HCOH可以嵌入有監督標籤,並且不限於預定義的類別編號。對三種廣泛使用的基準測試的廣泛實驗證明了所提出的方案優於現有技術方法的優點。

Improving Image-Based Localization with Deep Learning: The Impact of the Loss Function
Authors Isaac Ronald Ward, M. A. Asim K. Jalwana, Mohammed Bennamoun
這項工作制定了一個新的損失項,可以附加到僅RGB圖像定位網絡的損失函數,以改善其性能。當從圖像迴歸相機的姿勢時使用的常用技術是使用調諧的超參數作爲係數將損失表示爲位置和旋轉誤差的線性組合。在這項工作中,我們觀察到旋轉和位置的變化會相互影響捕獲的圖像,並且爲了提高性能,網絡丟失函數應包括一個結合位置和旋轉誤差的術語。爲此,我們設計了一個幾何損失項,它使用位置和旋轉來考慮預測和地面真實姿勢之間的相似性,並用它來增強現有的圖像定位網絡PoseNet。丟失項簡單地附加到已經存在的圖像定位網絡的損失函數。與類似的管道相比,我們實現了室內場景網絡定位精度的提高,中位數和旋轉誤差降低了9.64和2.99。

Deep AutoEncoder-based Lossy Geometry Compression for Point Clouds
Authors Wei Yan, Yiting shao, Shan Liu, Thomas H Li, Zhu Li, Ge Li
點雲是一種基本的3D表示,廣泛用於現實世界的應用,如自動駕駛。作爲一種以複雜性和不規則性爲特徵的新開發的媒體格式,點雲產生了對壓縮算法的需求,該壓縮算法比現有的編解碼器更靈活。最近,自動編碼器AE已經在許多視覺分析任務以及圖像壓縮中顯示出它們的有效性,這激勵我們在點雲壓縮中使用它。在本文中,我們提出了一種基於通用自動編碼器的架構,用於有損幾何點雲壓縮。據我們所知,它是第一個基於自動編碼器的幾何壓縮編解碼器,它直接將點雲作爲輸入而不是體素網格或圖像集合。與手工編解碼器相比,這種方法可以更快地適應以前看不見的媒體內容和媒體格式,同時實現競爭性能。我們的架構包括基於點網的編碼器,統一量化器,熵估計塊和非線性合成變換模塊。在點雲的有損幾何壓縮中,結果表明,所提出的方法優於MPEG 3DG組在第125次會議上發佈的第1類和第3類TMC13的測試模型,並且平均實現了73.15 BD速率增益。

Forecasting Pedestrian Trajectory with Machine-Annotated Training Data
Authors Olly Styles, Arun Ross, Victor Sanchez
行人軌跡的可靠預期對於自動駕駛車輛的操作是必不可少的,並且可以顯着增強高級駕駛員輔助系統的功能。雖然在行人檢測領域取得了重大進展,但由於行人的不可預測性和潛在有用特徵的巨大空間,預測行人軌跡仍然是一個具有挑戰性的問題。在這項工作中,我們提出了一種深度學習方法,用於使用單個車載攝像頭進行行人軌跡預測。已經徹底改變計算機視覺其他領域的深度學習模型在軌跡預測方面的應用有限,部分原因是由於缺乏豐富的註釋訓練數據。我們通過引入可擴展的機器註釋方案來解決缺少訓練數據的問題,該方案使我們的模型能夠使用大型數據集進行訓練而無需人工註釋。此外,我們提出動態軌跡預測器DTP,這是一種預測未來一秒鐘的行人軌跡的模型。 DTP使用人工和機器註釋數據進行訓練,並預測線性模型未捕獲的動態運動。實驗評估證實了所提出模型的好處。

What Do Single-view 3D Reconstruction Networks Learn?
Authors Maxim Tatarchenko, Stephan R. Richter, Ren Ranftl, Zhuwen Li, Vladlen Koltun, Thomas Brox
用於單視圖對象重建的卷積網絡已經顯示出令人印象深刻的性能並且已經成爲研究的熱門主題。所有現有技術通過具有編碼器解碼器網絡的想法而聯合,該編碼器解碼器網絡執行關於輸出空間的3D結構的非平凡推理。在這項工作中,我們設置了兩種分別執行圖像分類和檢索的替代方法。這些簡單的基線在質量和數量上都比現有技術方法產生更好的結果。我們示出編碼器解碼器方法在統計上與這些基線無法區分,因此指示單視圖對象重建中的現有技術實際上不執行重建而是圖像分類。我們確定了引發這種行爲的流行實驗程序的各個方面,並討論了改善當前研究狀態的方法。

Learning Loss for Active Learning
Authors Donggeun Yoo, In So Kweon
隨着更多註釋數據,深度神經網絡的性能得到改善。問題是註釋的預算是有限的。對此的一個解決方案是主動學習,其中模型要求人們註釋其認爲不確定的數據。已經提出了各種最近的方法來將主動學習應用於深度網絡,但是大多數方法要麼針對其目標任務而設計,要麼對於大型網絡而言計算效率低。在本文中,我們提出了一種新穎的主動學習方法,該方法簡單但與任務無關,並且可以與深度網絡一起高效地工作。我們將一個名爲損耗預測模塊的小參數模塊附加到目標網絡,並學習它以預測未標記輸入的目標損失。然後,該模塊可以建議目標模型可能產生錯誤預測的數據。這種方法與任務無關,因爲無論目標任務如何,都可以從單一損失中學習網絡。我們通過最近的網絡架構,通過圖像分類,對象檢測和人體姿態估計來嚴格驗證我們的方法。結果表明,我們的方法在任務上始終優於以前的方法。

Seesaw-Net: Convolution Neural Network With Uneven Group Convolution
Authors Jintao Zhang
在本文中,我們感興趣的是提高利用倒置殘差結構的卷積神經網絡的表示能力。基於倒置殘餘結構Sandler等人的成功。 2018年和Interleaved Low Rank Group Convolutions Sun et al。 2018年,我們重新思考這兩種神經網絡結構模式,而不是NAS神經網絡搜索方法Zoph和Le 2017 Pham等。 2018年劉等人。 2018b,我們引入了不均勻的點羣組卷積,它爲設計基本塊提供了新的搜索空間,以在表示能力和計算成本之間獲得更好的折衷。同時,我們提出了兩種新穎的信息流模式,它們可以實現多組卷積層的跨組信息流,有或沒有任何信道置換混洗操作。圖像分類任務的密集實驗表明,我們提出的模型,名爲Seesaw Net,以有限的計算和內存成本實現了最先進的SOTA性能。我們的代碼將是開源的,並與預先訓練的模型一起提供。

S$^\mathbf{4}$L: Self-Supervised Semi-Supervised Learning
Authors Xiaohua Zhai, Avital Oliver, Alexander Kolesnikov, Lucas Beyer
這項工作解決了圖像分類器的半監督學習問題。我們的主要觀點是半監督學習領域可以從快速發展的自我監督視覺表徵學習領域中受益。統一這兩種方法,我們提出了自監督半監督學習S 4L的框架,並用它來推導出兩種新穎的半監督圖像分類方法。我們證明了這些方法與仔細調整的基線和現有的半監督學習方法相比的有效性。然後,我們表明S 4L和現有的半監督方法可以聯合訓練,在半監督的ILSVRC 2012上產生了一種新的最先進的結果,其中有10個標籤。

TE141K: Artistic Text Benchmark for Text Effects Transfer
Authors Shuai Yang, Wenjing Wang, Jiaying Liu
文本效果是視覺元素的組合,例如輪廓,顏色和文本紋理,可以顯着改善其藝術性。儘管文本效果在設計行業中被廣泛使用,但它們通常由人類專家創建,因爲它們極其複雜,這對於普通用戶來說是費力且不實用的。近年來,已經對自動文本效果轉移進行了一些努力,然而,缺乏數據限制了轉移模型的能力。爲了解決這個問題,我們引入了一個新的文本效果數據集TE141K,總共有141,081個文本效果字形對。我們的數據集由152個專業設計的文本效果組成,在包括英文字母,漢字,阿拉伯數字等字形上呈現。據我們所知,這是迄今爲止最大的文本效果傳輸數據集。基於此數據集,我們提出了一種名爲Text Effects Transfer GAN TET GAN的基線方法,該方法支持在一個模型中傳輸所有152種樣式,並可以有效地擴展到新樣式。最後,我們進行了全面的比較,其中14種風格轉移模型進行了基準測試。實驗結果證明了TET GAN在質量和數量上的優越性,並表明我們的數據集是有效和具有挑戰性的。

Liver Lesion Segmentation with slice-wise 2D Tiramisu and Tversky loss function
Authors Karsten Roth, Tomasz Konopczy ski, J rgen Hesser
目前,病變分割仍由醫學專家手動或半自動進行。爲了促進這一過程,我們提供了一個全自動的病變分割管道。這項工作提出了一種方法,作爲針對ISBI 17和MICCAI 17的LiTS肝腫瘤分割挑戰競賽的一部分,比較CT掃描中肝臟病變的自動化評估方法。通過利用級聯,密集連接的2D U網和基於Tversky係數的損耗函數,我們的框架實現了非常好的形狀提取,具有高檢測靈敏度,在發佈時具有競爭性分數。此外,在我們的Tversky丟失中調整超參數可以將網絡調整爲更高的靈敏度或穩健性。

Intra-frame Object Tracking by Deblatting
Authors Jan Kotera, Denys Rozumnyi, Filip roubek, Ji Matas
沿着複雜軌跡高速移動的物體經常出現在視頻中,尤其是體育視頻。這些物體在單個幀的曝光時間期間經過不可忽略的距離,因此它們在幀中的位置沒有很好地限定。由於運動模糊,它們顯示爲半透明條紋,並且無法通過標準跟蹤器可靠地跟蹤。我們基於觀察到運動模糊與物體的幀內軌跡直接相關,提出了一種稱爲Deblatting跟蹤的新方法。通過解決兩個相互交織的反問題,盲目去模糊和圖像消光來估計模糊,我們稱之爲解卷。然後通過擬合分段二次曲線來估計軌跡,該曲線模擬物理上合理的軌跡。結果,跟蹤對象被精確定位,具有比傳統跟蹤器更高的時間分辨率。所提出的TbD跟蹤器是在新創建的視頻數據集上進行評估的,該視頻具有地面實況,由高速攝像機使用新的軌跡IoU度量獲得,該度量推廣了傳統的聯盟交叉點並測量幀內軌跡的準確性。所提出的方法在回憶和軌跡準確性方面都優於基線。

Fast and Efficient Zero-Learning Image Fusion
Authors Fayez Lahoud, Sabine S sstrunk
我們提出了一種使用預訓練神經網絡的實時圖像融合方法。我們的方法生成包含來自多個源的特徵的單個圖像。我們首先將圖像分解爲表示大規模強度變化的基礎層,以及包含小規模變化的細節層。我們使用視覺顯着性融合基礎層,並從預先訓練的神經網絡中提取深度特徵圖以融合細節層。我們進行消融研究以分析我們的方法參數,例如分解濾波器,重量構建方法,網絡深度和架構。然後,我們驗證其在熱,醫療和多焦點融合方面的有效性和速度。我們還將其應用於多個圖像輸入,例如多重曝光序列。實驗結果表明,我們的技術在視覺質量,客觀評估和運行時效率方面達到了最先進的性能。

Learning Representations for Predicting Future Activities
Authors Mohammadreza Zolfaghari, zg n i ek, Syed Mohsin Ali, Farzaneh Mahdisoltani, Can Zhang, Thomas Brox
預見未來是智力的關鍵因素之一。它涉及對過去和當前環境的理解以及對其可能動態的體面經驗。在這項工作中,我們在抽象的活動層面上討論未來的預測。我們提出了一個網絡模塊,用於以自我監督的方式學習環境動態的嵌入。爲了將未來活動中的含糊不清和高度差異考慮在內,我們使用可以代表多個未來的多假設方案。我們通過對Epic Kitchens and Breakfast數據集的未來活動進行分類來演示該方法。此外,我們生成描述未來活動的字幕

Feature Extraction and Classification Based on Spatial-Spectral ConvLSTM Neural Network for Hyperspectral Images
Authors Wen Shuai Hu, Heng Chao Li, Lei Pan, Wei Li, Ran Tao, Qian Du
近年來,深度學習在高光譜圖像HSI分類方面取得了很大進展。特別地,長短期記憶LSTM作爲一種特殊的深度學習結構,在視頻時間維度或HSI頻譜維度的長期依賴性建模方面表現出很強的能力。然而,空間信息的丟失使得獲得更好的性能變得非常困難。爲了解決這個問題,提出了兩種新的深度模型,通過首次利用卷積LSTM ConvLSTM來提取更具辨別力的空間光譜特徵。通過將局部滑動窗口中的數據塊作爲每個存儲器單元帶的輸入,LSTM的2D擴展架構被考慮用於構建空間譜ConvLSTM 2 D神經網絡SSCL2DNN以模擬譜域中的​​長程依賴性。 。爲了更有效地利用空間和光譜信息來提取更具辨別力的空間光譜特徵表示,通過將LSTM擴展到3D版本,進一步提出了空間光譜ConvLSTM 3D神經網絡SSCL3DNN。在三個常用的HSI數據集上進行的實驗表明,所提出的深度模型具有一定的競爭優勢,並且可以提供比其他現有技術方法更好的分類性能。

D2-Net: A Trainable CNN for Joint Detection and Description of Local Features
Authors Mihai Dusmanu, Ignacio Rocco, Tomas Pajdla, Marc Pollefeys, Josef Sivic, Akihiko Torii, Torsten Sattler
在這項工作中,我們解決了在困難的成像條件下找到可靠的像素級對應的問題。我們提出了一種方法,其中單個卷積神經網絡起雙重作用。它同時是一個密集的特徵描述符和一個特徵檢測器。通過將檢測推遲到後期階段,基於早期檢測低水平結構,獲得的關鍵點比其傳統對應點更穩定。我們表明,可以使用從容易獲得的大規模SfM重建中提取的像素對應來訓練該模型,而無需任何進一步的註釋。所提出的方法在困難的亞琛日夜間定位數據集和InLoc室內定位基準測試中獲得最先進的性能,以及用於圖像匹配和3D重建的其他基準的競爭性能。

Cycle-IR: Deep Cyclic Image Retargeting
Authors Weimin Tan, Bo Yan, Chumin Lin, Xuejing Niu
由於擺脫了手工製作表達的限制,監督深度學習技術在各個領域取得了巨大成功。然而,大多數先前的圖像重定目標算法仍然採用固定的設計原則,例如使用梯度圖或手工製作的特徵來計算顯着性圖,這不可避免地限制了它的一般性。深度學習技術可能有助於解決這個問題,但具有挑戰性的問題是我們需要構建一個大規模的圖像重定向數據集,用於深度重定向模型的訓練。然而,構建這樣的數據集需要巨大的人力。

Embedding Human Knowledge in Deep Neural Network via Attention Map
Authors Masahiro Mitsuhara, Hiroshi Fukui, Yusuke Sakashita, Takanori Ogata, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi
循環中的人HITL將人類知識引入機器學習,已用於細粒度識別,以根據局部特徵的差異來估計類別。傳統的HITL方法已成功應用於非深度機器學習,但由於模型參數數量衆多,很難將其用於深度學習。爲了解決這個問題,在本文中,我們建議使用注意分支網絡ABN,它是一種視覺解釋模型。 ABN將注意力映射用於視覺解釋到注意機制。首先,我們根據人類知識手動修改從ABN獲得的注意力圖。然後,我們將修改後的注意力映射用於使ABN能夠調整識別分數的注意機制。其次,爲了將HITL應用於深度學習,我們提出了一種使用修改後的注意力圖的微調方法。我們的微調通過使用從ABN輸出的關注圖計算的訓練損失以及修改的注意力圖來更新ABN的注意力和感知分支。該微調使得ABN能夠輸出與人類知識相對應的關注圖。此外,我們使用更新的注意力圖及其嵌入的人類知識作爲感知分支的注意機制和推理,從而提高了ABN的性能。使用ImageNet數據集,CUB 200 2010數據集和IDRiD的實驗結果表明,我們的方法在視覺解釋方面闡明瞭注意力圖,並提高了分類性能。

Grand Challenge of 106-Point Facial Landmark Localization
Authors Yinglu Liu, Hao Shen, Yue Si, Xiaobo Wang, Xiangyu Zhu, Hailin Shi, Zhibin Hong, Hanqi Guo, Ziyuan Guo, Yanqin Chen, Bi Li, Teng Xi, Jun Yu, Haonian Xie, Guochen Xie, Mengyan Li, Qing Lu, Zengfu Wang, Shenqi Lai, Zhenhua Chai, Xiaoming Wei
面部地標定位是衆多面部相關應用中非常關鍵的一步,例如面部識別,面部姿勢估計,面部圖像合成等。然而,之前的面部地標定位競賽,即300 W,300 VW和Menpo挑戰旨在預測68點標誌,這些標誌無法描繪面部組件的結構。爲了克服這個問題,我們構建了一個具有挑戰性的數據集,名爲JD landmark。每個圖像都用106個點標記手動註釋。該數據集涵蓋了姿勢和表情的大變化,這給預測準確的地標帶來了很多困難。我們在此數據集上與IEEE國際多媒體和博覽會ICME 2019一起舉辦了一場106點的面部地標本地化競賽1。本次比賽的目的是發現有效且強大的面部地標本地化方法。

Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information
Authors Kai Su, Dongdong Yu, Zhenqi Xu, Xin Geng, Changhu Wang
多人姿勢估計是計算機視覺中的一個重要但具有挑戰性的問題。儘管當前的方法通過融合多尺度特徵圖而取得了顯着進步,但是他們很少關注增強特徵圖的頻道和空間信息。在本文中,我們提出了兩個新的模塊來執行多人姿勢估計的信息增強。首先,提出了一種信道混洗模塊CSM,對不同級別的特徵映射採用信道混洗操作,促進金字塔特徵映射之間的跨信道信息通信。其次,空間,通道明智的注意殘留瓶頸SCARB旨在通過注意機制來增強原始殘差單元,在空間和通道明智的上下文中自適應地突出特徵圖的信息。我們提出的模塊的有效性在COCO關鍵點基準上進行評估,實驗結果表明我們的方法達到了最先進的結果。

DistillHash: Unsupervised Deep Hashing by Distilling Data Pairs
Authors Erkun Yang, Tongliang Liu, Cheng Deng, Wei Liu, Dacheng Tao
由於高存儲和搜索效率,散列已經成爲大規模相似性搜索的普遍現象。特別是,深度散列方法極大地提高了監督場景下的搜索性能。相反,由於缺乏可靠的監督相似性信號,無監督的深度散列模型很難實現令人滿意的性能。爲了解決這個問題,我們提出了一種新的深度無監督散列模型,稱爲DistillHash,它可以學習由具有置信相似性信號的數據對組成的蒸餾數據集。具體地,我們研究了從局部結構學習的初始噪聲相似性信號與由貝葉斯最優分類器分配的語義相似性標籤之間的關係。我們表明,在一個溫和的假設下,一些數據對,其標籤與貝葉斯最優分類器指定的標籤一致,可以被潛在地提煉出來。受此事實的啓發,我們設計了一種簡單而有效的策略來自動提取數據對,並進一步採用貝葉斯學習框架從蒸餾數據集中學習哈希函數。三個廣泛使用的基準數據集的廣泛實驗結果表明,提出的DistillHash始終如一地完成了最先進的搜索性能。

Two-Stage Convolutional Neural Network Architecture for Lung Nodule Detection
Authors Haichao Cao, Hong Liu, Enmin Song, Guangzhi Ma, Xiangyang Xu, Renchao Jin, Tengying Liu, Chih Cheng Hung
早期發現肺癌是提高患者生存率的有效方法。在計算機斷層掃描CT圖像中準確檢測肺結節是診斷肺癌的關鍵步驟。然而,由於肺結節的異質性和周圍環境的複雜性,強大的結節檢測一直是一項具有挑戰性的任務。在這項研究中,我們提出了一種用於肺結節檢測的兩階段卷積神經網絡TSCNN架構。第一階段的CNN架構基於改進的UNet分段網絡,以建立肺結節的初始檢測。同時,爲了在不引入過多假陽性結節的情況下獲得高召回率,我們提出了一種新的抽樣策略,並根據所提出的級聯預測方法使用離線硬挖掘思想進行訓練和預測。第二階段的CNN架構基於所提出的雙池結構,其被構建到三個3D CNN分類網絡中以用於誤報減少。由於網絡訓練需要大量的訓練數據,我們採用基於隨機掩碼的數據增強方法。此外,我們通過集成學習提高了誤報模型的泛化能力。所提出的方法已經在LUNA數據集上進行了實驗驗證。實驗結果表明,所提出的TSCNN架構可以獲得有競爭力的檢測性能。

ROSA: Robust Salient Object Detection against Adversarial Attacks
Authors Haofeng Li, Guanbin Li, Yizhou Yu
最近,由於深度卷積神經網絡可以獲得強大的圖像特徵,因此顯着物體檢測已經見證了顯着的改進。特別地,現有技術的顯着對象檢測方法從完全基於卷積網絡FCN的框架獲得高精度和高效率,所述框架從端到端訓練並預測像素方式標籤。然而,這種框架遭受對抗性攻擊,這種攻擊通過向輸入圖像添加準不可察覺的噪聲來混淆神經網絡而不改變由人類對象註釋的地面實況。據我們所知,本文是第一個對顯着對象檢測模型進行成功的對抗性攻擊並驗證對抗性樣本對廣泛的現有方法有效的方法。此外,本文提出了一種新穎的端到端可訓練框架,以增強任意基於FCN的顯着對象檢測模型對抗對抗性攻擊的魯棒性。所提出的框架採用了一種新穎的思想,即首先引入一些新的通用噪聲來破壞對抗性擾動,然後學習用引入的噪聲預測輸入圖像的顯着性圖。具體而言,我們提出的方法包括分段屏蔽組件,其保留邊界並破壞精細的對抗性噪聲模式和環境感知恢復組件,其通過全局對比度建模來細化顯着性圖。實驗結果表明,我們提出的框架可以顯着提高一系列數據集中最先進模型的性能。

Frustratingly Easy Person Re-Identification: Generalizing Person Re-ID in Practice
Authors Jieru Jia, Qiuqi Ruan, Timothy M. Hospedales
當代人識別Re ID方法通常需要在訓練期間從部署攝像機網絡訪問數據以便表現良好。這是因爲在一個數據集上訓練的當代Re ID模型由於數據集之間的域移位而不能推廣到其他相機網絡。此要求通常是在實際安全性或商業應用中部署Re ID系統的瓶頸,因爲可能無法提前收集這些數據或者對其進行註釋成本過高。本文通過提出一個簡單的域可泛化DG人員識別基線來緩解這個問題。也就是說,從一組源域中學習Re ID模型,該模型適用於開箱即用的未見數據集,無需任何模型更新。具體來說,我們發現Re ID中的域差異是由於數據集之間的樣式和內容差異造成的,並且演示了適當的實例和特徵規範化可以減輕Deep Re ID模型中的大部分域轉換。早期層中的實例規範化IN過濾掉樣式統計變化,深層中的特徵規範化FN能夠進一步消除內容統計中的差異。與現代替代方案相比,這種方法實施起來非常簡單,同時可以更快地進行訓練和測試,從而使其成爲在實踐中實施Re ID的極有價值的基準。通過幾行代碼,它分別在VIPeR,PRID,GRID和i LIDS基準測試中將秩1 Re ID精度提高了11.7,28.9,10.1和6.3。源代碼將可用。

Deep Learning Acceleration Techniques for Real Time Mobile Vision Applications
Authors Gael Kamdem De Teyou
深度學習DL已成爲人工智能AI的關鍵技術。它是一種從複雜數據中自動提取高級特徵的強大技術,可用於計算機視覺,自然語言處理,網絡安全,通信等應用程序。對於計算機視覺的特定情況,已經提出了幾種算法,例如實時視頻中的對象檢測,並且它們在桌面GPU和分佈式計算平臺上運行良好。然而,這些算法對於移動和嵌入式視覺應用仍然很重要。智能便攜設備和新興5G網絡的快速普及正在移動環境中引入新的智能多媒體應用。因此,在移動環境中實現深度神經網絡的可能性吸引了許多研究人員。本文介紹了新興的深度學習加速技術,可以隨時隨地將實時視覺識別交付給最終用戶。

PPGNet: Learning Point-Pair Graph for Line Segment Detection
Authors Ziheng Zhang, Zhengxin Li, Ning Bi, Jia Zheng, Jinlei Wang, Kun Huang, Weixin Luo, Yanyu Xu, Shenghua Gao
在本文中,我們提出了一種新的框架來檢測人造環境中的線段。具體而言,我們建議用簡單的圖形描述它們之間的連接點,線段和關係,這比現有線段檢測方法中使用的端點表示更具結構性和信息性。爲了從圖像中提取線段圖,我們進一步介紹了PPGNet,一種卷積神經網絡,可直接從圖像中推斷圖形。我們在已發佈的基準測試中評估我們的方法,包括York Urban和Wireframe數據集。結果表明,我們的方法達到了令人滿意的性能,並在所有基準上得到了很好的推廣。我們的工作源代碼可在網址找到

A Dual Path ModelWith Adaptive Attention For Vehicle Re-Identification
Authors Pirazh Khorramshahi, Amit Kumar, Neehar Peri, Sai Saketh Rambhatla, Jun Cheng Chen, Rama Chellappa
近年來,注意力模型已廣泛用於人員和車輛識別。大多數重新識別方法旨在將注意力集中在關鍵點位置。但是,根據方向,每個關鍵點的貢獻會有所不同。在本文中,我們提出了一種新的車輛重新識別AAVER雙路徑自適應注意模型。全局外觀路徑捕獲宏觀車輛特徵,而定向條件部分外觀路徑通過關注最信息的關鍵點來學習捕捉局部判別特徵。通過大量實驗,我們證明了所提出的AAVER方法能夠在無約束的情景中準確地識別車輛,在挑戰性數據集VeRi 776上產生最先進的結果。作爲副產品,所提出的系統還能夠準確地預測車輛鑰匙。在現有技術水平上顯示出超過7的改進。

Weakly Labeling the Antarctic: The Penguin Colony Case
Authors Hieu Le, Bento Gon alves, Dimitris Samaras, Heather Lynch
南極企鵝是重要的生態指標,特別是在氣候變化面前。在這項工作中,我們提出了一個基於深度學習的模型,用於高分辨率衛星圖像中廣告謊言企鵝殖民地的語義分割。爲了訓練我們的分割模型,我們利用Penguin Colony Dataset這個獨特的數據集,其中包含來自南極洲193個Ad lie企鵝羣的2044個地理參考裁剪圖像。面對像素級註釋掩模的稀缺性,我們提出了一種弱監督框架,可以有效地從弱標籤中學習分割模型。我們使用分類網絡來過濾掉不適合分段網絡的數據。基於平均激活,該分割網絡利用特定的損失函數進行訓練,以有效地從具有弱註釋標籤的數據中學習。我們的實驗表明,添加弱註釋的訓練樣例顯着提高了分割性能,在企鵝羣數據集上將平均交叉聯盟從42.3增加到60.0。

Deep Closest Point: Learning Representations for Point Cloud Registration
Authors Yue Wang, Justin M. Solomon
點雲註冊是應用於機器人,醫學成像和其他應用的計算機視覺的關鍵問題。這個問題涉及找到從一個點雲到另一個點的剛性轉換,以便它們對齊。迭代最近點ICP及其變體爲此任務提供了簡單且易於實現的迭代方法,但這些算法可以收斂到虛假的局部最優。爲了解決ICP管道中的局部最優和其他困難,我們提出了一種基於學習的方法,名爲Deep Closest Point DCP,受近期計算機視覺和自然語言處理技術的啓發。我們的模型包括三個部分:點雲嵌入網絡,基於注意的模塊與指針生成層相結合,近似組合匹配,以及可微分奇異值分解SVD層,以提取最終的剛性變換。我們在ModelNet40數據集上端到端地訓練我們的模型,並在幾個設置中顯示它比ICP更好,其變體例如Go ICP,FGR和最近提出的基於學習的方法PointNetLK。除了提供最先進的配準技術外,我們還評估了我們學到的特徵轉移到看不見的物體的適用性。我們還對我們的學習模型進行初步分析,以幫助瞭解特定領域和/或全局特徵是否有助於嚴格註冊。

Advancements in Image Classification using Convolutional Neural Network
Authors Farhana Sultana, A. Sufian, Paramartha Dutta
卷積神經網絡CNN是圖像分類任務的最新技術。在這裏,我們簡要討論了CNN的不同組件。在本文中,我們已經解釋了用於圖像分類的不同CNN架構。通過本文,我們展示了從LeNet 5到最新SENet模型的CNN的進步。我們已經討論了每個模型的模型描述和培訓細節。我們還對這些模型進行了比較。

Handheld Multi-Frame Super-Resolution
Authors Bartlomiej Wronski, Ignacio Garcia Dorado, Manfred Ernst, Damien Kelly, Michael Krainin, Chia Kai Liang, Marc Levoy, Peyman Milanfar
與DSLR相機相比,智能手機相機具有更小的傳感器,這限制了它們的空間分辨率更小的孔徑,這限制了它們的聚光能力和更小的像素,這降低了它們的信噪比。使用濾色器陣列CFA需要去馬賽克,這進一步降低了分辨率。在本文中,我們用單幀和突發攝影管道取代傳統的去馬賽克,採用多幀超分辨率算法,直接從一連串CFA原始圖像創建完整的RGB圖像。我們利用手持攝影中典型的自然手震,獲得一小段偏移的原始幀。然後對齊併合並這些幀以形成在每個像素位置處具有紅色,綠色和藍色值的單個圖像。該方法不包括明確的去馬賽克步驟,用於增加圖像分辨率和提高信噪比。我們的算法對於具有挑戰性的場景條件局部運動,遮擋或場景變化具有魯棒性。它在大規模生產的手機上每1200萬像素RAW輸入突發幀運行100毫秒。具體來說,該算法是Super Res Zoom功能的基礎,以及Night Sight模式下的默認合併方法,無論是否在Google的旗艦手機上進行縮放。

The Effect of Network Width on Stochastic Gradient Descent and Generalization: an Empirical Study
Authors Daniel S. Park, Jascha Sohl Dickstein, Quoc V. Le, Samuel L. Smith
我們研究了隨機梯度下降所發現的最終參數如何受到過度參數化的影響。我們通過增加基礎網絡中的通道數來生成模型族,然後執行大型超參數搜索以研究測試錯誤如何取決於學習速率,批量大小和網絡寬度。我們發現最佳SGD超參數由歸一化噪聲標度確定,標準化噪聲標度是批量大小,學習速率和初始化條件的函數。在沒有批量歸一化的情況下,最佳歸一化噪聲標度與寬度成正比。更寬的網絡具有更高的最佳噪聲標度,也可以實現更高的測試精度。這些觀察結果適用於MLP,ConvNets和ResNets,以及兩種不同的參數化方案Standard和NTK。我們觀察到ResNets的批量標準化的類似趨勢。令人驚訝的是,由於最大的穩定學習速率是有界的,因此隨着寬度增加,與最佳歸一化噪聲標度一致的最大批量大小減小。

Differentiable Approximation Bridges For Training Networks Containing Non-Differentiable Functions
Authors Jason Ramapuram, Russ Webb
現代神經網絡訓練依賴於分段子微分函數,以便使用反向推進來有效地計算梯度。在這項工作中,我們引入了一種新方法,允許在深度神經網絡的中間層進行不可微函數。我們通過引入可微分近似橋DAB神經網絡來實現這一點,該神經網絡提供了對非可微函數梯度的平滑近似。我們提出了強大的實證結果,在三個不同的領域進行了600多次實驗,無監督圖像表示學習,圖像分類和序列分類,以證明我們提出的方法提高了現有技術的性能。我們證明在無監督圖像表示學習中利用非可微函數可以將重建質量和後線性可分性提高10倍。在具有非線性排序的圖像分類設置中,我們還觀察到神經序列分類中的精確度提高77和針對直通估計器3的改進。這項工作使得能夠使用以前在神經網絡中不可用的功能。

A Novel Adaptive Kernel for the RBF Neural Networks
Authors Shujaat Khan, Imran Naseem, Roberto Togneri, Mohammed Bennamoun
在本文中,我們提出了一種新的徑向基函數RBF神經網絡自適應核。所提出的核自適應地融合歐幾里德和餘弦距離度量以利用兩者的往復特性。所提出的框架使用梯度下降方法動態地調整參與內核的權重,從而減輕對預定權重的需要。所提出的方法在三個主要估計問題即非線性系統識別,模式分類和函數逼近方面表現優於內核的手動融合。

MAP Inference via L2-Sphere Linear Program Reformulation
Authors Baoyuan Wu, Li Shen, Bernard Ghanem, Tong Zhang
最大後驗MAP推斷是圖形模型的重要任務。由於實際模型中變量之間的複雜依賴性,找到MAP推理的精確解決方案通常是難以處理的。因此,已經開發了許多近似方法,其中基於線性編程LP弛豫的方法顯示出有希望的性能。然而,LP鬆弛的一個主要缺點是可以提供分數溶液。在這項工作中,我們建議對原始MAP推理問題進行連續但等效的重新設計,而不是提出更嚴格的放鬆,稱爲LS LP。我們將L2球體約束添加到原始LP鬆弛上,導致與局部邊緣多面體相交的空間相當於所有有效整數標籤配置的空間。因此,LS LP等同於原始MAP推理問題。我們提出了乘法器ADMM算法的擾動交替方向方法,通過在目標函數和約束上添加足夠小的擾動ε來優化LS LP問題。我們證明了擾動的ADMM算法全局收斂於LS LP問題的epsilon Karush Kuhn Tucker epsilon KKT點。還將分析收斂率。來自概率推理挑戰PIC 2011和OpenGM 2的若干基準數據集的實驗顯示了我們提出的方法對現有技術MAP推理方法的競爭性能。

Adversarial Image Translation: Unrestricted Adversarial Examples in Face Recognition Systems
Authors Kazuya Kakizaki, Kosuke Yoshida
由於深度神經網絡DNN的最新進展,人臉識別系統在大量人臉圖像的分類中實現了高精度。然而,最近的研究表明,DNN可能容易受到對抗性的影響,並引起人們對人臉識別系統穩健性的擔憂。特別是不受小擾動限制的對抗性例子可能是更嚴重的風險,因爲傳統的認證防禦可能對它們無效。爲了揭示人臉識別系統對這種類型的對抗性示例的脆弱性,我們提出了一種靈活有效的方法,使用圖像轉換技術生成無限制的對抗性示例。我們的方法使我們能夠將源轉換爲任何具有大擾動的所需面部外觀,從而可以欺騙目標人臉識別系統。我們通過實驗證明,我們的方法分別在白色和黑色框設置下實現了大約90和30次攻擊成功率。我們還說明,我們生成的圖像在感知上是真實的並且保持個人身份,而擾動大到足以擊敗經過認證的防禦。

Learning to Evolve
Authors Jan Schuchardt, Vladimir Golkov, Daniel Cremers
進化和學習是生活爲了生存和超越限制而適應的兩個基本機制。這些生物現象啓發了成功的計算方法,如進化算法和深度學習。進化依賴於隨機突變和隨機遺傳重組。在這裏,我們表明學習進化,即學習比隨機更好地變異和重組,改善了每代健康增加的進化結果,甚至在可達到的適應性方面。我們使用深度強化學習來學習動態調整進化算法的策略以適應不同的環境。我們的方法在組合和連續優化問題上優於經典的進化算法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


在這裏插入圖片描述
pic from bing.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章