【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

AI視野·今日CS.CV 計算機視覺論文速覽
Fri, 17 Jan 2020
Totally 62 papers
👉上期速覽更多精彩請移步主頁

在這裏插入圖片描述

Interesting:

📚****圖像分割綜述, (from NYU et.al)
在這裏插入圖片描述

//作者們:
https://personal.utdallas.edu/~kehtar/ 
http://web.cs.ucla.edu/~dt/
https://www.umbc.edu/rssipl/people/aplaza/
http://www.porikli.com/
segmentation: http://www.csd.uwo.ca/~yuri/index.html
https://sites.google.com/site/shervinminaee/home

📚***參數化圖像提升方法, (from Tel Aviv University facebook)
在這裏插入圖片描述

📚**MeliusNet二進制神經網絡超過MobileNet, (from 波茨坦大學 阿里巴巴 )
在這裏插入圖片描述在這裏插入圖片描述

📚**Wi2V基於wifi信號生成視頻, (from Amirkabir University of Technology Iran)
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

📚三維位置估計, (from Technical University of Berlin 柏林)
在這裏插入圖片描述

📚自動駕駛中天氣擾動的影響, (from IIT 印度)
在這裏插入圖片描述

📚**PDANet基於金字塔的人羣計數方法, (from University of Technology Sydney)
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述

📚SketchDesc基於草圖的局域多視角描述子學習, (from 香港城市大學)
在這裏插入圖片描述

📚基於殘差注意力的細胞邊緣檢測和分割, (from 哥倫比亞大學)
在這裏插入圖片描述

多源數據融合框架
在這裏插入圖片描述

逆問題的相關論文:
Learning Inverse Depth Regression
在這裏插入圖片描述
Computational Mirrors
在這裏插入圖片描述
Inverse Graphics
在這裏插入圖片描述
Solving Forward and Inverse Problems Using Autoencoders
Learned SVD: solving inverse problems via hybrid autoencoding
The troublesome kernel: why deep learning for inverse problems is typically unstable
Deep Learning-based Solvability of Underdetermined Inverse Problems


Daily Computer Vision Papers

A Common Operating Picture Framework Leveraging Data Fusion and Deep Learning
Authors Benjamin Ortiz, David Lindenbaum, Joseph Nassar, Brendan Lammers, John Wahl, Robert Mangum, Margaret Smith, Marc Bosch
組織開始意識到數據和數據驅動算法模型的結合功能,以獲取洞察力,態勢感知並推進其任務。獲得見解的一個常見挑戰是連接固有的不同數據集。這些數據集例如地理編碼功能,視頻流,原始文本,社交網絡數據等分別提供了非常狹窄的答案,但是它們可以共同提供新功能。在這項工作中,我們提出了一個數據融合框架,用於加速處理,開發和傳播PED解決方案。我們的平臺是一個服務集合,可通過利用深度學習和其他處理方式從多個數據源中分別提取信息。此信息由一組分析引擎合併,這些引擎執行數據關聯,搜索和其他建模操作,以合併來自不同數據源的信息。結果,感興趣的事件被檢測,地理定位,記錄並呈現爲共同的操作畫面。這種通用的操作畫面使用戶可以實時地可視化所有數據源,每個數據源都是單獨的以及它們的集體協作。此外,法醫活動已經實施並通過該框架提供。用戶可以查看存檔的結果,並將其與操作環境的最新快照進行比較。在我們的第一次迭代中,我們專注於視覺數據FMV,WAMI,CCTV PTZ攝像機,開源視頻等,以及AIS數據流衛星和地面源。作爲概念的證明,在我們的實驗中,我們展示瞭如何將FMV檢測與來自AIS來源的船隻跟蹤信號相結合,以確認身份,進行提示和提示空中偵察,並監視區域中的船隻活動。

Contextual Sense Making by Fusing Scene Classification, Detections, and Events in Full Motion Video
Authors Marc Bosch, Joseph Nassar, Benjamin Ortiz, Brendan Lammers, David Lindenbaum, John Wahl, Robert Mangum, Margaret Smith
隨着成像傳感器的激增,多模式成像的數量遠遠超過了人類分析者充分利用和利用它的能力。全動態視頻FMV面臨的挑戰是包含大量冗餘時間數據。我們旨在滿足人類分析師使用空中FMV來消費和利用數據的需求。我們已經研究並設計了一種系統,該系統能夠檢測與給定的FMV進給值偏離觀察的基線模式的事件和活動。我們已將問題分爲三個任務:上下文感知,2對象分類和3事件檢測。上下文感知的目的是限制視頻數據中的視覺搜索和檢測問題。自定義圖像分類器使用一個或多個標籤對場景進行分類,以標識操作上下文和環境。此步驟有助於減少下游任務的語義搜索空間,以提高其準確性。第二步是對象分類,其中一組對象檢測器定位並標記在場景中發現的人,車輛,船,飛機,建築物等中的任何已知對象。最後,上下文信息和檢測信息將發送到事件檢測引擎,以監視某些行爲。一系列分析通過跟蹤對象計數和對象交互來監視場景。如果未聲明這些對象交互在當前場景中普遍可見,則系統將報告,地理定位和記錄事件。感興趣的事件包括識別聚會或人羣的聚會,在海灘上有船卸下貨物時發出警報,進入建築物的人數增加,人們進出感興趣的車輛的人數等等。已將我們的方法應用於來自不同地理區域的不同分辨率的不同傳感器的數據。

Continual Learning for Domain Adaptation in Chest X-ray Classification
Authors Matthias Lenga, Heinrich Schulz, Axel Saalbach
在過去的幾年中,深度學習已成功應用於廣泛的醫療應用中。尤其是在胸部X射線分類的情況下,已報道的結果與經驗豐富的放射科醫生相當,甚至更高。儘管在受控的實驗環境中取得了成功,但已經注意到,深度學習模型將來自具有潛在不同任務的新域中的數據概括化的能力通常受到限制。爲了解決這一挑戰,我們研究了持續學習CL領域的技術,包括聯合訓練JT,彈性重量合併EWC和“學習不忘LWF”。使用ChestX ray14和MIMIC CXR數據集,我們從經驗上證明了這些方法提供了有希望的選擇,以改善目標域上的深度學習模型的性能並有效緩解源域的災難性遺忘。爲此,使用JT可獲得最佳的整體性能,而對於LWF,即使不從源域訪問數據也可以取得競爭性結果。

Assessing Robustness of Deep learning Methods in Dermatological Workflow
Authors Sourav Mishra, Subhajit Chaudhary, Hideaki Imaizumi, Toshihiko Yamasaki
本文旨在評估當前深度學習方法對臨牀工作流程的適用性,尤其是關注皮膚病學。儘管嘗試了深度學習方法以在幾種單獨的情況下獲得皮膚科醫生水平的準確性,但尚未針對常見的臨牀不適進行嚴格的測試。大多數項目都涉及在良好控制的實驗室條件下獲取的數據。在相應的圖像質量並不總是理想的情況下,這可能無法反映出常規的臨牀評估。我們通過在十種疾病的用戶提交圖像上模擬非理想特徵來測試深度學習方法的魯棒性。通過模擬條件進行評估,儘管訓練有素,但在許多情況下,我們發現整體準確性下降,並且各個預測都發生了顯着變化。

Show, Recall, and Tell: Image Captioning with Recall Mechanism
Authors Li Wang, Zechen Bai, Yonghua Zhang, Hongtao Lu
在圖像字幕中生成自然而準確的描述一直是一個挑戰。在本文中,我們提出了一種新穎的召回機制,以模仿人類行爲字幕的方式。我們的召回機制召回單元包括三個部分:語義指南SG和被召回的單詞槽RWS。召回單元是文本檢索模塊,旨在檢索圖像的召回詞。 SG和RWS的設計旨在最大程度地利用召回的單詞。 SG分支可以生成召回的上下文,這可以指導字幕的生成過程。 RWS分支負責將調用的單詞複製到標題。通過在文本摘要中指出機制的啓發,我們採用了一種軟開關來平衡SG和RWS之間生成的單詞概率。在CIDEr優化步驟中,我們還引入了一個個體化的單詞獎勵WR來增強訓練。我們建議的SG RWS WR方法在MSCOCO Karpathytest分割上實現BLEU 4 CIDEr SPICE得分爲36.6 116.9 21.3(具有交叉熵損失)和38.7 129.1 22.4(具有CIDEr優化),這超過了其他方法的結果。

Filter Grafting for Deep Neural Networks
Authors Fanxu Meng, Hao Cheng, Ke Li, Zhixin Xu, Rongrong Ji, Xing Sun, Gaungming Lu
本文提出了一種稱爲過濾器嫁接的新學習範例,旨在提高深度神經網絡DNN的表示能力。動機是DNN具有不重要的無效過濾器,例如l1範數接近0。這些過濾器限制了DNN的潛力,因爲它們被認爲對網絡影響不大。儘管出於效率考慮,過濾器修剪會刪除這些無效的過濾器,但從提高精度的角度來看,過濾器嫁接會重新激活它們。通過將外部信息權重移植到無效過濾器中來處理激活。爲了更好地執行嫁接過程,我們開發了一種基於熵的標準來測量過濾器的信息,並提出了一種自適應加權策略來平衡網絡之間的嫁接信息。嫁接操作之後,與原始狀態相比,網絡具有很少的無效過濾器,從而爲模型提供了更多的表示能力。我們還對分類和識別任務進行了廣泛的實驗,以證明我們方法的優越性。例如,在CIFAR 100數據集上,嫁接的MobileNetV2優於非嫁接的MobileNetV2約7%。

Ensemble based discriminative models for Visual Dialog Challenge 2018
Authors Shubham Agarwal, Raghav Goyal
這份手稿描述了我們爲Visual Dialog Challenge 2018設計的方法。在最終提交中,我們使用三個具有區別的編碼器和解碼器的判別模型的集合。我們在測試標準分割上表現最好的模型獲得了NDCG得分55.46和MRR值63.77,在挑戰賽中排名第三。

Weakly Supervised Video Summarization by Hierarchical Reinforcement Learning
Authors Yiyan Chen, Li Tao, Xueting Wang, Toshihiko Yamasaki
傳統的基於強化學習的視頻總結方法存在的問題是,只有在生成整個總結後才能獲得獎勵。這種獎勵很​​少,並且使強化學習難以融合。另一個問題是標記每個幀很繁瑣且成本高昂,這通常會禁止構建大規模數據集。爲了解決這些問題,我們提出了一個弱監督的層次強化學習框架,該框架將整個任務分解爲幾個子任務,以提高摘要質量。該框架由管理者網絡和工作者網絡組成。對於每個子任務,管理人員僅通過任務級別的二進制標籤來訓練設置子目標,與常規方法相比,該標籤需要的標籤要少得多。在子目標的指導下,工作人員可以根據全局獎勵和創新的定義子獎勵來通過策略梯度來預測子任務中視頻幀的重要性分數,以克服稀疏問題。在兩個基準數據集上進行的實驗表明,我們的建議取得了最佳性能,甚至優於監督方法。

An Investigation of Feature-based Nonrigid Image Registration using Gaussian Process
Authors Siming Bayer, Ute Spiske, Jie Luo, Tobias Geimer, William M. Wells III, Martin Ostermeier, Rebecca Fahrig, Arya Nabavi, Christoph Bert, Ilker Eyupoglo, Andreas Maier
對於諸如自適應治療計劃或術中圖像更新等廣泛的臨牀應用,基於特徵的可變形配準FDR方法由於其簡單性和低計算複雜性而被廣泛採用。 FDR算法通過內插稀疏場來估計密集位移場,稀疏場由選定特徵之間已建立的對應關係給出。在本文中,我們將變形場視爲高斯過程GP,而將所選特徵視爲有效變形的先驗信息。使用GP,我們能夠同時估計密集位移場和相應的不確定度圖。此外,我們分別使用合成,幻像和臨牀數據評估平方指數內核的不同超參數設置的性能。定量比較表明,基於GP的插值具有與最新的B樣條插值相同的性能。基於GP的插值的最大臨牀好處是,它可以可靠地估計所計算的密集位移圖的數學不確定性。

Deep learning achieves perfect anomaly detection on 108,308 retinal images including unlearned diseases
Authors Ayaka Suzuki, Yoshiro Suzuki
光學相干斷層掃描OCT掃描可用於檢測各種視網膜疾病。但是,在世界許多地方,沒有足夠的眼科醫生可以診斷視網膜OCT圖像。爲了廉價且廣泛地提供OCT篩查,自動化診斷系統是必不可少的。儘管已經提出了許多機器學習技術來協助眼科醫生診斷視網膜OCT圖像,但是沒有一種技術可以在不依賴眼科醫生的情況下進行獨立診斷,即沒有一種技術可以不忽視任何異常現象,包括未經學習的疾病。只要存在使用某種技術忽視疾病的風險,眼科醫生甚至必須仔細檢查該技術分類爲正常的圖像。在這裏,我們表明基於深度學習的二元分類器正常或異常在108,308個二維視網膜OCT圖像上實現了完美分類,即真實正率1.000000和真實負率1.000000,因此ROC曲線下的面積爲1.0000000。儘管測試集包括三種類型的疾病,但其中兩種沒有用於訓練。但是,所有測試圖像均已正確分類。此外,我們證明了我們的方案能夠應對患者種族的差異。沒有常規的方法可以達到上述性能。我們的工作有足夠的可能性將視網膜OCT圖像的自動診斷技術從眼科醫生的助手提升到沒有眼科醫生的獨立診斷系統。

The problems with using STNs to align CNN feature maps
Authors Lukas Finnveden, Ylva Jansson, Tony Lindeberg
空間轉換器網絡STN旨在使CNN能夠學習圖像變換的不變性。最初建議使用STN來轉換CNN特徵圖以及輸入圖像。這樣可以在預測轉換參數時使用更復雜的功能。但是,由於STN僅執行空間變換,因此通常情況下,它們不具有將變換後的圖像及其原始圖像的特徵圖對齊的能力。我們爲此提供了一個理論上的論據並調查了實際的含義,表明這種無用性與降低的分類精度相結合。我們主張通過在分類和本地化網絡之間共享參數來利用更深層中更復雜的功能。

The Effect of Data Ordering in Image Classification
Authors Ethem F. Can, Aysu Ezen Can
深度學習模型的成功案例每天都在增加,涉及從圖像分類到自然語言理解的不同任務。隨着這些模型的日益普及,科學家們花費越來越多的時間來尋找適合其任務的最佳參數和最佳模型架構。在本文中,我們將重點放在爲這些機器提供數據的要素上。我們假設數據排序會影響模型的性能。爲此,我們使用ImageNet數據集對圖像分類任務進行了實驗,結果表明,在獲得更高分類精度方面,某些數據排序要優於其他數據排序。實驗結果表明,與模型架構,學習率和批處理大小無關,數據的排序會顯着影響結果。我們使用不同的度量NDCG,準確度1和準確度5顯示這些發現。我們的目標是證明不僅參數和模型架構,而且數據排序在獲取更好的結果方面都有發言權。

Domain Independent Unsupervised Learning to grasp the Novel Objects
Authors Siddhartha Vibhu Pharswan, Mohit Vohra, Ashish Kumar, Laxmidhar Behera
基於視覺的抓握中的主要挑戰之一是在與新穎物體相互作用時選擇可行的抓握區域。最近的方法利用卷積神經網絡CNN的功能來實現準確的掌握,但要付出高計算能力和時間的代價。在本文中,我們提出了一種新穎的基於無監督學習的算法,用於選擇可行的抓握區域。無監督學習可以推斷出數據集中的模式,而無需任何外部標籤。我們在圖像平面上應用k均值聚類以識別抓握區域,然後採用軸分配方法。我們定義了“抓握決策指數GDI”的新概念,以選擇圖像平面中的最佳抓握姿勢。我們已經在雜亂或孤立的環境中對Amazon Robotics Challenge 2017和Amazon Picking Challenge 2016的標準對象進行了多次實驗。我們將結果與基於先前學習的方法進行了比較,以驗證我們算法對多種新穎對象的魯棒性和自適應性。不同的域。

Deep Learning Enabled Uncorrelated Space Observation Association
Authors Jacob J Decoto, David RC Dayton
不相關的光學空間觀測協會代表大海撈針問題的經典代表。目的是從所有不相關的觀測值的大得多的人羣中找到可能屬於相同駐地空間目標RSO的一小組觀測值。這些觀察可能在時間上以及相對於觀察傳感器位置有很大的不同。通過在大型代表性數據集上進行訓練,本文表明,無需物理或軌道力學編碼知識即可使用深度學習的學習模型可以學習用於識別常見物體觀測的模型。當顯示具有50個匹配觀察對的平衡輸入集時,學習的模型能夠正確識別觀察對是否在同一時間的RSO 83.1。然後將所得的學習模型與搜索算法結合使用,在不平衡的演示集(包含1000個不同的模擬不相關觀察值)上進行展示,並被證明能夠成功識別代表人口總數142個對象中的111個的真實的三個觀察集。在三個觀察三元組中識別大多數對象。這是在僅探索1.66e8可能的唯一三元組組合的搜索空間的0.06時完成的。

Identifying Table Structure in Documents using Conditional Generative Adversarial Networks
Authors Nataliya Le Vine, Claus Horn, Matthew Zeigenfuse, Mark Rowan
例如,在許多行業以及學術研究中,信息主要以非結構化文檔的形式傳輸。層次結構相關的數據呈現爲表格,而從此類文檔中的表格中提取信息提出了重大挑戰。許多現有方法採用自下而上的方法,首先將線集成到單元中,然後將單元集成到行或列中,最後從所得的2D佈局中推斷出結構。但是這樣的方法忽略了與表結構有關的可用先驗信息,即表只是潛在邏輯結構的任意表示。我們提出了一種自上而下的方法,首先使用條件生成對抗網絡將表格圖像映射到表示沒有表格內容的近似行和列邊界的標準化骨架表格形式,然後使用xy切割投影和遺傳算法優化來推導潛在表格結構。該方法很容易適應不同的表配置,並且需要較小的數據集大小進行培訓。

TBC-Net: A real-time detector for infrared small target detection using semantic constraint
Authors Mingxin Zhao, Li Cheng, Xu Yang, Peng Feng, Liyuan Liu, Nanjian Wu
紅外小目標檢測是紅外搜索和跟蹤IRST系統中的一項關鍵技術。儘管近來深度學習已廣泛用於可見光圖像的視覺任務中,但由於難以學習小目標特徵,因此很少用於紅外小目標檢測。在本文中,我們提出了一種新型的輕型卷積神經網絡TBC網絡用於紅外小目標檢測。 TBCNet由目標提取模塊TEM和語義約束模塊SCM組成,它們分別用於從紅外圖像中提取小目標並在訓練過程中對提取的目標圖像進行分類。同時,我們提出了關節損失函數和訓練方法。 SCM通過結合高級分類任務對TEM施加語義約束,解決了類不平衡問題導致的特徵學習困難的問題。在訓練期間,從輸入圖像中提取目標,然後由SCM對目標進行分類。在推斷過程中,僅使用TEM來檢測小目標。我們還提出了一種數據綜合方法來生成訓練數據。實驗結果表明,與傳統方法相比,TBC Net可以更好地減少背景複雜造成的虛警,所提出的網絡結構和聯合損失對小目標特徵學習有明顯的改善。此外,TBC Net可以在NVIDIA Jetson AGX Xavier開發板上實現實時檢測,適用於諸如帶有紅外傳感器的無人機的現場研究等應用。

Embedding of FRPN in CNN architecture
Authors Alberto Rossi, Markus Hagenbuchner, Franco Scarselli, Ah Chung Tsoi
本文將用於矢量輸入的完全遞歸感知器網絡FRPN模型擴展到包括可以接受多維輸入的深度卷積神經網絡CNN。 FRPN由遞歸層組成,遞歸層在給定固定輸入的情況下,迭代計算平衡狀態。通過這種迭代機制實現的展開可以模擬具有任意數量層的深度神經網絡。 FRPN到CNN的擴展形成了一種架構,我們稱之爲卷積FRPN C FRPN,其中卷積層是遞歸的。在幾種圖像分類基準上對該方法進行了評估。結果表明,C FRPN始終優於具有相同數量參數的標準CNN。對於小型網絡,性能上的差距特別大,這表明C FRPN是一種非常強大的體系結構,因爲與深度CNN相比,它可以用較少的參數獲得等效的性能。

Application of Deep Learning in Generating Desired Design Options: Experiments Using Synthetic Training Dataset
Authors Zohreh Shaghaghian, Wei Yan
大多數設計方法都包含一個前向框架,該框架要求建築物的主要規格以生成輸出或評估其性能。但是,儘管不確定適當的設計參數,但建築師仍要求實現特定目標。深度學習DL算法提供了智能的工作流程,系統可以在其中從順序的訓練實驗中學習。本研究將使用DL算法的方法應用於生成所需的設計選項。在這項研究中,研究對象識別問題以基於包含不同類型的合成2D形狀的訓練數據集初步預測看不見的樣本圖像的標籤,然後將生成的DL算法應用於訓練併爲給定標籤生成新形狀。在下一步中,將訓練算法,以基於空間日光自主性sDA度量爲所需的光影性能生成窗牆圖案。實驗表明,在預測看不見的樣品形狀和生成新的設計選項方面都具有可喜的結果。

Translating multispectral imagery to nighttime imagery via conditional generative adversarial networks
Authors Xiao Huang, Dong Xu, Zhenlong Li, Cuizhen Wang
夜間衛星圖像已被廣泛應用。但是,我們對觀察到的光強度是如何形成的以及是否可以模擬的瞭解有限,這極大地阻礙了它的進一步應用。這項研究探索了條件生成對抗網絡cGAN在將多光譜圖像轉換爲夜間圖像方面的潛力。採用了流行的cGAN框架pix2pix並對其進行了修改,以使用來自Landsat 8和可見紅外成像輻射計套件VIIRS的網格化訓練圖像對來促進此轉換。這項研究的結果證明了將多光譜圖像轉換爲夜間圖像的可能性,並進一步表明,通過附加的社交媒體數據,生成的夜間圖像可能與地面真實圖像非常相似。這項研究填補了了解衛星觀測到的夜間光的空白,並提供了新的範例來解決夜間遙感領域中出現的新問題,包括夜間序列構造,光去飽和和多傳感器校準。

End-to-End Pixel-Based Deep Active Inference for Body Perception and Action
Authors Cansu Sancaktar, Pablo Lanillos
我們提出了一種基於像素的深度主動推理算法PixelAI,該算法啓發了人體感知併成功地驗證了機器人的人體感知和動作(作爲用例)。我們的算法結合了源於變分推理的神經科學自由能原理和深度卷積解碼器來對算法進行縮放,以直接處理圖像輸入並提供在線自適應推理。該方法使機器人僅使用原始的單眼攝像機圖像即可執行1次手臂的動態人體估計,並自動執行2次操作以達到視覺空間中想象的手臂姿勢。我們對模擬的和真實的Nao機器人的算法性能進行了統計分析。結果表明,相同的算法如何處理兩種感知到的動作,建模爲推理優化問題。

Does Time-Delay Feedback Matter to Small Target Motion Detection Against Complex Dynamic Environments?
Authors Hongxin Wang, Huatian Wang, Jiannan Zhao, Cheng Hu, Jigen Peng, Shigang Yue
對於通常受限於計算能力的自主微型機器人,在複雜的視覺環境中區分小運動物體是一項重大挑戰。依靠良好發展的視覺系統,儘管目標視野的大小隻有幾個像素,但飛行昆蟲可以毫不費力地檢測到配偶並快速追蹤獵物。這種對小目標運動的靈敏性被稱爲“小目標運動檢測器” STMD的一類專門的神經元所支持。現有的基於STMD的模型通常由通過前饋迴路互連的四個順序排列的神經層組成,以從原始視覺輸入中提取有關小目標的運動信息。但是,反饋迴路是運動感知的另一個重要調節電路,尚未在STMD通路中進行研究,其在小目標運動檢測中的功能作用尚不清楚。在本文中,我們假設存在反饋,並提出了一種基於STMD的視覺系統,該系統具有反饋連接Feedback STMD,其中系統輸出在時間上有所延遲,然後反饋到較低的層以介導神經反應。我們比較了帶有和不帶有延時反饋迴路的視覺系統的特性,並討論了其對小目標運動檢測的影響。實驗結果表明,反饋STMD更喜歡快速移動的小目標,同時可以顯着抑制那些以較低速度移動的背景特徵。

An Analytical Workflow for Clustering Forensic Images
Authors Sara Mousavi, Dylan Lee, Tatianna Griffin, Dawnie Steadman, Audris Mockus
如果精選了大量的圖像,則可以極大地提高許多領域的研究質量。無監督聚類是管理此類數據集的直觀而有效的步驟。在這項工作中,我們提出了一種用於無監督地對大量取證圖像進行聚類的工作流。除了與領域相關的數據,工作流還利用圖像深度特徵表示的經典聚類將它們分組在一起。我們的手動評估顯示所得簇的純度爲89。

Adversarial Example Generation using Evolutionary Multi-objective Optimization
Authors Takahiro Suzuki, Shingo Takeshita, Satoshi Ono
本文提出了一種基於進化多目標優化EMO的對抗示例AE設計方法,該方法在黑盒設置下執行。先前的基於梯度的方法通過更改目標圖像的所有像素來生成AE,而先前的基於EC的方法則更改少量像素以生成AE。由於EMO具有基於種羣的搜索特性,因此該方法可生成各種類型的AE,其中包括位於前兩種方法生成的AE之間的AE,這有助於瞭解目標模型的特徵或瞭解未知的攻擊模式。實驗結果表明了該方法的潛力,例如,它可以生成魯棒的AE,並且藉助基於DCT的擾動圖生成,可以生成高分辨率圖像的AE。

Supervised and Unsupervised Learning of Parameterized Color Enhancement
Authors Yoav Chai, Raja Giryes, Lior Wolf
我們將色彩增強問題視爲圖像翻譯任務,我們使用監督學習和無監督學習來解決。與傳統圖像到圖像生成器不同,我們的翻譯是使用全局參數化顏色轉換執行的,而不是學習直接映射圖像信息。在監督的情況下,每個訓練圖像都與所需的目標圖像配對,而卷積神經網絡CNN從專家修飾的圖像中學習變換的參數。在不成對的情況下,我們採用兩種方式的生成對抗網絡GAN來學習這些參數並應用圓度約束。與MIT Adob​​e FiveK基準上的監督配對數據和非監督非配對數據圖像增強方法相比,我們獲得了最先進的結果。此外,通過將其應用於20世紀初的照片和深色視頻幀,我們展示了該方法的泛化能力。

Wi2Vi: Generating Video Frames from WiFi CSI Samples
Authors Mohammad Hadi Kefayati, Vahid Pourahmadi, Hassan Aghaeinia
環境中的物體會影響電磁波。儘管此影響隨頻率而變化,但它們之間存在相關性,並且具有足夠容量的模型可以捕獲不同頻率下的測量之間的這種相關性。在本文中,我們提出了Wi2Vi模型,用於將WiFi通道狀態信息的變化與視頻幀相關聯。提出的Wi2Vi系統可以完全使用CSI測量來生成視頻幀。 Wi2Vi產生的視頻幀在緊急情況下爲常規監視系統提供了輔助信息。我們對Wi2Vi系統的實施證實了構建能夠推導不同頻譜中的測量之間的相關性的系統的可行性。

Predicting population neural activity in the Algonauts challenge using end-to-end trained Siamese networks and group convolutions
Authors Georgin Jacob, Harish Katti
Algonauts面臨的挑戰是關於以來自視覺大腦區域的代表性相異矩陣RDMS的形式預測對象表示。我們使用暹羅網絡和羣卷積的概念使用了定製的深度學習模型,以預測與一對圖像相對應的神經距離。訓練數據最好通過最後一層計算出的距離來解釋。

Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering
Authors Lei Shi, Shijie Geng, Kai Shuang, Chiori Hori, Songxiang Liu, Peng Gao, Sen Su
近年來,多模態融合技術極大地提高了基於神經網絡的視頻描述字幕,視覺問答VQA和視聽場景感知對話框AVSD的性能。先前的大多數方法僅探索多層特徵融合的最後一層,而忽略了中間層的重要性。爲了解決中間層的問題,我們提出了一種有效的四元數塊網絡QBN,不僅可以學習最後一層的交互,還可以同時學習所有中間層的交互。在我們提出的QBN中,我們使用整體文本功能來指導視覺功能的更新。同時,漢密爾頓四元數產品可以有效地執行從高層到較低層的視覺和文本形式的信息流。評估結果表明,即使使用了超過大規模BERT或可視BERT預先訓練的模型,我們的QBN仍改進了VQA 2.0的性能。已經進行了廣泛的消融研究,以證明本研究中每個提出的模塊的影響。

Discoverability in Satellite Imagery: A Good Sentence is Worth a Thousand Pictures
Authors David Noever, Wes Regian, Matt Ciolino, Josh Kalin, Dom Hambrick, Kaye Blankenship
小型衛星星座每天提供對地球陸地的全球覆蓋,但是圖像豐富化依賴於自動化關鍵任務(例如變化檢測或特徵搜索)。例如,要從原始像素提取文本註釋,需要兩個相關的機器學習模型,一個用於分析開銷圖像,另一個用於生成描述性字幕。我們根據以前最大的衛星圖像字幕基準評估了七個模型。我們將標記的圖像樣本擴展五倍,然後增加,校正和修剪詞彙表以達到大致的最小最大最小單詞,最大描述。與以前使用大型預先訓練的圖像模型進行的工作相比,此結果是有利的,但是當使用對數熵損失進行測量時,模型尺寸減小了一百倍,而不會犧牲整體精度。這些較小的模型提供了新的部署機會,尤其是當推到邊緣處理器,人造衛星或分佈式地面站時。爲了量化字幕的描述性,我們引入了一種新穎的多類混淆或錯誤矩陣來對人類標記的測試數據和從未標記的圖像(包括邊界框檢測但缺少完整的句子標題)進行評分。這項工作提出了未來的字幕策略,尤其是那些可以使班級覆蓋面擴展到土地用途應用之外的策略,並且可以減輕顏色居中和鄰接形容詞“綠色”,“附近”,“之間”等的使用。許多現代語言轉換器通過其龐大的在線語料庫中的訓練,提供了具有世界知識的新穎且可利用的模型。一個有趣但簡單的示例可能學習風與浪之間的關聯,從而使海灘場景不僅具有顏色描述,而且可以從原始像素訪問而無需文本註釋,從而豐富了顏色描述。

Self-Learning AI Framework for Skin Lesion Image Segmentation and Classification
Authors Anandhanarayanan Kamalakannan, Shiva Shankar Ganesan, Govindaraj Rajamanickam
圖像分割和分類是模式識別的兩個主要基本步驟。要使用深度學習模型執行醫學圖像分割或分類,需要對帶有註釋的大型圖像數據集進行訓練。爲這項工作考慮的皮膚鏡檢查影像ISIC檔案沒有病竈分割的地面真相信息。在此數據集上執行手動標記非常耗時。爲了解決這個問題,在兩階段深度學習算法中提出了自學習註釋方案。兩階段深度學習算法由帶有註釋方案的U Net分割模型和CNN分類器模型組成。註釋方案使用K均值聚類算法和合並條件來獲得用於訓練U Net模型的初始標記信息。分類器模型ResNet 50和LeNet 5在圖像數據集上進行了訓練和測試,無需進行分割以進行比較,而使用U Net進行分割以實現建議的自學習人工智能AI框架。與直接在輸入圖像上訓練的兩個分類器模型相比,所提出的AI框架的分類結果實現了93.8的訓練精度和82.42的測試精度。

Human Action Recognition and Assessment via Deep Neural Network Self-Organization
Authors German I. Parisi
在人類機器人交互HRI領域中,對人類行爲的強大識別和評估至關重要。儘管最先進的動作感知模型在大規模動作數據集中顯示出顯著成果,但它們大多缺乏在自然HRI場景中運行所需的靈活性,魯棒性和可擴展性,而這些場景需要不斷獲取感官信息以及進行分類或評估實時檢測人體模式。在本章中,我介紹了一組分層模型,用於通過使用神經網絡自組織來學習和識別深度圖和RGB圖像中的動作。這些模型的特殊性是使用不斷壯大的自組織網絡,這些網絡可以快速適應非平穩分佈並實現專用機制,以便從時間相關的輸入中持續學習。

Short-Term Temporal Convolutional Networks for Dynamic Hand Gesture Recognition
Authors Yi Zhang, Chong Wang, Ye Zheng, Jieyu Zhao, Yuqi Li, Xijiong Xie
手勢識別的目的是識別人體有意義的運動,而手勢識別是計算機視覺中的重要問題。在本文中,我們提出了一種基於3D密集卷積網絡3D DenseNets和改進的時間卷積網絡TCN的多模式手勢識別方法。我們方法的關鍵思想是找到一種緊湊而有效的空間和時間特徵表示,將手勢視頻分析的任務有序且分別地分爲空間分析和時間分析兩個部分。在空間分析中,我們採用3D DenseNets有效地學習短期時空時態特徵。隨後,在時間分析中,我們使用TCN提取時間特徵,並使用改進的擠壓和激勵網絡SENet來增強每個TCN層的時間特徵的表示能力。該方法已在VIVA和NVIDIA Gesture動態手勢數據集上進行了評估。我們的方法在分類精度爲91.54的VIVA基準上獲得了非常有競爭力的性能,並在NVIDIA基準上以86.37的精度實現了最先進的性能。

A Two-Stream Meticulous Processing Network for Retinal Vessel Segmentation
Authors Shaoming Zheng, Tianyang Zhang, Jiawei Zhuang, Hao Wang, Jiang Liu
眼底血管分割是眼科的關鍵診斷能力,這項基本任務仍然面臨着各種挑戰。早期方法表明,由於具有不同厚度級別的血管像素的不平衡,通常難以在細血管和邊界區域上獲得理想的分割性能。在本文中,我們提出了一種新穎的兩流精細處理網絡MP Net來解決這個問題。爲了更加關注細血管和邊界區域,我們首先提出了一個有效的分層模型,該模型自動將地面真光掩模分層爲不同的厚度級別。然後,引入一種新穎的兩流對抗網絡,利用具有平衡損失函數的分層結果和積分運算來獲得更好的性能,特別是在細血管和邊界區域檢測中。實踐證明,我們的模型優於DRIVE,STARE和CHASE DB1數據集上的最新方法。

ScaIL: Classifier Weights Scaling for Class Incremental Learning
Authors Eden Belouadah, Adrian Popescu
如果AI代理需要集成流中的數據,則增量學習很有用。如果代理程序在有限的計算預算上運行並且對過去的數據進行有限的存儲,那麼問題就不小了。在深度學習方法中,恆定的計算預算要求所有增量狀態都使用固定的體系結構。有界內存會產生有利於新類的數據不平衡,並且出現對新類的預測偏差。通常,除了基本的網絡訓練外,還通過引入數據平衡步驟來消除這種偏見。我們偏離了這種方法,並建議對過去的分類器權重進行簡單而有效的縮放,以使其與新類別的權重更具可比性。縮放利用增量狀態級別統計信息,並將其應用於在類的初始狀態中學習的分類器,以便從其所有可用數據中獲利。通過將其與有限內存存在下的香草精調進行比較,我們還質疑了增量學習算法中廣泛使用的蒸餾損失分量的實用性。使用四個公共數據集,根據競爭基準進行評估。結果表明,分級器的重量定標和蒸餾的去除都是有益的。

SketchDesc: Learning Local Sketch Descriptors for Multi-view Correspondence
Authors Deng Yu, Lei Li, Youyi Zheng, Manfred Lau, Yi Zhe Song, Chew Lan Tai, Hongbo Fu
在本文中,我們研究了多視圖草圖對應的問題,我們將多個具有相同對象的不同視圖的徒手草圖作爲輸入,並預測草圖之間的語義對應。這個問題具有挑戰性,因爲在不同視圖中相應點的視覺特徵可能會非常不同。爲此,我們採用了一種深度學習方法,並從數據中學習了一種新穎的局部草圖描述符。我們通過爲從3D形狀合成的多視圖線圖生成像素級別對應關係來貢獻訓練數據集。爲了處理草圖的稀疏性和歧義性,我們設計了一種新穎的多分支神經網絡,該網絡集成了基於補丁的表示形式和多尺度策略,以學習多視圖草圖之間的pixelLevel對應關係。我們通過對手繪草圖進行的大量實驗以及從多個3D形狀數據集渲染的多視圖線圖來證明我們提出的方法的有效性。

A Markerless Deep Learning-based 6 Degrees of Freedom PoseEstimation for with Mobile Robots using RGB Data
Authors Linh K stner, Daniel Dimitrov, Jens Lambrecht
增強現實技術具有增強人機交互和理解的能力,因此在行業內需要進行各種集成工作。神經網絡在計算機視覺領域取得了顯著成果,具有巨大的潛力來協助和促進增強現實體驗。但是,大多數神經網絡的計算量很大,因此需要巨大的處理能力,因此不適合在增強現實設備上進行部署。在這項工作中,我們提出了一種在增強現實設備上部署用於實時3D對象定位的先進神經網絡的方法。因此,我們提供了一種使用移動機器人系統校準AR設備的更加自動化的方法。爲了加快校準過程並增強用戶體驗,我們專注於快速2D檢測方法,該方法僅使用2D輸入即可快速,準確地提取對象的3D姿態。結果將實現到增強現實應用程序中,以實現直觀的機器人控制和傳感器數據可視化。對於2D圖像的6D註釋,我們開發了註釋工具,據我們所知,這是第一個可用的開源工具。我們獲得了可行的結果,該結果通常適用於任何AR設備,因此使這項工作有望在將高要求的神經網絡與物聯網設備相結合的基礎上進行進一步的研究。

Learning Spatiotemporal Features via Video and Text Pair Discrimination
Authors Tianhao Li, Limin Wang
當前的視頻表示形式嚴重依賴於從手動註釋的視頻數據集中學習。但是,獲取大規模的,帶有標籤的視頻數據集既昂貴又耗時。我們注意到,視頻自然伴隨着豐富的文本信息,例如YouTube標題和電影腳本。在本文中,我們利用這種視覺文本連接以有效的弱監督方式學習有效的時空特徵。我們提出了一個通用的交叉模態對判別CPD框架,以捕獲剪輯及其關聯文本之間的這種相關性,並採用噪聲對比估計技術來解決由大量對實例類所施加的計算問題。具體來說,我們從兩個視頻文本對來源調查了CPD框架,並設計了一種實用的課程學習策略來培訓CPD。無需進行進一步的微調,學習的模型就可以根據通用的線性分類協議在Kinetics數據集上進行動作分類,從而獲得有競爭力的結果。此外,我們的視覺模型提供了非常有效的初始化,可以對下游任務數據集進行微調。實驗結果表明,與最新的自我監督訓練方法相比,我們的弱監督預訓練在UCF101和HMDB51數據集上的動作識別方面具有顯着的性能提升。此外,我們的CPD模型通過直接利用學習到的可視文本嵌入,爲UCF101上的零擊動作識別提供了一種最新的技術。

Probabilistic 3D Multi-Object Tracking for Autonomous Driving
Authors Hsu kuang Chiu, Antonio Prioletti, Jie Li, Jeannette Bohg
3D多對象跟蹤是自動駕駛應用程序中的關鍵模塊,可爲計劃模塊提供可靠的世界動態表示。在本文中,我們介紹了在線跟蹤方法,該方法在NeurIPS 2019的AI駕駛奧林匹克研討會上舉行的NuScenes跟蹤挑戰賽中名列第一。我們的方法通過採用卡爾曼濾波器來估計對象狀態。我們使用訓練集中的統計數據初始化狀態協方差以及過程和觀察噪聲的協方差。我們還通過測量預測對象狀態和當前對象檢測之間的Mahalanobis距離,在數據關聯步驟中使用來自Kalman濾波器的隨機信息。我們在NuScenes驗證和測試集上的實驗結果表明,在平均多對象跟蹤精度AMOTA指標中,我們的方法比AB3DMOT基線方法要大得多。

Rethinking Motion Representation: Residual Frames with 3D ConvNets for Better Action Recognition
Authors Li Tao, Xueting Wang, Toshihiko Yamasaki
最近,3D卷積網絡在動作識別方面表現出良好的性能。然而,仍然需要光流來確保更好的性能,其成本非常高。在本文中,我們提出了一種快速而有效的方法,該方法利用殘留幀作爲3D ConvNets中的輸入數據從視頻中提取運動特徵。通過用殘差幀替換傳統的堆疊RGB幀,從頭開始訓練時,UCF101和HMDB51數據集的精度最高可提高10.5和20.5。由於殘差幀包含的對象外觀信息很少,因此我們進一步使用2D卷積網絡來提取外觀特徵,並將其與殘差幀的結果組合起來以形成兩條路徑的解決方案。在三個基準數據集中,我們的兩條路徑解決方案取得了比使用其他光流方法更好或更可比的性能,尤其是優於Mini動力學數據集上的最新模型。進一步的分析表明,使用帶有3D ConvNets的殘差幀可以提取更好的運動特徵,並且我們的殘差幀輸入路徑是現有RGB幀輸入模型的良好補充。

LE-HGR: A Lightweight and Efficient RGB-based Online Gesture Recognition Network for Embedded AR Devices
Authors Hongwei Xie, Jiafang Wang, Baitao Shao, Jian Gu, Mingyang Li
在線手勢識別HGR技術在增強現實AR應用程序中至關重要,可實現自然的人機交互和通信。近年來,低成本AR設備的消費市場一直在迅速增長,而該領域的技術成熟度仍然有限​​。這些設備通常價格低廉,內存有限以及資源受限的計算單元,這使得在線HGR成爲一個具有挑戰性的問題。爲解決此問題,我們提出了一種輕量級且計算效率高的HGR框架,即LE HGR,以實現具有低計算能力的嵌入式設備上的實時手勢識別。我們還表明,提出的方法具有很高的準確性和魯棒性,能夠在各種複雜的交互環境中達到高端性能。爲了實現我們的目標,我們首先提出了一個級聯的多任務卷積神經網絡CNN,以同時預測在線進行手部檢測和手部關鍵點位置迴歸的概率。我們表明,通過提出的級聯體系結構設計,可以大大消除誤報估計。另外,引入了關聯的映射方法以經由預測位置跟蹤手跡,這解決了多手性的干擾。隨後,我們提出了跟蹤序列神經網絡TraceSeqNN,以通過利用跟蹤軌跡的運動特徵來識別手勢。最後,我們提供了各種實驗結果,表明所提出的框架能夠以顯着降低的計算成本來實現最新的準確性,這是在低成本商用設備(例如移動設備和移動設備)中實現實時應用的關鍵特性AR VR耳機。

PDANet: Pyramid Density-aware Attention Net for Accurate Crowd Counting
Authors Saeed Amirgholipour, Xiangjian He, Wenjing Jia, Dadong Wang, Lei Liu
人羣計數,即估計擁擠區域的人數,引起了研究界的極大興趣。儘管已進行了許多嘗試,但由於感興趣區域內人羣密度的巨大規模變化以及人羣之間的嚴重遮擋,人羣計數仍然是一個開放的現實世界問題。在本文中,我們提出了一個新穎的基於金字塔密度感知注意的網絡,簡稱爲PDANet,該網絡利用注意力,金字塔尺度特徵和兩個分支解碼器模塊來進行密度感知人羣計數。 PDANet利用這些模塊來提取不同的比例尺特徵,關注相關信息並消除誤導性信息。我們還使用專用的密度感知解碼器DAD解決了不同圖像之間擁擠程度的變化。爲此,分類器評估輸入要素的密度級別,然後將其傳遞給相應的擁擠的DAD模塊。最後,我們通過將低擁擠密度圖和高擁擠密度圖的總和視爲空間注意力來生成總體密度圖。同時,我們使用兩個損失爲輸入場景創建精確的密度圖。在具有挑戰性的基準數據集上進行的廣泛評估很好地證明了所提出的PDANet在計數和生成的密度圖的準確性方面優於衆所周知的現有技術的優越性能。

Self-supervised visual feature learning with curriculum
Authors Vishal Keshav, Fabien Delattre
自我監督學習技術已經顯示出學習有意義的特徵表示的能力。通過在僅需查找輸入或輸入部分之間的相關性的藉口任務上訓練模型就可以實現這一點。但是,需要仔細手動選擇此類前置任務,以避免可能使這些前置任務變得微不足道的低電平信號。此外,刪除這些快捷方式通常會導致一些語義上有價值的信息丟失。我們表明,它直接影響下游任務學習的速度。在本文中,我們從課程學習中汲取了靈感,逐步消除了低水平的信號,並表明它顯着提高了下游任務的收斂速度。

Delving Deeper into the Decoder for Video Captioning
Authors Haoran Chen, Jianmin Li, Xiaolin Hu
視頻字幕是一項高級的多模式任務,旨在使用自然語言句子描述視頻剪輯。編碼器解碼器框架是近年來用於此任務的最流行的範例。但是,在視頻字幕模型的解碼器中仍然存在一些不可忽略的問題。我們對解碼器進行了深入研究,並採用了三種技術來改善模型的性能。首先,將變差輟學和圖層歸一化的組合嵌入到循環單元中,以緩解過度擬合的問題。其次,提出了一種在驗證集上評估模型性能的新方法,以便選擇最佳的檢查點進行測試。最後,提出了一種稱爲文本專業學習的新培訓策略,該策略可以開發字幕模型的優點,而可以克服其缺點。在Microsoft Research Video Description Corpus MSVD和MSR Video to Text MSR VTT數據集上的實驗中證明,我們的模型獲得了由BLEU,CIDEr,METEOR和ROUGE L指標評估的最佳結果,在MSVD和與之前的最新模型相比,MSR VTT的排名爲5。

Synergetic Reconstruction from 2D Pose and 3D Motion for Wide-Space Multi-Person Video Motion Capture in the Wild
Authors Takuya Ohashi, Yosuke Ikegami, Yoshihiko Nakamura
儘管已經對無標記運動捕捉進行了許多研究,但尚未將其應用於真實的運動或音樂會。在本文中,我們提出了一種無標記運動捕獲方法,即使在寬廣的多人環境中,該方法也可以從多個攝像機獲得時空精度和平滑度。關鍵思想是預測每個人的3D姿勢並確定足夠小的多攝像機圖像的邊界框。這種基於人體骨骼結構的預測和時空過濾可簡化人的3D重建併產生準確性。然後,將準確的3D重建用於預測下一幀中每個攝像機圖像的邊界框。這是從3D運動到2D姿勢的反饋,併爲視頻運動捕獲的總體性能提供了協同作用。我們使用各種數據集和一個真實的運動場演示了該方法。實驗結果表明,在五個人動態運動的情況下,每個關節位置的平均誤差爲31.6mm,正確部位的百分比爲99.3,滿足運動範圍。視頻演示,數據集和其他資料已發佈在我們的項目頁面上。

VSEC-LDA: Boosting Topic Modeling with Embedded Vocabulary Selection
Authors Yuzhen Ding, Baoxin Li
主題建模已在許多問題中得到了廣泛應用,在這些問題中,數據的潛在結構對於典型的推理任務至關重要。當應用主題模型時,相對標準的預處理步驟是首先構建常用單詞的詞彙表。這樣的一般預處理步驟通常與主題建模階段無關,因此不能保證預先生成的詞彙表可以支持適用於給定任務的某些最佳甚至有意義的主題模型的推斷,尤其是涉及以下內容的計算機視覺應用程序:視覺詞。在本文中,我們提出了一種新的主​​題建模方法,稱爲詞彙選擇嵌入式對應LDA VSEC LDA,它可以在學習潛在模型的同時選擇最相關的單詞。單詞的選擇由基於熵的度量來驅動,該度量測量單詞對基礎模型的相對貢獻,並在學習模型時動態進行。我們介紹了VSEC LDA的三種變體,並通過對來自不同應用程序的合成數據庫和真實數據庫進行實驗,評估了提出的方法。結果證明了內置詞彙選擇的有效性及其在改善主題建模性能方面的重要性。

Image Segmentation Using Deep Learning: A Survey
Authors Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza, Nasser Kehtarnavaz, Demetri Terzopoulos
圖像分割是圖像處理和計算機視覺中的關鍵主題,其應用包括場景理解,醫學圖像分析,機器人感知,視頻監視,增強現實和圖像壓縮等。在文獻中已經開發了用於圖像分割的各種算法。最近,由於深度學習模型在各種視覺應用中的成功,已經有大量旨在利用深度學習模型開發圖像分割方法的工作。在本次調查中,我們在撰寫本文時提供了對文獻的全面回顧,涵蓋了語義和實例級別分割的各種開創性作品,包括全卷積像素標記網絡,編碼器-解碼器體系結構,基於多尺度和金字塔的方法,對抗網絡中的循環網絡,視覺注意模型和生成模型。我們研究了這些深度學習模型的相似性,優勢和挑戰,研究了使用最廣泛的數據集,報告了性能,並討論了該領域有希望的未來研究方向。

A "Network Pruning Network" Approach to Deep Model Compression
Authors Vinay Kumar Verma, Pravendra Singh, Vinay P. Namboodiri, Piyush Rai
我們提出了使用多任務網絡進行深度模型壓縮的過濾修剪方法。我們的方法基於學習修剪器網絡以修剪經過預先訓練的目標網絡。修剪器本質上是一個具有二進制輸出的多任務深度神經網絡,可幫助識別原始網絡各層中對模型沒有重大貢獻的過濾器,因此可以對其進行修剪。修剪器網絡具有與原始網絡相同的體系結構,不同之處在於它具有多任務多輸出最後一層,其中每個過濾器包含二進制值輸出,該層指示必須修剪哪些過濾器。修剪器的目標是通過將零權重分配給相應的輸出特徵圖來最大程度地減少原始網絡中的濾波器數量。與大多數現有方法相比,我們的方法無需依賴迭代修剪,而可以一次性修剪網絡原始網絡,而且不需要指定每一層的修剪程度,而是可以學習它。我們的方法產生的壓縮模型是通用的,不需要任何特殊的硬件軟件支持。此外,使用其他方法(例如知識蒸餾,量化和連接修剪)進行擴充可以增加所提出方法的壓縮程度。我們展示了我們提出的方法用於分類和對象檢測任務的功效。

CDGAN: Cyclic Discriminative Generative Adversarial Networks for Image-to-Image Transformation
Authors Kancharagunta Kishan Babu, Shiv Ram Dubey
圖像到圖像的轉換是一種問題,其中一個視覺表示的輸入圖像被轉換爲​​另一視覺表示的輸出圖像。自2014年以來,Generative Adversarial Networks GAN通過在其架構中引入生成器和鑑別器網絡,爲解決該問題提供了新的方向。 Pix2Pix,CycleGAN,DualGAN,PS2MAN和CSGAN等許多最近的工作通過所需的生成器和鑑別器網絡以及目標函數中使用的不同損耗的選擇來解決了這個問題。儘管進行了這些工作,但在生成的圖像的質量方面仍然存在差距,這些質量看起來應該更加逼真並且儘可能接近地面真實圖像。在這項工作中,我們引入了一個新的圖像到圖像轉換網絡,稱爲循環判別式生成對抗網絡CDGAN,它填補了上述空白。擬議的CDGAN通過添加除CycleGAN原始體系結構之外的其他循環圖像鑑別器網絡來生成高質量和更逼真的圖像。爲了證明所提出的CDGAN的性能,在三個不同的基準圖像到圖像轉換數據集上進行了測試。諸如像素逐點相似度,結構水平相似度和感知水平相似度之類的量化指標可用來判斷性能。此外,還對定性結果進行了分析,並與現有方法進行了比較。在三個基準圖像到圖像轉換數據集上進行比較時,所提出的CDGAN方法明顯優於所有現有技術。

MeliusNet: Can Binary Neural Networks Achieve MobileNet-level Accuracy?
Authors Joseph Bethge, Christian Bartz, Haojin Yang, Ying Chen, Christoph Meinel
二進制神經網絡BNN是使用二進制權重和激活而不是典型的32位浮點值的神經網絡。它們減小了模型尺寸,並允許在功率和計算資源有限的情況下在移動或嵌入式設備上進行有效推斷。但是,權重和激活的二值化導致特徵圖的質量和容量較低,因此與傳統網絡相比,準確性下降。先前的工作增加了通道的數量,或使用多個二進制庫來緩解這些問題。相反,在本文中,我們提出了由交替的兩個模塊設計組成的MeliusNet,該設計連續增加了特徵的數量,然後提高了這些特徵的質量。另外,我們建議對先前方法中使用32位值的那些層進行重新設計,以減少所需的操作數。在ImageNet數據集上進行的實驗證明,在節省計算和準確性方面,我們的MeliusNet優於各種流行的二進制體系結構。此外,通過我們的方法,我們訓練了BNN模型,該模型首次可以在模型大小和準確性上與流行的緊湊型網絡MobileNet的準確性相匹配。我們的代碼在線發佈

MixPath: A Unified Approach for One-shot Neural Architecture Search
Authors Xiangxiang Chu, Xudong Li, Yi Lu, Bo Zhang, Jixiang Li
搜索空間的表達是神經體系結構搜索NAS的關鍵問題。先前的塊級方法主要集中於搜索網絡,這些網絡將一個操作與另一個操作鏈接在一起。將多路徑搜索空間與一槍理論相結合仍然是有待解決的。在本文中,我們研究了多路徑設置(稱爲MixPath)下的超級網絡行爲。對於採樣訓練,簡單地打開和關閉多個路徑會導致嚴重的特徵不一致,從而惡化收斂性。爲了糾正這種影響,我們採用稱爲“影子陰影批處理規範化” SBN來遵循各種路徑模式。在CIFAR 10上進行的實驗表明,無論允許路徑的數量如何,我們的方法都是有效的。在ImageNet上進行了進一步的實驗,以與最新的NAS方法進行合理的比較。我們的代碼將可用

A Little Fog for a Large Turn
Authors Harshitha Machiraju, Vineeth N Balasubramanian
精心製作的小擾動稱爲對抗擾動,很容易使神經網絡矇昧。但是,這些干擾在很大程度上是累加的,並非自然而然地發現。我們將注意力轉向自動導航領域,其中不利的天氣條件(例如霧)會對這些系統的預測產生重大影響。這些天氣條件能夠像自然對手一樣發揮作用,有助於測試模型。爲此,我們引入了對抗性攝動的一般概念,可以使用生成模型來創建對抗性攝動,並提供一種方法,該方法受週期一致的生成對抗性網絡啓發,爲給定圖像生成對抗性天氣條件。我們的公式和結果表明,這些圖像爲自主導航模型中使用的轉向模型提供了合適的測試平臺。我們的工作還基於感知相似性提出了更自然,更籠統的對抗性擾動定義。

Run-time Deep Model Multiplexing
Authors Amir Erfan Eshratifar, Massoud Pedram
我們提出了一個框架來設計輕型神經多路複用器,該框架在給定輸入和資源預算的情況下,決定要進行推理的適當模型。移動設備可以使用此框架將硬輸入卸載到雲中,同時在本地推斷簡單的輸入。此外,在基於雲的大規模智能應用程序中,不必複製最精確的模型,而是可以根據輸入的複雜性和資源預算來複用一系列大小模型。我們的實驗結果表明,該框架對移動用戶和雲提供商均有益。

Diabetic Retinopathy detection by retinal image recognizing
Authors Gilberto Luis De Conto Junior
全球許多人都患有糖尿病。該疾病可能具有1型和2型。糖尿病會帶來多種併發症,包括糖尿病性視網膜病,如果不正確治療,該疾病會導致患者視力不可逆轉的損害。檢測到越早,患者不會失去視力的機會就越好。目前有手動程序自動化的方法,而視網膜病變的診斷過程是由醫生在監視器上分析患者視網膜的手動過程。圖像識別的實踐可以通過識別糖尿病性視網膜病變模式並將其與患者視網膜進行診斷相比較,來幫助進行這種檢測。此方法還可以幫助進行遠程醫療,在這種情況下,無法訪問檢查的人可以從應用程序提供的診斷中受益。應用程序開發是通過卷積神經網絡進行的,該系統對每個圖像像素進行數字圖像處理。使用VGG 16作爲應用程序的預訓練模型非常有用,最終模型的準確性爲82。

Spinal Metastases Segmentation in MR Imaging using Deep Convolutional Neural Networks
Authors Georg Hille, Johannes Steffen, Max D nnwald, Mathias Becker, Sylvia Saalfeld, Klaus T nnies
這項研究的目的是使用基於深度學習的方法在診斷性MR圖像中分割脊柱轉移。此類病變的分割可成爲朝着增強治療計劃和驗證以及在微創和影像引導手術(如射頻消融)期間提供干預支持的關鍵步驟。爲此,我們使用了類似於U Net的體系結構,對40例臨牀案例進行了培訓,包括溶解性和硬化性病變類型以及各種MR序列。我們針對各種影響分割質量的因素(例如,使用的MR序列和輸入維。我們使用Dice係數,敏感性和特異性率定量評估了我們的實驗。與專業註釋的病變分割相比,實驗產生了令人鼓舞的結果,平均Dice得分高達77.6,平均敏感度高達78.9。據我們所知,我們提出的研究是解決這一特定問題的第一個研究,該研究限制了與相關作品的直接可比性。對於類似的基於深度學習的病變分割,例如在肝臟MR圖像或脊柱CT圖像中,我們的實驗顯示出相似的或在某些方面更高的分割質量。總體而言,我們的自動方法可以在這項具有挑戰性和雄心勃勃的任務中提供幾乎專家級的細分精度。

Probabilistic 3D Multilabel Real-time Mapping for Multi-object Manipulation
Authors Kentaro Wada, Kei Okada, Masayuki Inaba
概率3D映射已應用於具有多個相機視點的對象分割,但是,常規方法缺乏實時效率和多標籤對象映射的功能。在本文中,我們提出了一種實時生成具有多標籤佔用的三維地圖的方法。擴展了以前僅映射目標標籤佔用率的工作,我們通過一次環顧四周的操作即可實現多標籤對象細分。我們通過測試39個不同對象的分割精度並將其應用於實驗中多個對象的處理任務來評估我們的方法。我們的基於映射的方法比傳統的基於投影的方法優越40 96相對12.6均值IU 3d,並且機器人在嚴重遮擋的環境中成功識別了86.9並操縱了多個對象60.7。

A Technology-aided Multi-modal Training Approach to Assist Abdominal Palpation Training and its Assessment in Medical Education
Authors A. Asadipour, K. Debattista, V. Patel, A. Chalmers
計算機輔助多模式訓練是學習各種應用中複雜運動技能的有效方法。在特定的學科,例如。醫療保健在執行檢查時手法靈巧,臨牀觸診可能會導致錯誤的症狀診斷,嚴重的傷害甚至死亡。此外,高質量的臨牀檢查可以消除不必要的醫學影像,從而有助於排除重大病理,並減少診斷時間和成本。在全球範圍內,常規使用觸診作爲一種有效的初步診斷方法,但當前需要多年的培訓才能獲得勝任力。本文着重於多模式觸診訓練系統,以教授和改善與腹部相關的臨牀檢查技能。我們的目標是通過增加彩排的頻率來顯着縮短觸診訓練的時間,並就如何執行各種腹部觸診技術提供必要的增強反饋,該技術已從醫學專家那裏獲取並建模。邀請23名一年級醫學生分爲對照組n 8,半視覺訓練的n 8和完全視覺訓練的n 7,以執行三個觸診任務,分別是淺層,深層和肝臟。使用基於計算機的方法和基於人的方法對醫學生的表現進行了評估,其中所產生的得分之間呈正相關,r.62,p尾標爲.05。視力訓練的小組明顯優於對照組,在每次觸診檢查中,他們均向學生提供了施加力及其手掌位置的抽象可視化p .05。此外,當呈現視覺反饋時,在各組之間觀察到正趨勢,J 132,z 2.62,r 0.55。

Adaptive Direction-Guided Structure Tensor Total Variation
Authors Ezgi Demircan Tureyen, Mustafa E. Kamasak
方向引導的結構張量總變化量DSTV是最近提出的正則化術語,其目的是提高結構張量總變化量STV對朝向預定方向的變化的敏感性。儘管在單向圖像上獲得了合理的結果,但DSTV模型不適用於現實世界的多方向圖像。在這項研究中,我們建立了一個兩階段框架,爲DSTV帶來了適應性。我們設計了STV的替代方案,該方案在空間變化的方向描述符(即方向和各向異性劑量)的指導下對本地鄰域內的一階信息進行編碼。爲了估計這些描述符,我們提出了一種有效的預處理器,該預處理器基於結構張量捕獲局部幾何形狀。通過廣泛的實驗,通過將所提出的方法與基於最新分析的降噪模型進行比較,我們在還原質量和計算效率方面證明了方向信息在STV中的參與是多麼有益。

Combining Progressive Rethinking and Collaborative Learning: A Deep Framework for In-Loop Filtering
Authors Dezhao Wang, Sifeng Xia, Wenhan Yang, Jiaying Liu
本文旨在基於現代編解碼器的環路濾波器解決深度學習中的兩個關鍵問題1如何在編碼場景中更有效地建模空間和時間冗餘2可以從編解碼器推斷出哪些輔助信息輔助信息有利於環路濾波器模型以及如何注入此輔助信息。對於第一個問題,我們設計了具有漸進式重新思考和協作學習機制的深度網絡,以分別提高重構的幀內和幀間的質量。對於幀內編碼,設計了漸進式重新思考塊PRB及其堆疊的漸進式重新思考網絡PRN,以模擬用於有效空間建模的人工決策機制。典型的級聯深度網絡在每個塊的末尾使用瓶頸模塊來減小特徵的尺寸大小,以生成對過去經驗的總結。我們設計的積木逐步進行反思,即引入附加的積木內部連接,以繞過積木中的高維信息功能,以回顧過去完整的記憶經驗。對於幀間編碼,該模型可以協作學習時間建模。當前重建的幀與參考幀的峯值質量幀以及最近的相鄰幀在特徵級別上逐漸相互作用。對於第二個問題,邊信息利用率,我們提取了幀內和幀間邊信息,以進行更好的上下文建模。基於HEVC分區樹的粗略精細分區圖被構建爲幀內邊信息。此外,提供參考幀的扭曲特徵作爲幀間邊信息。得益於我們的精巧設計,在全幀內AI,低延遲B LDB,低延遲P LDP和隨機訪問RA配置下,我們的PRN分別平均降低了9.0,9.0,10.6和8.0 BD速率。

Predicting Target Feature Configuration of Non-stationary Objects for Grasping with Image-Based Visual Servoing
Authors Jesse Haviland, Feras Dayoub, Peter Corke
在本文中,我們考慮了閉環抓取的最後進近階段的問題,其中RGB D攝像機不再能夠提供有效的深度信息。這對於在當前的機器人抓握控制器出現故障的情況下抓握非靜止物體至關重要。我們預測最終抓握姿勢下觀察到的圖像特徵的圖像平面座標,並使用基於圖像的視覺伺服將機器人引導到該姿勢。基於圖像的視覺伺服是一種完善的控制技術,可以在3D空間中移動相機,以將圖像平面特徵配置驅動到某些目標狀態。在先前的工作中,假設目標特徵配置是已知的,但是對於某些應用,如果例如相對於場景第一次執行運動,則這可能不可行。我們提出的方法針對抓握最後階段的場景運動以及機器人運動控制中的錯誤提供了魯棒性。我們在動態閉環把握的背景下提供實驗結果。

Substituting Gadolinium in Brain MRI Using DeepContrast
Authors Haoran Sun, Xueqing Liu, Xinyang Feng, Chen Liu, Nanyan Zhu, Sabrina J. Gjerswold Selleck, Hong Jian Wei, Pavan S. Upadhyayula, Angeliki Mela, Cheng Chia Wu, Peter D. Canoll, Andrew F. Laine, J. Thomas Vaughan, Scott A. Small, Jia Guo
腦血容量CBV與氧代謝的血流動力學相關,反映了大腦的活動和功能。可以使用穩態g增強MRI技術生成高分辨率CBV圖。這種技術需要靜脈注射基於外源g的造影劑GBCA,最近的研究表明,GBCA在頻繁使用後會積聚在大腦中。我們假設,最常規和最常用的結構MRI中可能存在內源性對比源,從而可能消除了對外源性對比的需求。在這裏,我們通過開發和優化小鼠中的深度學習算法(稱爲DeepContrast)來檢驗該假設。我們發現DeepContrast在繪製正常大腦組織的CBV和增強膠質母細胞瘤方面表現與外源性GBCA一樣好。總之,這些研究證實了我們的假設,即深度學習方法可以替代腦部MRI中對GBCA的需求。

Supervised Segmentation of Retinal Vessel Structures Using ANN
Authors Esra Kaya, smail Sar ta , Ilker Ali Ozkan
在這項研究中,使用人工神經網絡ANN在RGB圖像的綠色通道上執行了有監督的視網膜血管分割過程。優選綠色通道,因爲可以最清楚地將視網膜血管結構與RGB圖像的綠色通道區分開。該研究是使用DRIVE數據集中的20張圖像進行的,DRIVE數據集是已知的最常見的視網膜數據集之一。圖像經過一些預處理階段,例如對比度受限的自適應直方圖均衡化CLAHE,顏色強度調整,形態學運算以及中值和高斯濾波,以獲得良好的分割效果。視網膜血管結構通過高頂禮帽和自動禮帽形態學操作突出顯示,並通過全局閾值轉換爲二進制圖像。然後,通過在數據集中指定爲訓練圖像的圖像的二進制版本來訓練網絡,而目標是由專家手動分割的圖像。發現20幅圖像的平均分割精度爲0.9492。

Segmentation with Residual Attention U-Net and an Edge-Enhancement Approach Preserves Cell Shape Features
Authors Nanyan Zhu, Chen Liu, Zakary S. Singer, Tal Danino, Andrew F. Laine, Jia Guo
在活的單細胞中外推基因表達動態的能力需要魯棒的細胞分裂,而挑戰之一是無定形或不規則形狀的細胞邊界。爲了解決此問題,我們修改了U Net架構,以在熒光寬視場顯微鏡圖像中分割細胞並定量評估其性能。我們還提出了一種新穎的損失函數方法,該方法強調了細胞邊界上的分割精度並鼓勵了形狀特徵的保留。我們的方法具有97的靈敏度,93的特異性,91的Jaccard相似度和95的Dice係數,我們提出的具有邊緣增強功能的殘餘注意力U Net在分割性能方面已超過了傳統的U Net(通過傳統指標評估)。更值得注意的是,在保留寶貴的形狀特徵(即面積,偏心率,主軸長度,堅固性和方向性)方面,同一候選人也表現最好。形狀特徵保留的這些改進可以用作有用的資產,用於下游單元跟蹤和量化單元統計量或特徵隨時間的變化。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


在這裏插入圖片描述
在這裏插入圖片描述
pic from pexels.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章