【AI視野·今日CV 計算機視覺論文速覽第166期】Mon, 28 Oct 2019

AI視野·今日CS.CV 計算機視覺論文速覽
Mon, 28 Oct 2019
Totally 47 papers
👉上期速覽✈更多精彩請移步主頁

Interesting:

📚聯合顯著性檢測,提出了一種從單張圖像中檢測出具有相似語義屬性的物體顯著性的的方法。比如從球場上檢測出同一個隊伍的人員，或者從分出不同毛色的相同動物 (from 武漢大學)

📚基於立體聲的移動交通工具檢測方法, 只需要利用立體聲音數據和相機元數據即可在參考幀視頻中定位運動目標的位置，而無需視頻輸入。(from mit)

📚, (from )

📚****Deep Image Blending一種優秀的圖像融合方法, (from 賓夕法尼亞大學)

code：https://arxiv.org/pdf/1910.11495.pdf

📚多人體光流學習, (from 馬普研究所德國)
基於blender進行數據合成的方法值得學習：

code：https://arxiv.org/pdf/1910.11667.pdf

📚ALET一個自然環境中工具檢測數據和基線模型, (from 土耳其中東技術大學)
![在這裏插入圖片描述](https://img-blog.csdnimg.cn/20191029221806590.png =600xx)

Daily Computer Vision Papers

LPRNet: Lightweight Deep Network by Low-rank Pointwise Residual Convolution
Authors Bin Sun, Jun Li, Ming Shao, Yun Fu
近年來，由於強大的計算設備（例如GPU），深度學習已變得流行。但是，將這些深度模型部署到資源有限的最終用戶設備，智能電話或嵌入式系統是具有挑戰性的。爲了減少計算和內存成本，我們通過低秩逐點殘差LPR卷積提出了一種新穎的輕量級深度學習模塊，稱爲LPRNet。本質上，LPR的目標是在點向卷積中使用低秩逼近來進一步減小模塊大小，同時將深度卷積作爲殘差模塊來校正LPR模塊。當低等級破壞卷積過程時，這一點至關重要。我們通過替換MobileNet和ShuffleNetv2中具有相同輸入輸出尺寸的模塊來體現我們的設計。根據流行的基準進行的視覺識別任務（包括圖像分類和麪部對齊）的實驗表明，與專注於模型壓縮的最新深層模型相比，我們的LPRNet具有競爭優勢，但Flops和內存成本顯着降低。

Learning to Track Any Object
Authors Achal Dave, Pavel Tokmakov, Cordelia Schmid, Deva Ramanan
對象跟蹤可以表示爲在視頻中找到合適的對象。我們觀察到，用於類不可知跟蹤的最新方法傾向於將重點放在發現部分上，但在很大程度上忽略了任務的對象部分，本質上是在滑動窗口中的框架上進行模板匹配。相反，特定類別的跟蹤器嚴重依賴於特定類別對象檢測器形式的對象先驗。在這項工作中，我們將特定於類別的外觀模型用於通用的對象。我們的方法可以將類別特定的對象檢測器實時轉換爲類別不可知的特定對象檢測器，即有效的跟蹤器。此外，在測試時，可以將同一網絡應用於檢測和跟蹤，從而爲這兩個任務提供統一的方法。我們使用外部數據，在兩個最近的大規模跟蹤基準OxUvA和GOT上獲得了最先進的結果。通過簡單地添加遮罩預測分支，我們的方法能夠爲被跟蹤對象生成實例分割遮罩。儘管僅在第一幀上使用了盒級信息，但我們的方法仍輸出高質量的蒙版，這是根據DAVIS 17視頻對象分段基準進行評估的。

An End-to-End Network for Co-Saliency Detection in One Single Image
Authors Yuanhao Yue, Qin Zou, Hongkai Yu, Qian Wang, Song Wang
作爲常見的視覺問題，單個圖像內的共顯着性檢測沒有引起足夠的重視，但尚未得到很好的解決。現有方法通常遵循自下而上的策略來推斷圖像中的共顯着性，其中首先使用諸如顏色和形狀的視覺圖元檢測顯着區域，然後將其分組併合併爲同顯性圖。但是，在人類視覺中，自下而上和自上而下的策略結合在一起，以一種複雜的方式固有地感知了共顯性。針對這一問題，本文提出了一種新型的端到端可訓練網絡，它包括一個骨幹網和兩個分支網。骨幹網使用地面真相掩碼作爲顯着性預測的自上而下的指導，而兩個分支網爲特徵組織和聚類構建三元組提議，這促使網絡以自下而上的方式對共同區域敏感。爲了評估所提出的方法，我們構造了一個新的數據集，其中包含每張圖像中的共同凸顯的2,019張自然圖像。實驗結果表明，所提出的方法以28fps的運行速度達到了最先進的精度。

Real-time Memory Efficient Large-pose Face Alignment via Deep Evolutionary Network
Authors Bin Sun, Ming Shao, Siyu Xia, Yun Fu
由於近來的面部識別應用的激增，迫切需要以存儲有效和實時的方式應用面部對準。但是，諸如姿勢變化大和計算效率低等影響因素仍然阻礙了其廣泛實施。爲此，我們提出了一種與3D擴散堆貼圖DHM集成的高效計算的深度演化模型。首先，我們引入一個稀疏的3D DHM來輔助極端姿勢條件下的初始建模過程。然後，提取簡單有效的CNN特徵，並將其輸入到遞歸神經網絡RNN中進行進化學習。爲了加速該模型，我們提出了一種有效的網絡結構，以通過分解策略來加速進化學習過程。在三個流行的對齊數據庫上進行的大量實驗證明了所提出的模型優於現有技術的優勢，尤其是在大擺姿勢條件下。值得注意的是，我們模型的計算速度比CPU上的最新技術快10倍，而在GPU上則是14倍。我們還將討論和分析我們的模型和未來研究工作的侷限性。

JRDB: A Dataset and Benchmark for Visual Perception for Navigation in Human Environments
Authors Roberto Mart n Mart n, Hamid Rezatofighi, Abhijeet Shenoi, Mihir Patel, JunYoung Gwak, Nathan Dass, Alan Federman, Patrick Goebel, Silvio Savarese
我們展示了JRDB，這是一個從我們的社交移動操縱器JackRabbot收集的新穎數據集。數據集包括64分鐘的多模式傳感器數據，包括15 fps的立體聲圓柱體360 circ RGB視頻，兩個Velodyne 16 Lidars的3D點雲，兩個Sick Lidars的線3D點雲，音頻信號，30 fps的RGBD視頻，360 circ球形魚眼鏡頭的圖像和機器人車輪的編碼器值。我們的數據集包括來自傳統上代表性不足的場景（例如室內環境和行人區域）的數據，這些數據來自固定和導航機器人平臺。該數據集已標註了超過230萬個邊界框，這些邊界框分佈在場景中的所有人周圍的5個單獨的攝像頭中，以及180萬個相關的3D長方體，總計超過3500個時間一致性軌跡。連同我們的數據集和註釋，我們爲2D和3D人員檢測和跟蹤啓動了基準和指標。藉助我們計劃在將來進行進一步註釋的數據集，我們希望爲機器人自主導航以及人類環境中圍繞社交機器人的所有感知任務領域的研究提供新的數據源和測試平臺。

Self-supervised Learning of Detailed 3D Face Reconstruction
Authors Yajing Chen, Fanzi Wu, Zeyu Wang, Yibing Song, Yonggen Ling, Linchao Bao
在本文中，我們提出了一個端到端學習框架，用於從單個圖像進行詳細的3D人臉重建。我們的方法使用基於3DMM的粗略模型和UV空間中的位移圖來表示3D面。與以前解決該問題的工作不同，我們的學習框架不需要監督使用傳統方法計算的替代地面真實3D模型。相反，我們在學習過程中將輸入圖像本身用作監督。在第一階段，我們將輸入面部和渲染面部之間的光度損失和麪部感知損失結合起來，以迴歸基於3DMM的粗略模型。在第二階段，將輸入圖像和粗糙模型的迴歸紋理都展開到UV空間中，然後通過圖像到圖像轉換網絡發送以預測UV空間中的位移圖。位移圖和粗略模型用於渲染最終的詳細人臉，該人又可以與原始輸入圖像進行比較，以作爲第二階段的光度損失。在UV空間中學習位移貼圖的優點是，可以在展開過程中明確完成面部對齊，因此更容易從大量數據中學習面部細節。大量的實驗證明了所提出的方法優於以前的工作。

ClsGAN: Selective Attribute Editing Based On Classification Adversarial Network
Authors Liu Ying, Heng Fan, Fuchuan Ni, Jinhai Xiang
歸因編輯通過結合編碼器，解碼器結構和生成對抗網絡，顯示出令人矚目的進步。但是，在生成圖像的質量和屬性轉換方面仍然存在一些挑戰。編碼器解碼器結構導致圖像模糊，並且編碼器解碼器結構的跳躍連接削弱了屬性傳遞能力。爲了解決這些限制，我們提出了一個分類對抗模型Cls GAN，它可以在屬性傳遞和生成的照片逼真的圖像之間取得平衡。考慮到傳輸圖像受使用跳過連接的原始屬性的影響，我們引入了上卷積殘差網絡Tr resnet來從源圖像和目標標籤中選擇性地提取信息。特別地，我們將其應用於屬性分類對抗網絡，以瞭解屬性傳遞圖像的缺陷，以指導生成器。最後，爲了滿足多模式的需求並提高重構效果，我們構建了包括內容和樣式網絡在內的兩個編碼器，並選擇了源標籤和樣式網絡輸出之間的屬性標籤近似值。在CelebA數據集上進行的實驗表明，圖像在圖像質量和傳輸準確性方面優於現有的現有模型。 Wikiart和季節性數據集上的實驗表明，ClsGAN可以有效地實現樣式轉移。

Gated Multi-layer Convolutional Feature Extraction Network for Robust Pedestrian Detection
Authors Tianrui Liu, Jun Jie Huang, Tianhong Dai, Guangyu Ren, Tania Stathaki
隨着深度卷積神經網絡的發展，行人檢測方法得到了顯着改善。然而，如何可靠地檢測大小和遮擋較大的行人仍然是一個具有挑戰性的問題。在本文中，我們提出了一種門控多層卷積特徵提取方法，該方法可以自適應地生成候選行人區域的判別特徵。提出的門控特徵提取框架由擠壓單元，門控單元和級聯層組成，分別執行多個CNN層的特徵尺寸壓縮，特徵元素操縱和卷積特徵組合。我們提出了兩種不同的門模型，可以分別以通道明智的選擇方式和空間明智的選擇方式來操縱區域特徵圖。在具有挑戰性的CityPersons數據集上進行的實驗證明了該方法的有效性，尤其是在檢測那些較小的人行道和被遮擋的行人時。

Self-supervised Moving Vehicle Tracking with Stereo Sound
Authors Chuang Gan, Hang Zhao, Peihao Chen, David Cox, Antonio Torralba
人類能夠使用視覺和聽覺線索來定位環境中的對象，並將來自多種模態的信息整合到一個共同的參考框架中。我們介紹了一種系統，該系統可以利用未標記的視聽數據來學習在視覺參考系中定位移動車輛的對象，而在推理時僅使用立體聲即可。由於手動註釋音頻和對象邊界框之間的對應關係需要大量勞動，因此我們通過使用未標記視頻中視頻和音頻流的共同出現作爲一種自我監督的方式來實現此目標，而無需藉助地面真理註釋的收集。特別是，我們提出了一個由視覺老師網絡和立體聲學生網絡組成的框架。在訓練過程中，使用未標記的視頻作爲橋樑，將建立在完善的可視車輛檢測模型中的知識轉移到音頻域。在測試時，立體聲學生網絡可以獨立工作，僅使用立體聲音頻和攝像機元數據進行對象定位，而無需任何視覺輸入。在新收集的Au Ditory Vehicle Tracking數據集上的實驗結果證明，我們提出的方法優於幾種基準方法。我們還證明，我們的交叉模式聽覺定位方法可以在光線不足的情況下幫助移動車輛的視覺定位。

ALET (Automated Labeling of Equipment and Tools): A Dataset, a Baseline and a Usecase for Tool Detection in the Wild
Authors Fatih Can Kurnaz, Burak Hocao lu, Mert Kaan Y lmaz, dil S lo, Sinan Kalkan KOVAN Research Lab, Dept. of Computer Engineering, Middle East Technical University, Ankara, Turkey
在現實環境中與人類協作的機器人將需要能夠檢測可以使用和操縱的工具。但是，沒有可用的數據集或研究可以解決實際環境中的這一挑戰。在本文中，我們通過提供廣泛的METU ALET數據集填補了這一空白，該數據集可用於檢測農業，園藝，辦公室，石工，車輛，木工和車間工具。這些場景對應於使用或不使用人工工具的複雜環境。我們考慮的場景爲對象檢測帶來了一些挑戰，包括工具的小規模，它們的鉸接性質，遮擋，類間不變性等。此外，我們訓練並比較了幾種最先進的深度對象檢測器，包括Faster R CNN，數據集上的YOLO和RetinaNet。我們觀察到檢測器很難檢測到特別是小型工具或在視覺上與其他工具的零件相似的工具。反過來，這也支持了我們的數據集和論文的重要性。藉助數據集，代碼和訓練有素的模型，我們的工作爲進一步研究工具及其在機器人應用中的使用奠定了基礎。

Hierarchical Prototype Learning for Zero-Shot Recognition
Authors Xingxing Zhang, Shupeng Gui, Zhenfeng Zhu, Yao Zhao, Ji Liu
零射擊學習ZSL近年來受到了廣泛的關注和成功，特別是在細顆粒物體識別，檢索和圖像字幕領域。 ZSL的關鍵是通過輔助語義原型（例如單詞或屬性向量）將知識從可見的類轉移到看不見的類。但是，由於語義原型中包含非視覺組件，因此先前作品中廣爲學習的投影函數無法很好地概括。此外，ZSL最先進的方法很少考慮提供的原型和捕獲的圖像的不完整性。在本文中，我們提出了一種分層的原型學習公式，以提供一個名爲HPL的系統解決方案來實現零擊識別。具體來說，HPL能夠通過分別在轉導設置下學習視覺原型來在可見和不可見的類域上獲得可分辨性。爲了縮小兩個領域的差距，我們進一步在視覺和語義空間中學習了可解釋的超級原型。同時，通過最大化其結構一致性來進一步橋接兩個空間。這不僅促進了視覺原型的代表性，而且減輕了語義原型信息的丟失。然後精心設計和展示了一組廣泛的實驗，表明與各種設置下的當前可用替代方案相比，HPL的效率和有效性顯着提高。

Learning Multi-Human Optical Flow
Authors Anurag Ranjan, David T. Hoffmann, Dimitrios Tzionas, Siyu Tang, Javier Romero, Michael J. Black
衆所周知，人的光流可用於分析人的行爲。最近的光流方法專注於訓練深度網絡以解決該問題。但是，他們使用的訓練數據並不涵蓋人體運動的領域。因此，我們開發了一個多人光流數據集，並在此數據集上訓練了光流網絡。我們使用人體和運動捕捉數據的3D模型在單人和多人圖像中合成逼真的流場。然後，我們訓練光流網絡，以從成對的圖像中估計人流場。我們證明，經過訓練的網絡比對測試數據進行保留的頂級方法要準確得多，並且可以很好地推廣到真實的圖像序列。代碼，訓練有素的模型和數據集可供研究。

Attend to the Difference: Cross-Modality Person Re-identification via Contrastive Correlation
Authors Shizhou Zhang, Yifei Yang, Peng Wang, Xiuwei Zhang, Yanning Zhang
跨模態人員重新識別的問題由於其實際意義最近已引起越來越多的關注。受人類在比較兩個相似對象時通常會注意差異的事實的啓發，我們提出了一種雙路徑交叉模態特徵學習框架，該框架保留了固有的空間狹窄並處理了輸入的交叉模態圖像對的差異。我們的框架由兩個主要組成部分組成：保留公共空間網絡DSCSN的雙路徑空間結構和對比相關網絡CCN。前者將交叉模態圖像嵌入到通用的3D張量空間中，而不會丟失空間結構，而後者通過動態比較輸入圖像對來提取對比特徵。注意，爲輸入的RGB和紅外圖像生成的表示形式相互依賴。我們對兩個公共可用的RGB IR ReID數據集SYSU MM01和RegDB進行了廣泛的實驗，我們提出的方法在完整和簡化的評估模式下都大大優於最新算法。

Reducing Domain Gap via Style-Agnostic Networks
Authors Hyeonseob Nam, HyunJae Lee, Jongchan Park, Wonjun Yoon, Donggeun Yoo
深度學習模型通常無法在新的測試域上維持其性能。該問題已被視爲深度學習在實際應用中的關鍵限制。導致域更改易受攻擊的主要原因之一是該模型傾向於偏向圖像樣式（即紋理）。爲了解決這個問題，我們建議使用樣式不可知網絡SagNets來鼓勵模型將更多注意力放在圖像內容上，即跨域共享的形狀但忽略圖像樣式。 SagNets由三種新技術組成：樣式對抗學習，樣式融合和樣式一致性學習，每種技術都阻止模型基於樣式信息做出決策。結合一些其他培訓技術和幾種模型變體的集成，提出的方法在Visual Domain Adaptation 2019 VisDA 2019 Challenge的半監督域自適應任務中獲得第一名。

Learning to Localize Temporal Events in Large-scale Video Data
Authors Mikel Bober Irizar, Miha Skalic, David Austin
我們在Youtube 8M Segments數據集中解決大規模視頻數據中事件的時間定位。視頻識別中的這一新興領域可以使應用程序識別視頻中特定事件發生的準確時間，這對視頻搜索具有廣泛的意義。爲了解決這個問題，我們提出了兩種單獨的方法：1是在精巧的數據集上構建梯度增強決策樹模型，2是基於幀級數據，視頻級數據和本地化模型的深度學習模型的組合。這兩種方法的組合在第三屆Youtube 8M視頻識別挑戰賽中排名第五。

Seeing What a GAN Cannot Generate
Authors David Bau, Jun Yan Zhu, Jonas Wulff, William Peebles, Hendrik Strobelt, Bolei Zhou, Antonio Torralba
儘管生成式對抗網絡GAN取得了成功，但模式崩潰仍然是GAN訓練期間的一個嚴重問題。迄今爲止，很少有工作集中在理解和量化模型丟棄的模式上。在這項工作中，我們在分發級別和實例級別都可視化了模式崩潰。首先，我們部署一個語義分割網絡，以比較生成圖像中分割對象的分佈與訓練集中的目標分佈。統計上的差異揭示了GAN忽略的對象類。其次，給定已識別的遺漏對象類，我們直接可視化GAN的遺漏。特別是，我們通過GAN比較了各個照片及其近似反演之間的特定差異。爲此，我們放寬了反演問題，並解決了將GAN層而非整個發生器反演的棘手問題。最後，我們使用此框架來分析在多個數據集上受訓的幾個最近的GAN，並確定它們的典型故障案例。

Hardware-aware One-Shot Neural Architecture Search in Coordinate Ascent Framework
Authors Li Lyna Zhang, Yuqing Yang, Yuhang Jiang, Wenwu Zhu, Yunxin Liu
爲大量的硬件設計準確而有效的卷積神經體系結構具有挑戰性，因爲硬件設計是複雜而多樣的。本文解決了神經架構搜索NAS中的硬件多樣性挑戰。與先前的將搜索算法應用在人爲設計的小型搜索空間而不考慮硬件多樣性的先前方法不同，我們提出了HURRICANE，該方法在更大的搜索空間上探索自動硬件感知的搜索，並在協調上升框架中採用多步搜索方案，以生成定製模型用於不同類型的硬件。在ImageNet上進行的大量實驗表明，與三種類型的硬件上最先進的NAS方法相比，我們的算法始終可以達到更低的推理延遲，並且具有相似或更高的準確性。值得注意的是，HURRICANE在ImageNet上實現了76.63最高的1精度，而DSP的推理延遲僅爲16.5 ms，與FBNet iPhoneX相比，其精確度提高了3.4倍，推理速度提高了6.35倍。對於VPU，與無代理移動設備相比，颶風實現的前1位準確性高出0.53倍，加速比提高了1.49倍。即使對於經過充分研究的移動CPU，與類似的推理延遲相比，颶風也比FBNet iPhoneX的top 1精度高1.63。與SinglePath Oneshot相比，颶風還平均減少了54.7的培訓時間。

CrevNet: Conditionally Reversible Video Prediction
Authors Wei Yu, Yichao Lu, Steve Easterbrook, Sanja Fidler
應用分辨率保留塊是在視頻預測中最大化信息保留的一種常見做法，但是它們的高內存消耗極大地限制了其應用場景。我們提出CrevNet，這是一個條件可逆網絡，它使用可逆架構來構建雙射雙向雙向自動編碼器及其互補的遞歸預測器。我們的模型具有在理論上保證的特性，即在特徵提取過程中不會丟失任何信息，並且內存消耗和計算效率都大大降低。

Metric Classification Network in Actual Face Recognition Scene
Authors Jian Li, Yan Wang, Xiubao Zhang, Weihong Deng, Haifeng Shen
爲了使面部特徵更具區分性，最近提出了一些新模型。但是，幾乎所有這些模型都使用傳統的人臉驗證方法，其中使用瓶頸層輸出的特徵執行餘弦運算。但是，每個模型每次在不同的測試集上運行時都需要更改閾值。這對於實際場景中的應用非常不合適。在本文中，我們訓練了一個驗證分類器來對決策閾值進行歸一化，這意味着可以直接獲得結果而無需替換閾值。我們將模型稱爲驗證分類器，該模型在由一個卷積層和六個完全連接的層組成的結構上獲得最佳結果。爲了測試我們的方法，我們對Wild LFW和Youtube Faces YTF中的Labeled Face進行了廣泛的實驗，相對誤差減少量分別比傳統方法減少了25.37和26.60。這些實驗證實了驗證分類器在人臉識別任務上的有效性。

Progressive Unsupervised Person Re-identification by Tracklet Association with Spatio-Temporal Regularization
Authors Qiaokang Xie, Wengang Zhou, Guo Jun Qi, Qi Tian, Houqiang Li
用於人員識別的現有方法Re ID主要基於監督學習，該學習需要在所有攝像機視圖中進行大量手動標記的樣本進行訓練。由於在現實世界的Re ID應用中，很難在多個不相交的相機視圖上詳盡地標記豐富的身份，因此這種範例遭受了可伸縮性問題的困擾。爲此，我們提出了一種由Tracklet關聯時空時空正則化TASTR在野外對無監督人員Re ID進行漸進式深度學習的方法。在我們的方法中，我們首先通過自動人員檢測和跟蹤來收集每個攝像機中的小軌跡數據。然後，基於攝像機三元組構造來訓練初始Re ID模型以進行人像學習。之後，基於人的視覺特徵和時空約束，我們將跨攝像機軌跡小波關聯以生成跨攝像機三重奏並更新Re ID模型。最後，通過改進的Re ID模型，可以更好地提取人的視覺特徵，從而進一步促進跨相機軌跡的關聯。重複執行最後兩個步驟，以逐步升級Re ID模型。

An End-to-End Foreground-Aware Network for Person Re-Identification
Authors Yiheng Liu, Wengang Zhou, Jianzhuang Liu, Guojun Qi, Qi Tian, Houqiang Li
重新識別人員是跨多個監視攝像機視圖識別感興趣的行人的關鍵任務。在人員識別中，通常用從矩形圖像區域提取的特徵來代表行人，該矩形圖像區域不可避免地包含場景背景，這會導致歧義以區分不同的行人並降低準確性。爲此，我們提出了一種端到端的前景感知網絡，通過學習用於人員重新識別的軟掩碼來將前景與背景區分開。在我們的方法中，除了將行人ID用作對前景的監視之外，我們還將每個行人圖像的攝像機ID引入背景建模。前景分支和背景分支是協同優化的。通過呈現目標註意力損失，從前景分支提取的行人特徵對背景變得更加不敏感，這極大地減少了改變背景對在不同攝像機視圖之間匹配相同圖像帶來的負面影響。值得注意的是，與現有方法相比，我們的方法不需要任何其他數據集來訓練人類地標檢測器或用於定位背景區域的分割模型。在三個具有挑戰性的數據集上進行的實驗結果，即Market 1501，DukeMTMC reID和MSMT17，證明了我們方法的有效性。

TRB: A Novel Triplet Representation for Understanding 2D Human Body
Authors Haodong Duan, KwanYee Lin, Sheng Jin, Wentao Liu, Chen Qian, Wanli Ouyang
人體姿勢和形狀是2D人體的兩個重要組成部分。但是，如何有效地在圖像中表示這兩者仍然是一個懸而未決的問題。在本文中，我們提出了人體TRB的三重態表示形式，它是一種緊湊的2D人體表示形式，其骨架關鍵點捕獲了人體姿勢信息，輪廓關鍵點包含了人體形狀信息。 TRB不僅保留了骨架關鍵點表示的靈活性，而且還包含豐富的姿勢和人體形狀信息。因此，它有望提供更廣闊的應用領域，例如人體形狀編輯和條件圖像生成。我們進一步介紹了TRB估算的挑戰性問題，需要共同學習人體的姿勢和形狀。我們基於流行的2D姿態數據集LSP，MPII，COCO構建了幾個大型TRB估計數據集。爲了有效地解決TRB估計問題，我們提出了一種具有三項新穎技術的兩分支網絡TRB網絡，即X結構Xs，方向卷積DC和成對映射PM，以強制進行多級消息傳遞以進行聯合特徵學習。我們在擬議的TRB數據集上評估了擬議的TRB網絡和幾種領先方法，並通過廣泛的評估證明了我們方法的優越性。

Team PFDet's Methods for Open Images Challenge 2019
Authors Yusuke Niitani, Toru Ogawa, Shuji Suzuki, Takuya Akiba, Tommi Kerola, Kohei Ozaki, Shotaro Sano
我們介紹了PFDet團隊在Open Images Challenge 2019中使用的實例分割和對象檢測方法。我們解決了龐大的數據集大小，巨大的類不平衡和聯合註釋。使用此方法，團隊PFDet在實例分割和對象檢測軌跡上分別獲得了第三和第四名。

RhythmNet: End-to-end Heart Rate Estimation from Face via Spatial-temporal Representation
Authors Xuesong Niu, Hu Han, Shiguang Shan, Xilin Chen
心率HR是重要的生理信號，可反映人的身體和情緒狀態。傳統的HR測量通常依賴於接觸監視器，這可能會帶來不便和不適。近來，已經提出了一些用於從面部視頻進行遠程HR估計的方法，但是，大多數方法集中在控制良好的場景上，它們在諸如頭部移動和照明不良的情況下被推廣到受約束較小的場景中的能力尚不清楚。同時，缺乏大規模的人力資源數據庫限制了深度模型用於遠程人力資源估計的使用。在本文中，我們提出了端到端的RhythmNet，用於從面部進行遠程HR估計。在RyhthmNet中，我們使用對來自多個ROI體積的HR信號進行編碼的空間時態表示作爲其輸入。然後，將空間時間表示饋送到卷積網絡中以進行HR估計。我們還考慮了通過門控循環單元GRU從視頻序列中相鄰HR測量的關係，並實現了有效的HR測量。此外，我們還建立了一個名爲VIPL HR的大規模多模式HR數據庫，可從以下網站獲得

A comparable study: Intrinsic difficulties of practical plant diagnosis from wide-angle images
Authors Katsumasa Suwa, Quan Huu Cap, Ryunosuke Kotani, Hiroyuki Uga, Satoshi Kagiwada, Hitoshi Iyatomi
適用於廣角圖像的實用的自動植物病害檢測和診斷，即在野外圖像中包含來自固定位置相機的多片葉子，這對於大規模農場管理非常重要，可確保全球食品安全。然而，開發自動疾病診斷系統通常很困難，因爲從實際領域標記可靠的疾病廣角數據集非常費力。此外，訓練數據和測試數據之間的潛在相似性會導致嚴重的模型過度擬合問題。在本文中，我們調查了將疾病診斷系統應用於實際農場捕獲的廣角黃瓜測試數據的不同場景時的性能變化，並提出了一種較好的診斷策略。我們證明，領先的對象識別技術（例如SSD和Faster R CNN）僅在與訓練數據集81.5 84.1 F1分數相同的人羣中收集的被診斷疾病病例的測試數據集上實現了出色的端到端疾病診斷性能，但是它F1分數完全不同的測試數據4.4 6.2嚴重惡化。相反，具有獨立葉子檢測和葉子診斷模型的兩階段系統獲得了有希望的疾病診斷性能，其比看不見的目標數據集上的F1得分的端到端系統33.4 38.9高出6倍以上。我們還從視覺評估中確認了其效率，認爲兩個階段的模型是合適的，是實際應用的合理選擇。

Toward an Automatic System for Computer-Aided Assessment in Facial Palsy
Authors Diego L. Guarin, Yana Yunusova, Babak Taati, Joseph R Dusseldorp, Suresh Mohan, Joana Tavares, Martinus M. van Veen, Emily Fortier, Tessa A. Hadlock, Nate Jowett
重要性機器學習ML進行人臉界標定位的方法具有巨大的臨牀潛力，可以對人臉功能進行定量評估，因爲它們可以對照片中的相關人臉度量進行高通量自動量化。但是，從研究環境到臨牀應用的轉換需要重要的改進。目的開發一種用於在面神經麻痹患者的照片中準確定位面部標誌的ML算法，並將其用作自動計算機輔助診斷系統的一部分。設計，設置和參與者將面部標誌手動定位在從200名面癱患者和10名對照中獲得的八種表情的肖像照片中。使用該疾病特異性數據庫訓練了用於自動面部界標定位的新穎的ML模型。將模型輸出與手動註釋進行比較，並使用僅包含健康受試者的較大數據庫對模型的輸出進行訓練。通過算法預測和手動註釋之間的歸一化均方根誤差NRMSE評估模型的準確性。結果與健康對照NRMSE相比，當應用於患者時，公開可用的算法提供的結果較差，NRMSE爲8.56 2.16 vs. 7.09 2.34，p 0.01。與使用數千張健康面部圖像訓練的模型相比，使用相對較少數量的患者照片1440訓練的模型，我們發現臨牀人羣的面部界標定位精度有了顯着提高，NRMSE，6.03 2.43 vs. 8.56 2.16，p 0.01 。結論用少量臨牀圖像訓練地標檢測模型可以顯着改善臨牀人羣正面照片中的地標檢測性能。這些結果代表了針對面癱的計算機輔助評估自動系統的第一步。

Deep Image Blending
Authors Lingzhi Zhang, Tarmily Wen, Jianbo Shi
圖像合成是創建視覺內容的重要操作。在圖像合成任務中，圖像融合旨在通過輕輕地進行蒙版調整將對象從源圖像無縫融合到目標圖像。泊松圖像融合是一種流行的方法，它可以在合成圖像中增強梯度域的平滑度。然而，該方法僅考慮目標圖像的邊界像素，因此不能適應目標圖像的紋理。此外，目標圖像的顏色通常會滲入原始源對象太多，從而導致源對象內容的重大損失。我們提出一種泊松混合損失，該損失可以實現泊松圖像混合的相同目的。另外，我們共同優化了擬議的泊松混合損失以及從深度網絡計算出的樣式和內容損失，並通過使用L BFGS求解器迭代更新像素來重建混合區域。在融合圖像中，我們不僅平滑了融合邊界的梯度域，還向融合區域添加了一致的紋理。用戶研究表明，將對象放置在繪畫和真實世界圖像上時，我們的方法優於強大的基準以及最新的方法。

Multimodal Image Outpainting With Regularized Normalized Diversification
Authors Lingzhi Zhang, Jiancong Wang, Jianbo Shi
在本文中，我們研究僅給出很小的前景區域時就產生一組現實而多樣的背景的問題。我們將此任務稱爲圖像外包。這項任務的技術挑戰是不僅要合成合理的圖像輸出，還要合成各種圖像輸出。傳統的生成對抗網絡會遭受模式崩潰的影響。儘管最近的方法建議相對於其潛在距離最大化或保留生成的樣本之間的成對距離，但它們並未明確阻止崩潰的不同條件輸入的不同樣本。因此，我們提出了一種新的正則化方法，以鼓勵條件合成中的多種採樣。此外，我們提出了一種特徵金字塔判別器，以提高圖像質量。我們的實驗結果表明，與CelebA人臉數據集和Cityscape場景數據集中的最新技術相比，我們的模型可以在不犧牲視覺質量的情況下生成更多種多樣的圖像。

Heterogeneous Graph Learning for Visual Commonsense Reasoning
Authors Weijiang Yu, Jingwen Zhou, Weihao Yu, Xiaodan Liang, Nong Xiao
視覺常識推理任務旨在通過預測正確答案的能力引領研究領域解決認知水平的推理，同時提供令人信服的推理路徑，從而產生三個子任務，即Q A，QA R和Q AR。在視覺和語言領域以及知識推理之間產生恰當的語義一致性以產生有說服力的推理路徑方面，這帶來了巨大的挑戰。現有作品要麼訴諸功能強大的端到端網絡，即無法產生可解釋的推理路徑，要麼僅探索視覺對象同質圖的內部關係，而忽略了視覺概念和語言單詞之間的跨域語義對齊。在本文中，我們提出了一種新的異構圖學習HGL框架，該框架可無縫集成圖內圖和圖間推理，以橋接視覺和語言領域。我們的HGL包括回答異質圖VAHG模塊的原始視野和回答異質圖QAHG模塊以交互地完善語義協議推理路徑的雙重問題。此外，我們的HGL集成了上下文投票模塊，可利用遠程視覺上下文進行更好的全局推理。在大規模的視覺常識推理基準上進行的實驗表明，我們提出的模塊在三個任務上的出色性能提高了Q A的5精度，QA R的3.5精度，Q AR的5.8

Animal Detection in Man-made Environments
Authors Abhineet Singh, Marcin Pietrasik, Gabriell Natha, Nehla Ghouaiel, Ken Brizel, Nilanjan Ray
自動檢測已誤入人類居住區的動物具有重要的安全和道路安全應用。本文嘗試使用來自各種計算機視覺領域的深度學習技術（包括對象檢測，跟蹤，分割和邊緣檢測）解決此問題。在調整在基準數據集上訓練的模型以用於實際部署時，可以在遷移學習中獲得一些有趣的見解。提供了經驗證據來證明檢測器無法將其在自然棲息地中的動物訓練圖像推廣到人造環境的部署場景。還提出了一種使用半自動合成數據生成進行領域特定訓練的解決方案。提供了實驗中使用的代碼和數據，以促進該領域的進一步工作。

Learning an Uncertainty-Aware Object Detector for Autonomous Driving
Authors Gregory P. Meyer, Niranjan Thakurdesai
檢測物體的能力是自動駕駛的核心部分。由於傳感器噪聲和數據不完整，無法完美檢測和定位每個對象。因此，對於檢測器而言，在每個預測中提供不確定量非常重要。爲自主系統提供可靠的不確定性，可使車輛根據不確定性程度做出不同的反應。先前的工作通過預測對象邊界框上的概率分佈來估計檢測中的不確定性。在這項工作中，我們提出了一種方法，通過考慮地面真實標記數據中的潛在噪聲來提高學習概率分佈的能力。我們提出的方法不僅提高了學習分佈的準確性，而且還提高了對象檢測性能。

Learning eating environments through scene clustering
Authors Sri Kalyan Yarlagadda, Sriram Baireddy, David G era. Carol J. Boushey, Deborah A. Kerr, Fengqing Zhu
衆所周知，飲食習慣對健康有重大影響。儘管已經進行了許多研究來了解這種關係，但對飲食環境和健康之間的關係知之甚少。然而，世界各地的研究人員和衛生機構已經認識到飲食環境是改善飲食和健康的有希望的環境。在本文中，我們提出了一種圖像聚類方法，該方法可從社區居住飲食研究期間捕獲的進餐場合圖像中自動提取進餐環境。具體來說，我們有興趣瞭解一個人在哪種不同的環境中食用食物。我們的方法通過使用深度神經網絡提取全局和局部尺度的特徵來對圖像進行聚類。由不同個體捕獲的簇和圖像的數量的變化使得這成爲非常具有挑戰性的問題。實驗結果表明，與幾種現有的聚類方法相比，我們的方法性能明顯更好。

***Handheld Mobile Photography in Very Low Light
Authors Orly Liba, Kiran Murthy, Yun Ta Tsai, Tim Brooks, Tianfan Xue, Nikhil Karnad, Qiurui He, Jonathan T. Barron, Dillon Sharlet, Ryan Geiss, Samuel W. Hasinoff, Yael Pritch, Marc Levoy
使用手機在低光下拍攝照片具有挑戰性，並且幾乎不會產生令人滿意的結果。除了讀取噪聲和光子散粒噪聲帶來的物理限制外，這些相機通常是手持式的，具有小光圈和傳感器，使用不易冷卻的大量生產的模擬電子設備，通常用於拍攝移動的物體，例如兒童和兒童。寵物。在本文中，我們描述了一種用於在低至0.3 lux的光線下捕獲乾淨，清晰，彩色照片的系統，在該系統中，人的視覺變得單色且模糊。爲了使手持攝影機無需閃光燈照明，我們可以捕獲，對齊和組合多個幀。我們的系統採用運動測光技術，該技術可使用運動量估計值（無論是由於握手還是運動物體引起的）來識別幀數和每幀曝光時間，從而將捕獲的突發中的噪聲和運動模糊最小化。我們使用專門針對高噪聲圖像的魯棒對齊和合並技術來組合這些幀。爲了確保在這種弱光下準確的色彩，我們採用了基於學習的自動白平衡算法。爲了防止照片看起來像是在白天拍攝的照片，我們使用了色調映射技術，該技術的靈感來自幻覺繪畫，以增加對比度，將陰影粉碎爲黑色，並在黑暗中環繞場景。所有這些過程都是使用移動設備的有限計算資源執行的。新手攝影師可以使用我們的系統通過單次快門按下在幾秒鐘內生成可共享的照片，即使在昏暗的環境下，人也看不清。

Surreal: Complex-Valued Deep Learning as Principled Transformations on a Rotational Lie Group
Authors Rudrasis Chakraborty, Yifei Xing, Stella Yu
近年來，複雜的深度學習因其多功能性和捕獲更多信息的能力而受到越來越多的關注。但是，缺乏明確定義的複雜價值操作仍然是進一步發展的瓶頸。在這項工作中，我們提出了一種利用加權Fr chet平均方法在複數空間上定義深度神經網絡的幾何方法。我們用數學方法證明了該算法的可行性。我們還定義了基本的構造塊，例如卷積，非線性和針對複數空間量身定製的殘差連接。爲了證明我們提出的模型的有效性，我們在使用不到1個參數的同時，將我們的複雜價值網絡與其在MSTAR分類任務中的最新技術進行了全面比較，並獲得了更好的性能。

Stabilizing DARTS with Amended Gradient Estimation on Architectural Parameters
Authors Kaifeng Bi, Changping Hu, Lingxi Xie, Xin Chen, Longhui Wei, Qi Tian
差異化神經架構搜索已成爲探索用於深度學習的架構的流行方法。儘管搜索效率具有很大的優勢，但它經常會遇到穩定性較弱的問題，這使其無法應用於較大的搜索空間或靈活地適應不同的情況。本文研究了目前最流行的差分搜索算法DARTS，並指出了不穩定性的重要因素，這取決於它對建築參數梯度的近似。在當前狀態下，優化算法可能會收斂到另一點，這會導致重新訓練過程中出現嚴重的準確性。在此分析的基礎上，我們提出了一個利用網絡參數優化的最優性的直接屬性來計算體系結構梯度的修正術語。我們的方法在數學上保證了梯度估計遵循大致正確的方向，這導致搜索階段收斂於合理的體系結構。實際上，我們的算法很容易實現，並且可以有效地添加到基於DARTS的方法中。在CIFAR和ImageNet上進行的實驗表明，我們的方法具有較高的準確性，更重要的是，它使基於DARTS的方法能夠探索以前從未研究過的更大的搜索空間。

DR$\vert$GRADUATE: uncertainty-aware deep learning-based diabetic retinopathy grading in eye fundus images
Authors Teresa Ara jo, Guilherme Aresta, Lu s Mendon a, Susana Penas, Carolina Maia, ngela Carneiro, Ana Maria Mendon a, Aur lio Campilho
糖尿病性視網膜病變DR分級對於確定患者的適當治療和隨訪至關重要，但是篩查過程可能很煩人並且容易出錯。深度學習方法已顯示出作爲計算機輔助診斷CAD系統的有希望的性能，但是它們的黑匣子行爲阻礙了其臨牀應用。我們提出了DR vert GRADUATE，這是一種新穎的基於深度學習的DR評分CAD系統，它通過提供醫學上可以解釋的解釋以及對該預測的不確定性的估計來支持其決策，從而使眼科醫生可以衡量該決策應得到多少信任。我們在設計DR vert GRADUATE時考慮了DR分級問題的序數性質。一種基於多實例學習框架的新穎的高斯採樣方法，使DR vert GRADUATE可以推斷與解釋圖和預測不確定性相關的圖像等級，而僅使用圖像明智的標籤進行訓練。 DR vert GRADUATE在Kaggle訓練集中進行了訓練，並在多個數據集中進行了評估。在DR分級中，在五個不同的數據集中獲得了介於0.71和0.84之間的二次加權Cohen s Kappa QWK。我們表明高QWK值發生在具有低預測不確定性的圖像上，因此表明該不確定性是預測質量的有效度量。此外，質量差的圖像通常會帶來較高的不確定性，這表明不適合診斷的圖像確實導致可信度較低的預測。此外，對不熟悉的醫學圖像數據類型的測試表明，DR vert GRADUATE可以進行離羣值檢測。注意圖通常會突出顯示感興趣的區域以進行診斷。這些結果表明，DR vert GRADUATE作爲DR嚴重度分級的第二意見系統具有巨大潛力。

Contextual Imagined Goals for Self-Supervised Robotic Learning
Authors Ashvin Nair, Shikhar Bahl, Alexander Khazatsky, Vitchyr Pong, Glen Berseth, Sergey Levine
強化學習爲學習個人技能提供了一種吸引人的形式主義，而通用機器人系統必須能夠掌握廣泛的行爲準則。我們可以讓機器人自動提出和實踐自己的行爲，而不是學習大量技能，而是瞭解機器人在環境中可以執行的承受能力和行爲，以便一旦有了新的知識就可以重新利用這些知識。任務由用戶指揮在本文中，我們將在自我監督的目標條件強化學習的背景下研究該問題。在這種學習方式中的一個主要挑戰是爲了練習有用技能而設定目標的問題，機器人必須能夠自主設定可行但多樣的目標。當機器人的環境和可用對象發生變化時（如大多數開放世界設置中的情況一樣），機器人必須僅向自身提出可以在當前設置下使用手邊的對象完成的那些目標。先前的工作僅在單一環境中研究自我監督的目標條件RL，其中目標建議來自機器人的過去經驗或生成的模型就足夠了。在更多樣化的環境中，這經常會導致無法實現的目標，並且正如我們通過實驗表明的那樣，這會阻止有效的學習。我們提出了一個條件目標設定模型，旨在提出可以從機器人當前狀態可行的目標。我們證明，這可以使自我監督的目標以現實世界中原始圖像的觀察爲基礎，以政策學習爲條件，從而使機器人能夠操縱各種對象並將其推廣到訓練期間未看到的新對象。

Learning Task-Oriented Grasping from Human Activity Datasets
Authors Mia Kokic, Danica Kragic, Jeannette Bohg
我們建議利用現實世界中的人類活動RGB數據集來教授機器人em面向任務的抓圖TOG。一方面，由於交互過程中包含手和對象的RGB D數據集通常缺少註釋，這是由於手動獲取它們而造成的。另一方面，RGB數據集通常帶有標籤註釋，這些標籤沒有提供足夠的信息來推斷6D機器人抓握姿勢。但是，它們包含對許多不同任務的各種對象進行掌握的示例。因此，與RGB D數據集相比，它們提供了更豐富的監管來源。我們提出了一個模型，該模型以RGB圖像作爲輸入，並輸出手的姿勢和配置以及對象的姿勢和形狀。我們遵循的見解是，與相互獨立地估計這些數量相比，共同估計手和物體的姿勢可以提高準確性。定量實驗表明，使用手部姿勢信息訓練對象姿態預測器，反之亦然，比沒有此信息的訓練更好。給定訓練後的模型，我們處理RGB數據集以自動獲取TOG模型的訓練數據。該模型將對象點雲和任務作爲輸入，並在給定任務的情況下輸出適合抓取的區域。定性實驗表明，我們的模型可以成功處理現實世界的數據集。用機器人進行的實驗表明，該數據使機器人能夠學習面向任務的對新穎對象的掌握。

Mixing realities for sketch retrieval in Virtual Reality
Authors Daniele Giunchi, Stuart james, Donald Degraen, Anthony Steed
用於虛擬現實VR的繪圖工具使用戶可以在虛擬環境本身內部對3D設計進行建模。這些工具採用基於桌面的界面中已知的素描和雕刻技術，並將其應用於基於手的控制器交互。儘管這些技術允許對基本形狀進行空中草圖繪製，但用戶仍然難以創建詳細而全面的3D模型。在我們的工作中，我們致力於通過增強基於草圖的界面以及用於交互模型檢索的支持系統，來支持用戶設計周圍的虛擬環境。通過草繪，沉浸式用戶可以查詢包含詳細3D模型的數據庫，並將其替換爲虛擬環境。爲了瞭解虛擬環境中的輔助素描，我們比較了素描交互的不同方法，即3D空中素描，虛擬平板電腦上的2D素描，固定虛擬白板上的2D素描和真實平板電腦上的2D素描。使用2D物理平板電腦，2D虛擬平板電腦，2D虛擬白板和3D空中草圖。我們的結果表明，空中3D草圖繪製被認爲是搜索模型集合的一種更直觀的方法，而物理設備的添加由於將其包含在虛擬環境中的複雜性而造成了混亂。雖然我們將工作視爲椅子3D模型的檢索問題，但是我們的結果可以外推到虛擬環境的其他草圖繪製任務。

A Simple Dynamic Learning Rate Tuning Algorithm For Automated Training of DNNs
Authors Koyel Mukherjee, Alind Khare, Ashish Verma
在圖像數據集上訓練神經網絡通常需要進行大量實驗，以找到最佳學習率制度。特別是，在對抗訓練或訓練新合成模型的情況下，人們不會事先知道最佳學習率制度。我們提出了一種用於確定學習率軌跡的自動算法，該算法可跨數據集和模型進行自然訓練和對抗訓練，而無需任何特定於數據集模型的調整。它是一種獨立的無參數自適應方法，無計算開銷。我們從理論上討論算法的收斂行爲。我們從經驗上廣泛驗證了我們的算法。我們的結果表明，在自然訓練和對抗訓練中，與文獻中的SOTA基準相比，我們提出的方法Emph始終可達到最高的準確性。

Deep 1D-Convnet for accurate Parkinson disease detection from gait
Authors Imanne El Maachi, Guillaume Alexandre Bilodeau, Wassim Bouachir
診斷帕金森氏病是一項複雜的任務，需要評估幾種運動和非運動症狀。在診斷過程中，步態異常是醫生應考慮的重要症狀之一。然而，步態評估具有挑戰性，並且依賴於臨牀醫生的專業知識和主觀性。在這種情況下，智能步態分析算法的使用可以幫助醫師，以促進診斷過程。本文提出了一種基於深度學習技術的新型智能帕金森檢測系統，用於分析步態信息。我們使用1D卷積神經網絡1D Convnet來構建深度神經網絡DNN分類器。所提出的模型處理來自腳傳感器的18個1D信號，這些信號測量垂直地面反作用力VGRF。網絡的第一部分包括與系統輸入相對應的18個並行一維Convnet。第二部分是一個完全連接的網絡，該網絡連接一維Convnet的並置輸出以獲得最終分類。我們用帕金森病統一評分量表UPDRS對帕金森氏病的檢測和疾病嚴重程度的預測進行了測試。我們的實驗證明了該方法在基於步態數據的帕金森病檢測中的高效性。該算法的準確率達98.7。據我們所知，這是帕金森步態識別開始表現的狀態。此外，我們在帕金森病嚴重程度預測中達到了85.3的準確性。據我們所知，這是第一個基於UPDRS進行嚴重性預測的算法。我們的結果表明，該模型能夠從步態數據中學習內在特徵，並將其推廣到看不見的受試者，這可能有助於臨牀診斷。

Causal inference for climate change events from satellite image time series using computer vision and deep learning
Authors Vikas Ramachandra
爲了確定影響氣候變化（如森林砍伐）的干預措施的處理效果，我們提出了一種使用衛星圖像時間序列進行因果推理的方法。簡而言之，目的是量化與氣候相關的人爲干預措施（如城市化）以及自然災害（如颶風和森林火災）的前後影響。作爲一個具體的例子，我們專注於量化由於人爲原因引起的林木覆蓋率變化。所提出的方法包括以下步驟。首先，我們使用計算機視覺和機器學習深度學習技術來在每個時間段檢測和量化隨時間變化的林木覆蓋水平。然後，我們查看此時間序列以識別變更點。接下來，我們使用貝葉斯結構因果模型並預測對事實的預測來估計預期的森林樹木覆蓋值。將其與干預後實際觀察到的值進行比較，並且兩個值的差異爲我們提供了與非干預方案相比的干預效果，即如果沒有干預，可能會發生的情況。作爲一個特定的用例，我們分析了巴西在1993年結束的惡性通貨膨脹事件干預之前和之後的森林砍伐水平94，針對巴西朗多尼亞附近的亞馬遜雨林地區。對於這種森林砍伐用例，使用我們的因果推斷框架可以幫助歸因於歸因於森林樹木覆蓋率變化的減少和由於人類在不同時間點的活動造成的森林砍伐率的提高。

Human Action Recognition Using Deep Multilevel Multimodal (M2) Fusion of Depth and Inertial Sensors
Authors Zeeshan Ahmad, Naimul Khan
多年來，人們已經提出了使用深度和慣性傳感器數據的用於人類動作識別HAR的多模式融合框架。在大多數現有工作中，融合是在單個級別的功能級別或決策級別執行的，而缺少融合更好的分類所必需的豐富的中級功能的機會。爲了解決這個缺點，在本文中，我們提出了三種新穎的深層多級多模式融合框架，以利用各個階段的不同融合策略並利用多級融合的優勢。在輸入時，我們將深度數據轉換爲稱爲順序前視圖圖像SFI的深度圖像，並將慣性傳感器數據轉換爲信號圖像。通過使用Prewitt濾波器進行卷積，可以使每個輸入模態，深度和慣性進一步變爲多模態。在模態內創建模態，可以通過卷積神經網絡CNN進一步提取互補和區分特徵。對CNN進行每種形式的輸入圖像訓練，以學習低級，高級和複雜功能。在提出的框架的不同階段提取和融合學習到的特徵，以結合區分性和補充性信息。這些高信息量的功能用作多類支持向量機SVM的輸入。我們在三個公開的多模式HAR數據集（即UTD多模式人類行爲數據集MHAD，Berkeley MHAD和UTD MHAD Kinect V2）上評估了提出的框架。實驗結果表明，所提出的融合框架優於現有方法。

Unified Multi-scale Feature Abstraction for Medical Image Segmentation
Authors Xi Fang, Bo Du, Sheng Xu, Bradford J. Wood, Pingkun Yan
自動醫學圖像分割是醫學圖像分析的重要組成部分，在計算機輔助診斷中起着重要作用。例如，對肝臟進行定位和分割對肝癌的診斷和治療非常有幫助。醫學圖像分割中的最新模型是編碼器解碼器體系結構的變體，例如全卷積網絡FCN和UNet。1基於FCN的分割方法的主要重點是通過合併最新的CNN結構（例如ResNet2和DenseNet）進行網絡結構工程。 3除了探索新的網絡結構以有效地提取高級特徵外，在FCN中併入用於多尺度圖像特徵提取的結構還有助於提高分割任務的性能。在本文中，我們設計了一種新的多尺度網絡體系結構，該體系結構通過具有專用卷積路徑的多尺度輸入來有效地組合不同尺度的特徵，從而更好地利用層次信息。

HRL4IN: Hierarchical Reinforcement Learning for Interactive Navigation with Mobile Manipulators
Authors Chengshu Li, Fei Xia, Roberto Martin Martin, Silvio Savarese
人類環境中最常見的導航任務需要輔助手臂交互，例如打開門，按下按鈕並推開障礙物。這種類型的導航任務（我們稱爲交互式導航）要求使用具有操縱功能的移動操縱器移動基座。交互式導航任務通常是長期的，並且由純導航，純操縱及其組合的異構階段組成。使用實施例的錯誤部分效率低下並且阻礙了進展。我們提出HRL4IN，這是一種用於交互式導航任務的新穎的層次RL體系結構。由於對子目標的時間擴展承諾，HRL4IN在長期任務中利用了HRL相對於平坦RL的勘探優勢。與其他HRL解決方案不同，HRL4IN通過在任務的不同階段的不同空間中創建子目標來處理交互式導航任務的異構性質。此外，HRL4IN選擇實施例的不同部分用於每個階段，從而提高了能源效率。我們在兩種環境下，即2D網格世界環境和3D環境（具有物理仿真），針對平面PPO和最新的HRL算法HAC HAR4IN評估了HRL4IN。我們顯示，HRL4IN在任務性能和能效方面明顯優於其基準。有關更多信息，請訪問：

Reconstruction of Undersampled 3D Non-Cartesian Image-Based Navigators for Coronary MRA Using an Unrolled Deep Learning Model
Authors Mario O. Malav , Corey A. Baron, Srivathsan P. Koundinyan, Christopher M. Sandino, Frank Ong, Joseph Y. Cheng, Dwight G. Nishimura
目的利用展開的深度學習DL模型快速重建欠採樣的3D非笛卡爾圖像導航器iNAV，用於冠狀動脈磁共振血管成像CMRA中的非剛性運動校正。

Accurate Layerwise Interpretable Competence Estimation
Authors Vickram Rajendran, William LeVine
在野外估計機器學習性能是一個重要且尚未解決的問題。在本文中，我們試圖檢查，理解和預測分類模型的點狀能力。我們的貢獻是雙重的。首先，我們建立了統計上嚴格的能力定義，以概括分類器置信度的通用概念；其次，我們提出了ALICE準確的分層可解釋的能力估計值，這是任何分類器的逐點能力估計器。通過考慮分佈，數據和模型的不確定性，ALICE可以在常見故障情況下（例如類不平衡數據集，分佈數據集不足和訓練不足的模型）憑經驗顯示準確的能力估計。我們的貢獻使我們能夠準確地預測給定任何輸入和誤差函數的任何分類模型的能力。我們將我們的分數與模型置信度和信任度分數等最先進的置信度估計值進行比較，並在諸如DIGITS，CIFAR10和CIFAR100的數據集上顯示出優於這些方法的能力預測方面的顯着改進。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁

pic from pexels.com

【AI視野·今日CV 計算機視覺論文速覽第166期】Mon, 28 Oct 2019

Interesting:

Daily Computer Vision Papers

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

【英文寫作日知錄第1期】句式彙總 Sun, 05 July 2020

【AI視野·今日CV 計算機視覺論文速覽第166期】Mon, 28 Oct 2019

【AI視野·今日CV 計算機視覺論文速覽第167期】Mon, 11 Nov 2019

【研究方法】好的研究想法從哪裏來--劉知遠

【AI視野·今日CV 計算機視覺論文速覽第168期】Fri, 15 Nov 2019

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【AI視野·今日CV 計算機視覺論文速覽 第166期】Mon, 28 Oct 2019

Interesting:

Daily Computer Vision Papers

【AI視野·今日CV 計算機視覺論文速覽第166期】Mon, 28 Oct 2019