【AI視野·今日CV 計算機視覺論文速覽第174期】Tue, 7 Jan 2020

AI視野·今日CS.CV 計算機視覺論文速覽
Tue, 7 Jan 2020
Totally 57 papers
👉上期速覽✈更多精彩請移步主頁

Interesting:

📚**DepthTransfer,從視頻中抽取深度圖的方法 (from 伊利諾伊大學)

author：https://www.kevinkarsch.com/
code:https://github.com/kevinkarsch?tab=repositories

📚****Deep Snake, 一種高速的實例分割方法(from 浙江大學)

code:https://github.com/zju3dv/snake/

📚***逆問題的退化原因及解決方法, (from 劍橋)
code:https://github.com/vegarant/troub_ker

📚Agriculture-Vision, 農業模式數據集(from UIUC 俄勒岡大學)

📚MPNet, 基於記憶模塊增強的點雲實例分割(from 阿德萊德大學)

📚高速僞造人臉檢測FDFtNet（from 成均館大學韓國）

code：https://anonymous.4open.science/r/FDFtNet/

📚Grab,一套用戶快速支付的超市結算系統(from 南加州大學)

demo:https://vimeo.com/245274192,參考文獻有很多技術文獻值得學習

📚圖相似性的綜述，（from 英特爾實驗室）

📚計算病理學綜述, (from 多倫多大學)

📚多語言神經翻譯模型綜述Multilingual Neural Machine Translation, (from 大阪大學 )

📚機器閱讀理解綜述, (from University
of Qom)

📚X-ray 安檢深度學習綜述, (from 杜倫大學英)

Daily Computer Vision Papers

Deep Snake for Real-Time Instance Segmentation
Authors Sida Peng, Wen Jiang, Huaijin Pi, Hujun Bao, Xiaowei Zhou
本文介紹了一種新穎的基於輪廓的方法，稱爲深度蛇，用於實時實例分割。與一些最近的方法直接從圖像中迴歸對象邊界點的座標不同，深蛇使用神經網絡將初始輪廓迭代變形爲對象邊界，從而通過基於學習的方法實現了蛇算法的經典思想。對於輪廓上的結構化特徵學習，我們建議在深蛇中使用圓形卷積，與通用圖卷積相比，它可以更好地利用輪廓的循環圖結構。在深蛇的基礎上，我們開發了一個兩階段流水線，例如分割初始輪廓提議和輪廓變形，可以處理初始對象定位中的錯誤。實驗表明，該方法在Cityscapes，Kins和Sbd數據集上達到了最先進的性能，同時對於1080Ti GPU上的512倍512幅圖像的實時實例分割效率高達32.3 fps。該代碼將在以下位置提供

Chained Representation Cycling: Learning to Estimate 3D Human Pose and Shape by Cycling Between Representations
Authors Nadine Rueegg, Christoph Lassner, Michael J. Black, Konrad Schindler
許多計算機視覺系統的目標是將圖像像素轉換爲3D表示形式。最近流行的模型使用神經網絡直接從像素迴歸到3D對象參數。這種方法在有監督的情況下效果很好，但是在諸如人體姿勢和形狀估計之類的問題中，很難獲得具有3D地面真相的自然圖像。爲了更進一步，我們提出了一種新的體系結構，該體系結構可促進無監督或輕度監督的學習。想法是將問題分解爲越來越抽象的表示形式之間的一系列轉換。每個步驟都涉及一個設計爲無須註釋的訓練數據即可學習的循環，循環鏈可提供最終解決方案。具體來說，我們使用2D身體部位段作爲中間表示，它包含足以提升到3D的信息，同時又足夠簡單，可以無監督地學習。我們通過從未配對和未註釋的圖像中學習3D人體姿勢和形狀來演示該方法。我們還探索了各種數量的配對數據，並顯示循環大大減輕了對配對數據的需求。儘管我們提供了模擬人類的結果，但我們的公式是通用的，可以應用於其他視覺問題。

Few-shot Learning with Multi-scale Self-supervision
Authors Hongguang Zhang, Philip H. S. Torr, Piotr Koniusz
從數量有限的數據點學習概念是一項具有挑戰性的任務，通常通過所謂的一次或幾次射擊學習來解決。最近，在很少的鏡頭學習中應用二階合併顯示了其優越的性能，這是由於聚合步驟可以處理不同的圖像分辨率，而無需修改CNN以適合特定的圖像尺寸，卻捕獲了高度描述性的共現現象。但是，即使分辨率在整個數據集上變化，也對每個圖像使用單一分辨率是次優的，因爲圖像內容的重要性在粗糙級別到精細級別之間有所變化，具體取決於對象及其類別標籤e。例如，普通對象和場景依賴於它們的整體外觀，而細顆粒對象更多地依賴於它們的局部紋理圖案。多尺度表示法在圖像去模糊，超分辨率和圖像識別中很流行，但是由於其關係性質使標準技術的使用變得複雜，因此尚未在少數鏡頭學習中進行過研究。在本文中，我們基於二階合併的性質提出了一種新穎的多尺度關係網絡，以估計少量鏡頭設置下的圖像關係。爲了優化模型，我們利用比例選擇器根據其二階特徵對比例明智的表示進行加權。此外，我們建議應用自我監督的規模預測。具體來說，我們利用額外的鑑別器來預測比例標籤和圖像對之間的比例差異。我們的模型在標準的少量鏡頭學習數據集上獲得了最先進的結果。

Multi-scale domain-adversarial multiple-instance CNN for cancer subtype classification with non-annotated histopathological images
Authors Noriaki Hashimoto, Daisuke Fukushima, Ryoichi Koga, Yusuke Takagi, Kaho Ko, Kei Kohno, Masato Nakaguro, Shigeo Nakamura, Hidekata Hontani, Ichiro Takeuchi
我們提出了一種從組織病理學圖像對癌症亞型進行分類的新方法，該方法可以在給定的完整幻燈片圖像WSI中自動檢測腫瘤的特定特徵。應該通過參考WSI對癌症亞型進行分類，即WSI，通常是整個病理組織玻片的40,000x40,000像素的大尺寸圖像，該圖像由癌症和非癌症部分組成。構造癌症亞型分類器的一個困難來自於對不加註釋的WSI進行註釋所需要的高昂費用，我們必須在不瞭解真正標記的情況下構造腫瘤區域檢測器。此外，必須通過更改圖像的放大倍率從WSI中提取全局和局部圖像特徵。另外，應針對醫院標本之間的染色差異，穩定地檢測圖像特徵。在本文中，我們通過有效地組合可以克服這些實際困難的多實例，領域對抗和多尺度學習框架，開發了一種基於CNN的癌症亞型分類新方法。當該方法應用於多家醫院收集的196例惡性淋巴瘤亞型分類時，其分類性能明顯優於標準CNN或其他常規方法，其準確性優於標準病理學家。此外，我們通過免疫染色和專家病理學家的目測檢查確認，可以正確檢測出腫瘤區域。

Hyperspectral Super-Resolution via Coupled Tensor Ring Factorization
Authors Wei He, Yong Chen, Naoto Yokoya, Chao Li, Qibin Zhao
高光譜超分辨率HSR將低分辨率高光譜圖像HSI和高分辨率多光譜圖像MSI融合在一起，以獲得高分辨率HSI HR HSI。在本文中，我們提出了一種用於高鐵的新模型，稱爲耦合張量環分解CTRF。提出的CTRF方法同時從HSI學習高光譜分辨率核心張量和從MSI學習高空間分辨率核心張量，並通過張量環TR表示重建HR HSI。 CTRF模型可以分別利用每個類Section ref sec分析的低秩屬性，而在以前的耦合張量模型中從未探討過。同時，它繼承了耦合矩陣CP分解的簡單表示以及耦合Tucker分解的靈活的低秩探索。

Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification
Authors Liuyu Xiang, Guiguang Ding
在現實世界中，數據傾向於呈現長尾，不平衡的分佈。因此，在實際應用中開發處理這種長尾分佈的算法變得必不可少。在本文中，我們提出了一種新穎的自我進度知識提煉框架，稱爲“向多專家學習LFME”。我們的方法是受以下觀察啓發的：在整個長尾分佈的較少不平衡子集上訓練的深度卷積神經網絡CNN通常比聯合訓練的對等神經網絡產生更好的性能。我們將這些模型稱爲“專家模型”，並且所提出的LFME框架彙總了來自多個專家的知識，以學習統一的學生模型。具體而言，所提出的框架涉及兩個級別的自定進度的學習時間表，自定進度的專家選擇和自定進度的實例選擇，以便知識從多個專家自適應地轉移到學生。爲了驗證我們提出的框架的有效性，我們對兩個長尾基準分類數據集進行了廣泛的實驗。實驗結果表明，與現有方法相比，我們的方法能夠實現卓越的性能。我們還表明，我們的方法可以輕鬆地插入最新的長尾分類算法中，以進行進一步的改進。

Mutual Mean-Teaching: Pseudo Label Refinery for Unsupervised Domain Adaptation on Person Re-identification
Authors Yixiao Ge, Dapeng Chen, Hongsheng Li
人物識別ID旨在跨不同的相機識別同一個人的圖像。然而，不同數據集之間的域多樣性對於將在一個數據集上訓練的re ID模型改編爲另一數據集提出了明顯的挑戰。通過使用目標域上的聚類算法創建的僞標籤進行優化，用於人員ID的最新無監督域自適應方法可以從源域中轉移學習到的知識。儘管它們達到了最先進的性能，但是忽略了由聚類過程引起的不可避免的標籤噪聲。這種嘈雜的僞標記實質上阻礙了模型進一步改善目標域上的特徵表示的能力。爲了減輕嘈雜的僞標籤的影響，我們建議通過提出一種無監督框架Mutual Mean Teaching MMT來對目標域中的僞標籤進行軟優化，以通過離線精煉的僞僞標籤和目標域從目標域中學習更好的功能。在線以另一種訓練方式改進了軟僞標籤。另外，通常的做法是同時採用分類損失和三元組損失，以實現個人身份識別模型的最佳性能。但是，傳統的三重態損失不適用於柔和的標籤。爲了解決這個問題，提出了一種新的softsoftmax三重態丟失，以支持具有僞僞三重態標籤的學習，以實現最佳的域自適應性能。擬議的MMT框架在市場到杜克，市場到杜克，市場到MSMT和杜克到MSMT的無監督域適應任務上實現了14.4、18.2、13.1和16.4 mAP的顯着改進。代碼位於

Deceiving Image-to-Image Translation Networks for Autonomous Driving with Adversarial Perturbations
Authors Lin Wang, Wonjune Cho, Kuk Jin Yoon
深度神經網絡DNN在處理計算機視覺問題方面取得了令人印象深刻的性能，但是，已經發現DNN容易受到對抗示例的攻擊。因此，最近在幾個方面研究了對抗性擾動。但是，以前的大多數工作都集中在圖像分類任務上，從未針對圖像到圖像Im2Im轉換任務的對抗性擾動進行過研究，在自動駕駛和機器人技術領域中，在處理成對和/或不成對映射問題方面顯示出了巨大的成功。本文研究了各種類型的對抗性擾動，它們可以欺騙Im2Im框架以實現自動駕駛。我們提出準物理和數字對抗擾動，它們可以使Im2Im模型產生出乎意料的結果。然後，我們根據經驗分析這些擾動，並表明它們在用於圖像合成的配對和用於樣式轉換的未配對設置下都能很好地概括。我們還驗證了存在一些攝動閾值，超過了此閾值，Im2Im映射被破壞或無法實現。這些擾動的存在表明，Im2Im模型中存在關鍵的弱點。最後，我們證明了我們的方法說明了擾動如何影響輸出質量，並率先提高了用於自動駕駛的當前SOTA網絡的魯棒性。

Facial Emotions Recognition using Convolutional Neural Net
Authors Faisal Ghaffar
人類使用面部表情來表達自己的情感。對於人類來說，很容易識別這些情緒，但是對於計算機而言，則是非常具有挑戰性的。面部表情因人而異。每個隨機圖像的亮度，對比度和分辨率都不同。這就是爲什麼很難識別面部表情的原因。面部表情識別是一個活躍的研究領域。在這個項目中，我們致力於識別人類的七個基本情感。這些情緒是憤怒，厭惡，恐懼，快樂，悲傷，驚奇和中立。首先將每個圖像通過人臉檢測算法，以將其包括在火車數據集中。由於CNN需要大量數據，因此我們在每個圖像上使用各種過濾器來複制數據。該系統使用CNN架構進行培訓。尺寸爲80 100的預處理圖像作爲輸入傳遞到CNN的第一層。使用了三個卷積層，每個卷積層之後是一個合併層，然後是三個密集層。緻密層的脫落率爲20。該模型是通過結合兩個公開可用的數據集JAFFED和KDEF進行訓練的。其中90個數據用於訓練，而10個數據用於測試。使用組合數據集，我們達到了78的最大準確性。

CAE-LO: LiDAR Odometry Leveraging Fully Unsupervised Convolutional Auto-Encoder for Interest Point Detection and Feature Description
Authors Deyu Yin, Qian Zhang, Jingbin Liu, Xinlian Liang, Yunsheng Wang, Jyri Maanp , Hao Ma, Juha Hyypp , Ruizhi Chen
作爲3D映射，自動駕駛和機器人導航中的一項重要技術，LiDAR測距法仍然是一項艱鉅的任務。利用緊湊的二維結構化球面環投影模型和保留輸入數據原始形狀的體素模型，我們提出了一種完全無監督的基於卷積自動編碼器的LiDAR里程錶CAE LO，可使用2D CAE從球面環數據中檢測興趣點並從多分辨率中提取特徵使用3D CAE的體素模型。我們基於KITTI數據集做出了幾個關鍵貢獻1實驗表明，我們的興趣點可以捕獲更多局部細節，從而在非結構化場景下提高匹配成功率，並且在匹配固有比率2方面，我們的功能優於現有技術50倍以上還提出了一種基於匹配對轉移的關鍵幀選擇方法，一種基於來自球形環的擴展興趣點的關鍵幀的里程錶細化方法以及一種向後姿態更新方法。里程計優化實驗驗證了所提出的想法的可行性和有效性。

Learning and Memorizing Representative Prototypes for 3D Point Cloud Semantic and Instance Segmentation
Authors Tong He, Dong Gong, Zhi Tian, Chunhua Shen
3D點雲語義和實例分割對於3D場景理解至關重要且至關重要。由於結構複雜，點集會失衡且分散分佈，這既表現爲類別失衡，也表現爲模式失衡。結果，深度網絡很容易在學習過程中忘記非主導案例，從而導致性能不理想。儘管重新加權可以減少分類良好的示例的影響，但它們無法處理動態訓練期間的非主導模式。在本文中，我們提出了一種內存增強網絡，以學習和記憶涵蓋了各種樣本的代表性原型。具體來說，引入了一個存儲模塊，以通過記錄在小批量訓練中看到的模式來減輕遺忘問題。學習到的記憶項目始終反映主導和非主導類別和案例的可解釋和有意義的信息。因此，可以通過檢索存儲的原型來增加失真的觀察結果和罕見的情況，從而獲得更好的性能和通用性。在基準（S3DIS和ScanNetV2）上進行的詳盡實驗反映了我們方法在有效性和效率上的優勢。不僅整體準確性提高了，而且非主流類也大大提高了。

Convolutional Neural Networks with Intermediate Loss for 3D Super-Resolution of CT and MRI Scans
Authors Mariana Iuliana Georgescu, Radu Tudor Ionescu, Nicolae Verga
如今，醫院中常用的CT掃描儀可產生低分辨率圖像，最大尺寸可達512像素。圖像中的一個像素對應於一毫米的組織。爲了準確地分割腫瘤並制定治療計劃，醫生需要更高分辨率的CT掃描。 MRI中出現相同的問題。在本文中，我們提出了一種用於3D CT或MRI掃描的單圖像超分辨率的方法。我們的方法基於深度卷積神經網絡CNN，該CNN由10個卷積層和一箇中間擴展層組成，該中間放大層位於前6個卷積層之後。我們的第一個CNN可以提高兩個軸的寬度和高度的分辨率，然後是第二個CNN，它可以提高第三軸深度的分辨率。與其他方法不同，除了計算最後一個卷積層之後的損耗外，我們還計算相對於升頻層之後的地面真實高分辨率輸出的損耗。中間損耗迫使我們的網絡產生更好的輸出，更接近地面實況。獲得清晰結果的一種廣泛使用的方法是使用固定的標準偏差添加高斯模糊。爲了避免過度擬合固定的標準偏差，我們採用了具有各種標準偏差的高斯平滑法，這與其他方法不同。我們在來自兩個數據庫的CT和MRI掃描的2D和3D超分辨率的背景下評估了我們的方法，並使用2x和4x縮放因子，將其與基於各種插值方案的文獻和基線的相關相關工作進行了比較。實證結果表明，我們的方法比所有其他方法都具有更好的結果。此外，我們的人體註釋研究表明，醫生和常規註釋者都選擇使用我們的方法來支持Lanczos插值，其中97.55例的放大倍數爲2倍，而96.69例的放大倍數爲4倍。

Agriculture-Vision: A Large Aerial Image Database for Agricultural Pattern Analysis
Authors Mang Tik Chiu, Xingqian Xu, Yunchao Wei, Zilong Huang, Alexander Schwing, Robert Brunner, Hrant Khachatrian, Hovnatan Karapetyan, Ivan Dozier, Greg Rose, David Wilson, Adrian Tudor, Naira Hovakimyan, Thomas S. Huang, Honghui Shi
深度學習在視覺識別任務中的成功推動了多個研究領域的進步。特別是，人們越來越關注它在農業中的應用。然而，儘管農田上的視覺模式識別具有巨大的經濟價值，但由於缺乏合適的農業圖像數據集，在融合計算機視覺和作物科學方面進展甚微。同時，農業問題也給計算機視覺帶來了新的挑戰。例如，空中農田圖像的語義分割需要對具有極大註釋稀疏性的超大型圖像進行推理。這些挑戰在大多數常見對象數據集中並不存在，並且我們證明它們比許多其他航拍圖像數據集更具挑戰性。爲了鼓勵對農業計算機視覺的研究，我們爲農業視覺提供了大規模的空中農田圖像數據集，用於農業模式的語義分割。我們從美國3,432個農田中收集了94,986張高質量的航空圖像，其中每幅圖像均由RGB和近紅外NIR通道組成，分辨率高達每像素10釐米。我們註釋了對農民最重要的九種田間異常模式。作爲航空農業語義分割的一項先導研究，我們使用流行的語義分割模型進行了全面的實驗，我們還提出了一種用於航空農業模式識別的有效模型。我們的實驗證明了農業視覺對計算機視覺和農業社區的挑戰。該數據集的未來版本將包括更多的航拍圖像，異常模式和圖像通道。有關更多信息，請訪問

Towards Automatic Threat Detection: A Survey of Advances of Deep Learning within X-ray Security Imaging
Authors Samet Akcay, Toby Breckon
X射線安全檢查被廣泛用於維護航空運輸的安全，其重要性引起了對自動檢查系統的特別關注。本文旨在通過將領域分類爲常規機器學習和當代深度學習應用程序來回顧計算機化X射線安全成像算法。第一部分簡要討論了X射線安全成像中使用的經典機器學習方法，而後一部分則徹底研究了現代深度學習算法的使用。擬議的分類法將深度學習方法的使用分類爲有監督，半監督和無監督學習，特別着重於對象分類，檢測，分割和異常檢測任務。本文進一步探索了完善的X射線數據集並提供了性能基準。基於深度學習的當前和未來趨勢，本文最終提出了有關X射線安全圖像的討論和未來方向。

General Partial Label Learning via Dual Bipartite Graph Autoencoder
Authors Brian Chen, Bo Wu, Alireza Zareian, Hanwang Zhang, Shih Fu Chang
我們提出了一個實際卻充滿挑戰的問題：通用部分標籤學習GPLL。與傳統的“部分標籤學習PLL”問題相比，GPLL放寬了從實例級別的監督假設，即標籤集部分標記了一個實例到組級別1，標籤集部分標記了一組實例，其中缺少組內實例標籤鏈接註釋，和2個跨組鏈接是允許的，一個組中的實例可以部分鏈接到另一個組中的標籤集。由於不再需要在實例級別上附加註釋，因此這種模棱兩可的組級別監督在現實世界中更加實用，例如，視頻中的人臉命名，其中該組由框架中的人臉組成，並在相應的標題中設置了名稱。在本文中，我們提出了一種新穎的圖卷積網絡GCN，稱爲雙重二分圖自動編碼器DB GAE，以解決GPLL的標籤歧義性挑戰。首先，我們利用交叉組相關性將實例組表示爲組和交叉組內的雙二部圖，它們互爲補充，以解決鏈接歧義。其次，我們設計了一個GCN自動編碼器來對其進行編碼和解碼，其中解碼被視爲經過改進的結果。值得注意的是，DB GAE是自我監督和轉換的，因爲它僅使用組級別監督，而沒有單獨的脫機培訓階段。在兩個真實世界的數據集上進行的大量實驗表明，在絕對的0.159 F1得分和24.8的準確性上，DB GAE明顯優於最佳基準。我們進一步提供各種級別的標籤歧義度分析。

Learning Global and Local Consistent Representations for Unsupervised Image Retrieval via Deep Graph Diffusion Networks
Authors Zhiyong Dou, Haotian Cui, Bo Wang
通過利用圖像流形的高階結構，擴散在提高無監督圖像檢索系統的準確性方面顯示出巨大的成功。但是，現有的擴散方法有三個主要侷限性：1他們通常依賴局部結構而不考慮全局流形信息2他們專注於改進現有圖像輸入輸出輸出中的成對相似性，而缺乏靈活性來歸納地學習新穎的未見實例的表示法3他們失敗了由於過度的內存消耗和整個圖的固有高階運算所帶來的計算負擔，因此可以擴展到大型數據集。在本文中，爲了解決這些侷限性，我們提出了一種新的方法，即圖擴散網絡GRAD Net，它採用了圖神經網絡GNNs，這是一種針對不規則圖的深度學習算法的新穎變體。 GRAD Net通過無監督地利用圖像流形的局部和全局結構來學習語義表示。通過使用稀疏編碼技術，GRAD Net不僅可以在圖像流形上保留全局信息，還可以進行可擴展的訓練和高效的查詢。在幾個大型基準數據集上進行的實驗證明了我們的方法在無監督圖像檢索方面優於現有的擴散算法的有效性。

Deep Transfer Convolutional Neural Network and Extreme Learning Machine for Lung Nodule Diagnosis on CT images
Authors Xufeng Huang, Qiang Lei, Tingli Xie, Yahui Zhang, Zhen Hu, Qi Zhou
計算機斷層掃描CT圖像對肺部良性惡性結節的診斷對於確定腫瘤水平和降低患者死亡率至關重要。然而，由於深度結構的冗餘和缺乏足夠的訓練數據，因此基於深度學習的肺部CT圖像診斷診斷既費時又不準確。本文探索了一種基於深度轉移卷積神經網絡DTCNN和極限學習機ELM的診斷方法，該方法融合了兩種算法的協同作用，以進行良性惡性結節的分類。首先採用最佳DTCNN提取肺結節的高級特徵，該特徵已事先通過ImageNet數據集進行了訓練。此後，進一步開發了ELM分類器以對良性和惡性肺結節進行分類。爲了驗證該方法的有效性和有效性，我們進行了兩個數據集，包括肺圖像數據庫聯盟和圖像數據庫資源倡議LIDC IDRI公共數據集以及來自中國廣州醫科大學附屬第一醫院的私人數據集。實驗結果表明，與當前的最新方法相比，我們新穎的DTCNN ELM模型提供了最可靠的結果。

Automated Segmentation of Vertebrae on Lateral Chest Radiography Using Deep Learning
Authors Sanket Badhe, Varun Singh, Joy Li, Paras Lakhani
這項研究的目的是開發一種使用深度學習在胸部X光片上進行胸椎分割的自動算法。獲得了124例針對獨特患者的側位胸部X光片。可見椎骨的分割是由一名醫學生手動進行的，並由一名經過董事會認證的放射科醫生進行了驗證。 74張圖像用於訓練，10張用於驗證，40張用於測試。利用骰子係數和二進制交叉熵之和作爲損失函數，採用U Net深度卷積神經網絡進行分割。在測試集上，該算法顯示出平均骰子係數值爲90.5，並且在聯合IoU上的平均交集爲81.75。深度學習在胸部X光片的椎骨分割中顯示出希望。

Self-Orthogonality Module: A Network Architecture Plug-in for Learning Orthogonal Filters
Authors Ziming Zhang, Wenchi Ma, Yuanwei Wu, Guanghui Wang
在本文中，我們研究了正交正則化OR對深度學習（無論是單獨還是協作）的經驗影響。最近關於OR的工作在準確性上顯示了一些有希望的結果。但是，在我們的消融研究中，與基於體重下降，脫落和批次歸一化的常規訓練相比，我們沒有觀察到現有OR技術的顯着改善。爲了從角度估計中受局部敏感哈希LSH啓發，從OR中識別出真正的收益，我們建議在OR中引入隱式自正則化，以將網絡中濾波器角度的均值和方差同時推向90和0，以實現接近正交過濾器之間，而無需使用任何其他顯式正則化。我們的正則化可以實現爲體系結構插件，並且可以與任意網絡集成。我們發現OR有助於穩定訓練過程並導致更快的收斂和更好的泛化。

FDFtNet: Facing Off Fake Images using Fake Detection Fine-tuning Network
Authors Hyeonseong Jeon, Youngoh Bang, Simon S. Woo
由於生成對抗網絡GAN的發展，如今創建虛假圖像和視頻（例如Deepfake）變得更加容易。此外，最近的研究（例如少量鏡頭學習）可以僅使用少量圖像來創建高度逼真的個性化假圖像。因此，Deepfake被用於傳播惡意圖像和視頻等各種惡意意圖的威脅日益普遍。而且檢測這些機器生成的僞造圖像比以往任何時候都更具挑戰性。在這項工作中，我們提出了一種基於輕量級魯棒微調神經網絡的分類器架構，稱爲僞造檢測微調網絡FDFtNet，它能夠檢測許多新的僞造人臉圖像生成模型，並且可以輕鬆地與現有圖像分類網絡結合使用。並在一些數據集上進行了微調。與許多現有方法相比，我們的方法旨在僅使用少量圖像來重用流行的預訓練模型，以進行微調以有效檢測假圖像。我們方法的核心是引入一個基於圖像的自我關注模塊，稱爲Fine Tune Transformer，該模塊僅使用關注模塊和向下採樣層。該模塊被添加到訓練有素的模型中，並對一些數據進行微調，以搜索新的特徵空間集以檢測僞圖像。我們在基於GANs的數據集Progressive Growing GAN和基於Deepfake的數據集Deepfake和Face2Face上使用FDFtNet進行了實驗，並以64x64的小輸入圖像分辨率使檢測複雜化。我們的FDFtNet在檢測從基於GAN的數據集生成的僞造圖像方面達到90.29的總體準確度，性能超過了現有技術。

A Robust Pose Transformational GAN for Pose Guided Person Image Synthesis
Authors Arnab Karmakar, Deepak Mishra
生成任何看不見的姿勢的人類對象的逼真的圖像在生成對象的完整外觀模型中具有至關重要的應用。但是，從計算機視覺的角度來看，由於無法對基於姿勢的數據分佈進行建模，因此此任務變得非常具有挑戰性。現有作品使用具有各種附加功能（例如前景分割，人體解析等）的複雜姿態轉換模型來實現魯棒性，從而導致計算開銷。在這項工作中，我們提出一種利用殘差學習方法的簡單而有效的姿勢變換GAN，而無需進行任何額外的特徵學習就可以以任意姿勢生成給定的人像。使用有效的數據增強技術並巧妙地調整模型，我們在照明，遮擋，失真和縮放方面實現了魯棒性。我們提出了定性和定量的詳細研究，以證明我們的模型在兩個大型數據集上優於現有方法的優越性。

Exploiting Event-Driven Cameras for Spatio-Temporal Prediction of Fast-Changing Trajectories
Authors Marco Monforte, Ander Arriandiaga, Arren Glover, Chiara Bartolozzi
本文研究了機器人技術中人工智能軌跡預測問題的解決方案，以改善運動目標的攔截，例如接住彈跳球。意外的，高度非線性的軌跡無法輕鬆地通過基於迴歸的預測來解決，因此，我們尋求學習方法。此外，使用最新的事件攝像機可以更好地檢測快速移動的目標，該事件攝像機會產生由空間變化觸發的異步輸出，而不是像傳統攝像機那樣是固定時間段。我們研究了LSTM模型如何適用於事件攝像機數據，特別是與同步採樣方法相比，使用異步數據的好處。

Cooperative Initialization based Deep Neural Network Training
Authors Pravendra Singh, Munender Varshney, Vinay P. Namboodiri
研究人員提出了各種激活功能。這些激活功能可幫助深度網絡學習非線性行爲，從而對訓練動力學和任務性能產生重大影響。這些激活的性能還取決於權重參數的初始狀態，即，不同的初始狀態導致網絡性能的差異。在本文中，我們提出了一種協作初始化，以使用ReLU激活函數來訓練深度網絡，以提高網絡性能。我們的方法在訓練網絡的最初幾個時期使用了多個激活函數來更新所有重量參數集。這些激活功能共同克服了權重參數更新方面的弊端，從而有效地學習了更好的特徵表示並在以後提高了網絡性能。基於協作初始化的培訓還有助於減少過擬合問題，並且不會增加參數的數量，不會在最終模型中推斷測試時間，同時還能提高性能。實驗表明，我們的方法優於各種基準，並且同時在各種任務（例如分類和檢測）上表現良好。在CIFAR 100數據集上，使用我們的方法訓練的模型的前1個分類準確度對於VGG 16提高了2.8，對於ResNet 56提高了2.1。

EcoNAS: Finding Proxies for Economical Neural Architecture Search
Authors Dongzhan Zhou, Xinchi Zhou, Wenwei Zhang, Chen Change Loy, Shuai Yi, Xuesen Zhang, Wanli Ouyang
神經體系結構搜索NAS在許多計算機視覺任務中均取得了重大進展。雖然已經提出了許多方法來提高NAS的效率，但是搜索進度仍然很費力，因爲在較大的搜索空間上訓練和評估合理的架構非常耗時。因此，在代理下，即在計算上減少了設置的情況下評估網絡候選者變得不可避免。在本文中，我們觀察到大多數現有代理在維持網絡候選者之間的等級一致性方面表現出不同的行爲。特別是，某些代理人可能會更可靠，與降低的設置表現和最終表現相比，候選者的排名相差無幾。在本文中，我們系統地研究了一些被廣泛採用的還原因子，並報告了我們的觀察結果。受這些觀察的啓發，我們提出了可靠的代理，並進一步制定了分層代理策略。該策略在可能更準確的候選網絡上花費了更多的計算，而在早期使用快速代理丟棄了沒有希望的計算。這導致了基於經濟的基於進化的NAS EcoNAS，與基於進化的8或3150 GPU天相比，可顯着減少400倍的搜索時間。我們的觀察結果導致的一些新代理也可以用於加速其他NAS方法，同時仍然能夠發現性能與以前的代理策略所發現的性能相匹配的良好候選網絡。

Spatial-Scale Aligned Network for Fine-Grained Recognition
Authors Lizhao Gao, Haihua Xu, Chong Sun, Junling Liu, Yu Wing Tai
現有的用於細粒度視覺識別的方法着重於學習基於邊緣區域的表示，同時忽略空間和比例失調，從而導致性能下降。在本文中，我們提出了空間尺度對齊網絡SSANET，並隱式地解決了識別過程中的不對齊問題。特別是，SSANET包括1具有形態對齊約束的自我監督提議挖掘公式2具有判別性的尺度挖掘DSM模塊，它通過循環矩陣利用特徵金字塔，並提供用於快速尺度對齊的傅立葉求解器3定向池化OP模塊，在幾個預定義的方向上執行池化操作。每個方向都定義一種空間對齊方式，並且網絡會通過學習自動確定哪種是最佳對齊方式。藉助提出的兩個模塊，我們的算法可以自動確定準確的本地提議區域，並生成不依賴於各種外觀差異的更可靠的目標表示。大量實驗證明，SSANET能夠勝任更好的空間尺度不變目標表示，在多個基準上的細粒度識別任務中表現出卓越的性能。

Informative Sample Mining Network for Multi-Domain Image-to-Image Translation
Authors Jie Cao, Huaibo Huang, Yi Li, Ran He, Zhenan Sun
深度生成模型的最新進展顯着提高了多域圖像到圖像翻譯的性能。現有方法可以使用統一模型來實現所有視覺域之間的轉換。但是，當域差異較大時，其結果遠不能令人滿意。在本文中，我們發現改進樣本選擇策略是一種有效的解決方案。爲了選擇信息樣本，我們在生成對抗性網絡的過程中動態估計樣本重要性，並提供信息樣本挖掘網絡。我們從理論上分析了樣本重要性與全局最優判別器預測之間的關係。然後推導了基於通用判別器的實用重要性估計函數。此外，我們提出了一種新穎的多階段樣本訓練方案，以在保持樣本信息量的同時降低樣本硬度。在廣泛的特定圖像到圖像翻譯任務上進行了廣泛的實驗，結果證明了我們比當前最先進的方法優越。

The Human Visual System and Adversarial AI
Authors Yaoshiang Ho, Samuel Wookey
本文將現有關於人類視覺系統的研究引入對抗性AI。迄今爲止，對抗AI已使用L1，L2，L0和L無窮大範數建模了乾淨圖像與對抗圖像之間的差異。當在對抗性AI的背景下應用於圖像時，這些規範具有易於數學解釋和獨特的視覺表示的優勢。然而，在過去的幾十年中，圖像處理的其他現有領域已經從簡單的數學模型（例如均方誤差MSE）轉向了更多地理解人類視覺系統HVS的模型。我們演示了將HVS整合到Adversarial AI中的概念證明，並希望激發更多的研究將HVS整合到Adversarial AI中。

Spatio-Temporal Relation and Attention Learning for Facial Action Unit Detection
Authors Zhiwen Shao, Lixin Zou, Jianfei Cai, Yunsheng Wu, Lizhuang Ma
面部動作單元之間的時空關係AU傳達了用於AU檢測的重要信息，但尚未得到充分利用。主要原因是當前的AU檢測工作無法同時學習空間和時間關係，並且缺乏用於AU特徵學習的精確定位信息的能力有限。爲了解決這些限制，我們提出了一種新穎的時空關係和注意力學習框架來進行AU檢測。具體來說，我們引入了一個時空圖卷積網絡來捕獲動態AU的空間和時間關係，其中AU關係被公式化爲具有自適應學習的時空圖，而不是預定義的邊緣權重。而且，對AU之間的時空關係的學習需要各個AU特徵。考慮到AU的動態性和形狀不規則性，我們提出了一種注意力正則化方法，以自適應地學習捕獲高度相關區域並抑制不相關區域的區域注意，從而爲每個AU提取一個完整的特徵。大量實驗表明，我們的方法相對於BP4D尤其是DISFA基準測試中最先進的AU檢測方法取得了顯着改進。

End-To-End Trainable Video Super-Resolution Based on a New Mechanism for Implicit Motion Estimation and Compensation
Authors Xiaohong Liu, Lingshi Kong, Yang Zhou, Jiying Zhao, Jun Chen
視頻超分辨率旨在從其低分辨率對應對象生成高分辨率視頻。隨着深度學習的迅速興起，許多最近提出的視頻超分辨率方法將卷積神經網絡與顯式運動補償結合使用，以利用低分辨率幀內和跨低分辨率幀的統計依賴性。這種方法的兩個常見問題值得注意。首先，最終重建的HR視頻的質量通常對運動估計的準確性非常敏感。其次，運動補償所需的翹曲網格由兩個流圖所指定，描繪了水平和垂直方向上的像素位移，這往往會引入額外的誤差並危及視頻幀之間的時間一致性。爲了解決這些問題，我們提出了一種新穎的動態局部濾波器網絡，該方法通過經由局部連接的層採用針對目標像素量身定製的特定於樣本和特定於位置的動態局部濾波器來執行隱式運動估計和補償。我們還提出了一個基於ResBlock和自動編碼器結構的全局優化網絡，以利用非局部相關性並增強超分辨幀的空間一致性。實驗結果表明，所提出的方法優於現有技術，並在局部變換處理，時間一致性以及邊緣清晰度方面驗證了其強度。

TCM-ICP: Transformation Compatibility Measure for Registering Multiple LIDAR Scans
Authors Aby Thomas, Adarsh Sunilkumar, Shankar Shylesh, Aby Abahai T., Subhasree Methirumangalath, Dong Chen, Jiju Peethambaran
多視圖和多平臺LiDAR掃描的剛性配準是3D映射，機器人導航和大規模城市建模應用程序中的一個基本問題。使用LiDAR傳感器進行數據採集涉及從不同角度掃描多個區域，從而生成現實世界場景中部分重疊的點雲。傳統上，ICP迭代最近點算法用於將採集的點雲註冊在一起，以形成捕獲掃描的現實世界場景的唯一點雲。常規ICP面臨局部極小問題，並且通常需要粗略的初始對齊才能收斂到最佳狀態。在這項工作中，我們提出了一種用於註冊多個重疊的LiDAR掃描的算法。我們介紹了一種稱爲“轉換兼容性度量” TCM的幾何度量，該度量可幫助選擇最相似的點雲以在算法的每次迭代中進行配準。然後，使用單工技術轉換與參考LiDAR掃描最相似的LiDAR掃描。然後使用梯度下降和模擬退火技術對轉換進行優化，以改善所得配準。我們在四個不同的真實世界場景上評估了該算法，實驗結果表明該方法的註冊性能與傳統的註冊方法相當或優於傳統的註冊方法。此外，即使在處理離羣值時，該算法也可以獲得出色的配準結果。

COPD Classification in CT Images Using a 3D Convolutional Neural Network
Authors Jalil Ahmed, Sulaiman Vesal, Felix Durlak, Rainer Kaergel, Nishant Ravikumar, Martine Remy Jardin, Andreas Maier
慢性阻塞性肺疾病COPD是一種不能完全逆轉的肺部疾病，是世界上發病率和死亡率的主要原因之一。早期發現和診斷COPD可以提高患者的生存率並降低COPD進展的風險。當前，診斷COPD的主要檢查工具是肺活量測定法。但是，計算機斷層掃描CT用於檢測COPD的症狀和亞型分類。即使對於醫生來說，使用不同的成像方式也是一項艱鉅而繁瑣的任務，並且受觀察者之間和觀察者之間差異的影響。因此，開發能夠自動將COPD與健康患者進行分類的方法引起了人們的極大興趣。在本文中，我們提出了一種3D深度學習方法，僅使用體積明智的註釋對COPD和肺氣腫進行分類。我們還演示了使用來自預先培訓的COPD分類模型的知識轉移，可以將遷移學習對肺氣腫分類的影響。

Represented Value Function Approach for Large Scale Multi Agent Reinforcement Learning
Authors Weiya Ren
在本文中，我們考慮了大規模多主體強化學習的問題。首先，我們研究了成對值函數的表示問題，以減少代理之間交互的複雜性。其次，我們採用l2範數技巧來確保近似值函數的瑣碎項是有界的。第三，對戰遊戲的實驗結果證明了該方法的有效性。

RPR: Random Partition Relaxation for Training; Binary and Ternary Weight Neural Networks
Authors Lukas Cavigelli, Luca Benini
我們提出了隨機分區鬆弛RPR，這是一種將神經網絡權重量化爲二進制1 1和三進制1 0 1的方法。從預先訓練的模型開始，我們對權重進行量化，然後將它們的隨機分區放寬到其連續值以進行再訓練，然後再對其進行重新量化並切換到另一個權重分區以進行進一步調整。我們使用基於SGD的訓練方法演示了二元和三元權重網絡，其精度超出了GoogLeNet的技術水平，並具有ResNet 18和ResNet 50的競爭性能，可以輕鬆地集成到現有框架中。

Res3ATN -- Deep 3D Residual Attention Network for Hand Gesture Recognition in Videos
Authors Naina Dhingra, Andreas Kunz
手勢識別是視頻中要解決的艱鉅任務。在本文中，我們使用了3D殘差注意力網絡，該網絡經過端到端訓練以用於手勢識別。基於堆疊的多個關注區域，我們構建了一個3D網絡，該網絡在每個關注區域生成不同的功能。可以構建基於3D注意的殘差網絡Res3ATN，並將其擴展到非常深的層。使用此網絡，可以基於三個公共可用數據集在其他3D網絡上進行廣泛的分析。將Res3ATN網絡性能與C3D，ResNet 10和ResNext 101網絡進行比較。我們還將研究和評估具有不同數量關注點的基線網絡。比較表明，具有3個注意塊的3D殘留注意網絡在注意學習方面具有較強的魯棒性，並且能夠對手勢進行更好的分類，從而勝過現有網絡。

Pixel-Semantic Revise of Position Learning A One-Stage Object Detector with A Shared Encoder-Decoder
Authors Qian Li, Nan Guo, Xiaochun Ye, Dongrui Fan, Zhimin Tang, Honggang Chen, Wenming Li
我們分析，基於通道或位置注意機制的不同方法在規模上會產生不同的性能，並且應用了特徵金字塔的一些最新檢測器與各種變體卷積集成在一起，並具有多種機制來增強信息，從而增加了運行時間。這項工作通過構造具有共享模塊的無錨檢測器解決了這個問題，該共享模塊由具有注意機制的編碼器和解碼器組成。首先，我們將與主幹網不同的級別功能（例如ResNet 50）視爲基本功能。其次，將特徵輸入一個簡單的塊中，而不是進行各種複雜的操作，然後分別通過探測器頭和分類器獲得位置和分類任務。同時，我們使用語義信息來修改幾何位置。此外，我們表明檢測器是位置的像素語義修改，通用，有效且易於檢測，尤其是大型物體。更重要的是，這項工作比較了不同特徵處理，例如，整個通道的平均，最大或最小性能。最後，我們提出，與在標準MSCOCO基線上基於MNC的ResNet 101相比，我們的方法將檢測精度提高了3.8 AP。

Discrimination-aware Network Pruning for Deep Model Compression
Authors Jing Liu, Bohan Zhuang, Zhuangwei Zhuang, Yong Guo, Junzhou Huang, Jinhui Zhu, Mingkui Tan
我們研究網絡修剪，該修剪旨在刪除冗餘通道內核，從而加快對深層網絡的推斷。現有的修剪方法要麼具有稀疏性約束而從頭開始訓練，要麼使預訓練模型的特徵圖與壓縮模型的特徵圖之間的重構誤差最小。兩種策略都有一些侷限性，前一種算法計算量大且難以收斂，而後一種優化重構誤差，卻忽略了信道的判別能力。在本文中，我們提出了一種簡單而有效的方法，稱爲“區分歧視的信道修剪DCP”，以選擇實際上有助於區分能力的信道。請注意，通道通常由一組內核組成。除了通道中的冗餘之外，通道中的某些內核也可能是冗餘的，並且無法對網絡的判別能力作出貢獻，從而導致內核級冗餘。爲了解決這個問題，我們提出了一種區分歧視的內核修剪DKP方法，以通過刪除冗餘內核來進一步壓縮深度網絡。爲了防止DCP DKP選擇冗餘通道內核，我們提出了一種新的自適應停止條件，該條件可以自動確定所選通道內核的數量，並且通常會導致具有更好性能的更緊湊模型。在圖像分類和麪部識別方面的大量實驗證明了我們方法的有效性。例如，在ILSVRC 12上，最終減少30個通道的ResNet 50模型甚至比基線模型的Top 1精度要高0.36。修剪後的MobileNetV1和MobileNetV2在移動設備上分別實現1.93倍和1.42倍的推理加速，而性能下降可忽略不計。可以在以下位置獲得源代碼和經過預先訓練的模型

Adversarial-Learned Loss for Domain Adaptation
Authors Minghao Chen, Shuai Zhao, Haifeng Liu, Deng Cai
最近，在跨域學習可轉移表示方面已取得了顯着進步。領域適應的先前工作主要基於領域對抗學習和自我訓練這兩種技術。但是，領域對抗性學習僅使領域之間的特徵分佈對齊，而不考慮目標特徵是否具有歧視性。另一方面，自我訓練利用模型預測來增強對目標特徵的辨別力，但無法顯式對齊域分佈。爲了結合這兩種方法的優勢，我們提出了一種新的方法，稱爲“針對域自適應ALDA的對抗性學習損失”。我們首先分析僞標籤方法，這是一種典型的自我訓練方法。但是，僞標籤與基本事實之間仍然存在差距，這可能會導致錯誤的訓練。因此，我們引入了混淆矩陣，該矩陣通過在ALDA中通過對抗的方式來學習，以減小間隙並對齊特徵分佈。最後，從學習到的混淆矩陣中自動構建一個新的損失函數，該函數用作未標記目標樣本的損失。我們的ALDA在四個標準域適應數據集中的表現均優於最新方法。我們的代碼位於

Understanding Image Captioning Models beyond Visualizing Attention
Authors Jiamei Sun, Sebastian Lapuschkin, Wojciech Samek, Alexander Binder
本文解釋了除了視覺化注意力本身之外，具有注意力機制的圖像字幕模型的預測。在本文中，我們開發了分層明智相關反向傳播LRP和梯度反向傳播的變體，專門針對圖像字幕而設計。結果同時爲字幕中的每個單詞提供了逐像素圖像解釋和語言解釋。我們顯示給定標題中要解釋的單詞，諸如LRP的解釋方法會顯示支持和相對像素以及單詞。我們將注意力熱圖的屬性與通過解釋方法（例如LRP，Grad CAM和Guided Grad CAM）計算出的屬性進行系統比較。我們證明了解釋方法，首先，與注意力相比，其與對象位置的關聯度更高，其次，它能夠識別出不受圖像內容支持的對象詞，其次，可爲消除偏見提供指導並改進模型。報告了使用Flickr30K和MSCOCO2017數據集訓練的兩種不同注意力模型進行圖像字幕的結果。實驗分析表明，解釋方法可以幫助理解圖像字幕注意模型。

FrequentNet : A New Deep Learning Baseline for Image Classification
Authors Yifei Li, Zheng Wang, Kuangyan Song, Yiming Sun
在本文中，我們從稱爲PCANet的方法中概括了這一思想，以實現用於圖像分類的新基線深度學習模型。代替在PCANet中使用主成分向量作爲濾波向量，我們在離散傅里葉分析和小波分析中使用基礎向量作爲濾波向量。兩者在基準數據集中均達到了與PCANet相當的性能。值得注意的是，我們的算法不需要任何優化技術即可獲得這些基礎。

Grab: Fast and Accurate Sensor Processing for Cashier-Free Shopping
Authors Xiaochen Liu, Yurong Jiang, Kyu Han Kim, Ramesh Govindan
像Amazon Go這樣的免費收銀購物系統可以改善購物體驗，但是可能需要重新設計商店。在本文中，我們提出了Grab，這是一個利用現有基礎架構和設備來實現收銀員免費購物的實用系統。 Grab需要準確地識別和跟蹤客戶，並將每個購物者與他或她從貨架上取回的物品相關聯。爲此，它使用基於關鍵點的姿勢跟蹤器作爲識別和跟蹤的構建塊，開發基於魯棒特徵的面部跟蹤器以及用於關聯和跟蹤手臂運動的算法。它還使用概率框架融合來自相機，重量和RFID傳感器的讀數，以便準確評估哪個購物者撿起哪個物品。在零售商店進行試點部署的實驗中，Grab可以實現90多種精度，並且即使設計了40種購物動作來使系統感到困惑，Grab仍可以實現召回。此外，Grab進行了優化，可將計算基礎設施的投資減少四倍。

Segmentation-Aware and Adaptive Iris Recognition
Authors Kuo Wang, Ajay Kumar
虹膜識別已成爲人類識別的最準確，最方便的生物特徵之一，並已越來越廣泛地應用於各種電子安全應用中。已知在遠處或在較少約束的成像環境下獲取的虹膜圖像的質量會降低虹膜匹配精度。眼周信息固有地嵌入在這種虹膜圖像中，並且可以被利用來在這種非理想情況下輔助虹膜識別。我們對這種虹膜模板的分析還表明，在感興趣區域中虹膜識別可以從相似距離中受益，而該相似距離可以考慮不同二進制位的重要性，而不是在文獻中直接使用漢明距離，因此虹膜識別可以從相關區域中顯着降低。通過合併可用虹膜區域有效區域中的差異，可以動態增強眼周信息，以實現更準確的虹膜識別。本文提出了這樣一種分割輔助的自適應框架，用於更準確，不受約束的虹膜識別。使用三個數據集內和跨數據集性能評估，在三個可公開獲取的虹膜數據庫上評估了該框架的有效性，並驗證了所提出的虹膜識別框架的優點。

DepthTransfer: Depth Extraction from Video Using Non-parametric Sampling
Authors Kevin Karsch, Ce Liu, Sing Bing Kang
我們描述了一種使用非參數深度採樣從視頻自動生成合理的深度圖的技術。在過去的方法無法平移相機和動態場景而失敗的情況下，我們將演示我們的技術。我們的技術適用於單個圖像以及視頻。對於視頻，我們使用局部運動提示來改善推斷的深度圖，同時使用光流來確保時間深度的一致性。爲了進行培訓和評估，我們使用基於Kinect的系統來收集包含已知深度的立體視頻的大型數據集。我們表明，我們的深度估計技術優於基準數據庫上的最新技術。我們的技術可用於自動將單視場視頻轉換爲立體聲以進行3D可視化，並且我們通過各種室內和室外場景的視覺效果（包括故事片Charade的效果）進行演示。

Inverse Rendering Techniques for Physically Grounded Image Editing
Authors Kevin Karsch
從一幅場景的單個圖片中，人們通常可以立即掌握空間佈局，甚至可以很好地猜測材料的屬性以及光線從何處照射場景。例如，我們可以可靠地分辨出哪些物體遮擋了其他物體，該物體是由什麼構成的，其粗糙的形狀，被照明或陰影的區域等等。有趣的是，人們對我們做出這些決定的能力知之甚少，我們仍然無法穩健地教導計算機進行與人類相同的高級觀察。本文檔介紹了用於從單個圖像理解固有場景屬性的算法。這些逆渲染技術的目標是僅使用圖像中可見的信息來估計場景元素的幾何形狀，材料，燈具，相機參數等的配置。這樣的算法在機器人技術和計算機圖形學中具有應用。一種這樣的應用是在物理基礎上的圖像編輯中，通過利用物理空間的知識使照片編輯更加容易。這些應用程序允許在幾秒鐘內執行復雜的編輯操作，從而可以無縫添加，刪除或重新放置圖像中的對象。

A Deep Neuro-Fuzzy Network for Image Classification
Authors Omolbanin Yazdanbakhsh, Scott Dick
將神經網絡和模糊系統組合成神經模糊系統，將模糊推理規則集成到連接網絡中。然而，現有的神經模糊系統是在具有較低泛化能力的淺層結構下開發的。我們提出了首個端到端的深度神經模糊網絡，並研究了其在圖像分類中的應用。根據Takagi Sugeno Kang TSK模糊模型的定義，開發了兩個新的運算，即模糊推理運算和這些運算的模糊池運算堆棧構成了該網絡中的各層。我們在MNIST，CIFAR 10和CIFAR 100數據集上評估了網絡，發現該網絡在這些基準測試中具有合理的準確性。

A Hybrid Approach to Temporal Pattern Matching
Authors Konstantinos Semertzidis, Evaggelia Pitoura
圖形模式匹配的主要目標是在大型數據圖形中查找輸入圖形模式查詢的所有外觀。這種出現稱爲比賽。在本文中，我們感興趣的是找到時間圖中交互模式的匹配。爲此，我們提出了一種混合方法，該方法可同時基於結構和時間實現對潛在匹配項的有效過濾。我們的方法利用圖形表示，其中邊緣按時間排序。我們使用真實的數據集進行實驗，這些數據集說明了我們方法的效率。

Opportunities and Challenges in Deep Learning Methods on Electrocardiogram Data: A Systematic Review
Authors Shenda Hong, Yuxi Zhou, Junyuan Shang, Cao Xiao, Jimeng Sun
目的從模型架構及其應用任務的角度對心電圖心電圖數據的深度學習方法進行系統的綜述。方法首先，我們廣泛搜索了在2010年1月1日至2019年9月30日期間由Google Scholar，PubMed和DBLP發佈的關於ECG數據的深度學習深度神經網絡網絡部署論文。然後從任務，模型和數據三個方面對它們進行分析。最後，我們總結了現有模型無法很好解決的未解決的挑戰和問題。結果論文總數爲124篇，其中近兩年後發表論文97篇。幾乎所有常見的深度學習架構都已用於ECG分析任務，例如疾病檢測分類，註釋定位，睡眠階段，生物特徵識別，去噪等。結論近年來，有關ECG數據深度學習的著作數量呈爆炸式增長。確實，這些作品在準確性方面取得了更好的性能。但是，存在一些新的挑戰和問題，例如可解釋性，可伸縮性，效率，這些問題都需要解決並引起更多關注。此外，還值得通過從數據集視圖和方法視圖中發現新的有趣應用程序進行研究。意義本文從多種角度總結了現有的深度學習方法，用於心電圖數據建模，同時指出了現有的挑戰和問題，同時也可能成爲未來的潛在研究方向。

Deeper Insights into Weight Sharing in Neural Architecture Search
Authors Yuge Zhang, Zejun Lin, Junyang Jiang, Quanlu Zhang, Yujing Wang, Hui Xue, Chen Zhang, Yaming Yang
隨着深度神經網絡的成功，作爲自動模型設計方法的神經體系結構搜索NAS引起了廣泛關注。由於從頭開始訓練每個子模型非常耗時，因此最近的工作利用權重分配來加快模型評估過程。這些方法通過在超級網上維護權重的單個副本並在每個子模型之間共享權重，從而大大減少了計算。但是，重量分配沒有理論上的保證，其影響以前還沒有得到很好的研究。在本文中，我們進行了全面的實驗以揭示權重分配的影響1來自不同運行或什至來自同一運行的連續時期的最佳性能模型具有顯着的方差2即使存在高方差，我們也可以從訓練超級運動中提取有價值的信息權重共享的淨值3子模型之間的干擾是導致高方差的主要因素。4適當降低權重分配的程度可以有效地減少方差並提高性能。

Classification of Large-Scale High-Resolution SAR Images with Deep Transfer Learning
Authors Zhongling Huang, Corneliu Octavian Dumitru, Zongxu Pan, Bin Lei, Mihai Datcu
衛星獲取的高分辨率高分辨率SAR地面覆蓋圖像的分類是一項艱鉅的任務，面臨許多困難，例如具有專業知識的語義註釋，由於成像參數變化或區域目標區域差異而導致的數據特徵變化以及複雜的散射機制不同於光學成像。鑑於從TerraSAR X圖像收集的大規模SAR土地覆蓋數據集具有150個類別的分層三級註釋，包括100,000多個補丁，解決了自動解釋高度失衡類別，地理多樣性和標籤噪聲的SAR圖像的三個主要挑戰。。在這封信中，提出了一種基於類似註釋的光學土地覆蓋數據集NWPU RESISC45的深度轉移學習方法。此外，引入了具有成本敏感參數的前2個平滑損失函數，以解決標籤噪聲和類別不平衡的問題。所提出的方法在從類似註釋的遙感數據集傳輸信息方面顯示出很高的效率，在高度不平衡的類上具有魯棒的性能，並且減輕了由標籤噪聲引起的過擬合問題。此外，學習的深度模型對其他SAR特定任務具有良好的概括性，例如MSTAR目標識別，其分類精度爲99.46。

Identifying and Compensating for Feature Deviation in Imbalanced Deep Learning
Authors Han Jia Ye, Hong You Chen, De Chuan Zhan, Wei Lun Chao
我們調查學習如何使用類不平衡數據學習ConvNet分類器。我們發現，即使使用通用ERM進行訓練，ConvNet仍然非常適合沒有足夠訓練實例的次要課程。我們進行了一系列分析，並認爲訓練實例和測試實例之間的特徵偏差是主要原因。我們建議在學習ConvNet CDT時將依賴於類的溫度CDT納入訓練中，以迫使次要類實例在訓練中具有較大的決策值，從而補償測試中特徵偏差的影響。我們在幾個基準數據集上驗證了我們的方法，並取得了可喜的結果。我們的研究進一步表明，班級失衡數據以非常不同的方式影響傳統的機器學習和最近的深度學習。我們希望我們的見解可以啓發新的思維方式來解決班級不平衡的深度學習。

The troublesome kernel: why deep learning for inverse problems is typically unstable
Authors Nina M. Gottschling, Vegard Antun, Ben Adcock, Anders C. Hansen
有大量的經驗證據表明，深度學習DL導致從圖像分類和計算機視覺到醫學中的語音識別和自動診斷的應用中不穩定的方法。最近，當使用DL解決計算科學中的某些問題（即成像中的逆問題）時，已經發現了類似的不穩定性現象。在本文中，我們提供了全面的數學分析，解釋了逆問題中DL不穩定現象的許多方面。我們的主要結果不僅解釋了爲什麼會發生這種現象，而且還闡明瞭爲什麼在實踐中很難找到治癒不穩定的方法。此外，這些定理表明，不穩定性通常不是罕見事件，即使測量受到完全隨機噪聲的影響，不穩定性也可能發生，因此破壞某些受過訓練的神經網絡的穩定性有多容易。我們還研究了重建性能與穩定性之間的微妙平衡，尤其是DL方法如何能勝過現有的稀疏正則化方法，但要以不穩定爲代價。最後，我們證明了訓練神經網絡的反直覺現象通常可能無法產生針對反問題的最佳重構方法。

Biologically-Motivated Deep Learning Method using Hierarchical Competitive Learning
Authors Takashi Shinozaki
這項研究提出了一種新的深度卷積神經網絡CNN的生物動機學習方法。 CNN和反向傳播BP學習的結合是最近機器學習方案中最強大的方法。但是，它需要大量的標籤數據來進行培訓，並且該要求有時可能會成爲現實應用程序的障礙。爲了解決此問題並利用未標記的數據，我建議引入無監督競爭學習，該學習僅要求將正向傳播信號作爲CNN的預訓練方法。該方法通過使用MNIST，CIFAR 10和ImageNet數據集的圖像辨別任務進行了評估，並在ImageNet實驗中作爲生物學驅動的方法獲得了最先進的性能。結果表明，該方法能夠僅從正向傳播信號實現高級學習表示，而無需向後誤差信號來學習卷積層。所提出的方法對於各種標記較差的數據（例如時間序列或醫學數據）可能很有用。

Image Speckle Noise Denoising by a Multi-Layer Fusion Enhancement Method based on Block Matching and 3D Filtering
Authors Huang Shuo, Zhou Ping, Shi Hao, Sun Yu, Wan Suiren
爲了改善塊匹配3d濾波BM3D方法的斑點噪聲去噪，提出了一種基於非下采樣contourlet變換NSCT的圖像頻域多層融合增強方法MLFE BM3D。該方法設計了一個NSCT硬閾值去噪增強來對圖像進行預處理，然後在NSCT域中使用融合增強來融合NSCT硬閾值去噪前後的圖像初步估計結果，最後對融合後的圖像進行BM3D去噪，獲得最終的去噪結果。在自然圖像和醫學超聲圖像上的實驗表明，MLFE BM3D方法比BM3D方法具有更好的視覺效果，去噪圖像的峯值信噪比PSNR提高了0.5dB。 MLFE BM3D方法可以改善紋理區域中斑點噪聲的去噪效果，並且在圖像的平滑區域中仍保持良好的去噪效果。

Visual Semantic SLAM with Landmarks for Large-Scale Outdoor Environment
Authors Zirui Zhao, Yijun Mao, Yan Ding, Pengju Ren, Nanning Zheng
語義SLAM是自動駕駛和智能代理中的重要領域，可以使機器人實現高級導航任務，獲得簡單的認知或推理能力並實現基於語言的人機交互。在本文中，我們構建了一個系統，該系統通過將ORB SLAM中的3D點雲與卷積神經網絡模型PSPNet 101中的語義分割信息相結合來創建大規模環境的語義3D地圖。此外，還建立了一個新的KITTI序列數據集，其中包含GPS信息和序列相關街道中Google Map的地標標籤。此外，我們找到了一種將現實世界地標與點雲圖關聯的方法，並基於語義圖構建了拓撲圖。

Painting Many Pasts: Synthesizing Time Lapse Videos of Paintings
Authors Amy Zhao, Guha Balakrishnan, Kathleen M. Lewis, Fr do Durand, John V. Guttag, Adrian V. Dalca
我們引入了一個新的視頻合成任務，該任務合成了延時視頻，這些視頻描述瞭如何繪製給定的繪畫。藝術家使用畫筆，描邊，顏色和圖層的獨特組合進行繪畫。通常有很多可能的方法來創建給定的繪畫。我們的目標是學習捕捉這種豐富的可能性。

Distributed Stochastic Algorithms for High-rate Streaming Principal Component Analysis
Authors Haroon Raja, Waheed U. Bajwa
本文考慮了從流設置中的獨立且均勻分佈的數據樣本中估計協方差矩陣的主特徵向量的問題。在許多現代應用中，數據的流傳輸速率可能足夠高，以致單個處理器無法在新樣本到達之前完成現有特徵向量估計方法的迭代。本文提出並分析了經典Krasulina方法D Krasulina的分佈式變體，該方法可以通過在多個處理節點之間分配計算負載來跟上高數據流率。分析表明，在適當的條件下，D Krasulina以一種順序最優的方式收斂到主特徵向量，即在所有節點上接收M個樣本後，其估計誤差可以爲O 1 M。爲了減少網絡通信開銷，本文還開發並分析了D Krasulina的小批量擴展，稱爲DM Krasulina。 DM Krasulina的分析表明，即使由於通信延遲而不得不在網絡內丟棄某些樣本時，它也可以在適當的條件下實現階次最優估計誤差率。最後，對合成數據和現實世界數據進行了實驗，以驗證D Krasulina和DM Krasulina在高速率流設置中的收斂行爲。

Segmentation of Cellular Patterns in Confocal Images of Melanocytic Lesions in vivo via a Multiscale Encoder-Decoder Network (MED-Net)
Authors Kivanc Kose, Alican Bozkurt, Christi Alessi Fox, Melissa Gill, Caterina Longo, Giovanni Pellacani, Jennifer Dy, Dana H. Brooks, Milind Rajadhyaksha
體內光學顯微鏡正在進入常規臨牀實踐，以非侵入性方式指導癌症和其他疾病的診斷和治療，從而開始減少傳統活檢的需要。然而，光學顯微鏡圖像的讀取和分析通常仍是定性的，主要依靠視覺檢查。在這裏，我們提出了一種稱爲多尺度編碼器解碼器網絡MED Net的自動語義分割方法，該方法以定量方式將像素級標記提供給模式類別。我們方法的新穎之處在於可以在多個尺度上對紋理圖案進行建模。這模仿了檢查病理圖像的過程，該過程通常從低放大率，低分辨率，大視野開始，然後以更高的放大率，更高分辨率，更小的視野仔細檢查可疑區域。我們在117個反射性共聚焦顯微鏡檢查的黑素細胞病變的RCM馬賽克的非重疊分區上訓練和測試了我們的模型，該模型是該應用程序的廣泛數據集，在美國的四個診所和意大利的兩個診所中收集。通過耐心的交叉驗證，我們在六個類別上分別達到了像素級的平均靈敏度和特異性，分別爲70 pm11和95 pm2，骰子係數爲0.71 pm0.09。在這種情況下，我們明智地對數據診所進行了劃分，並在多個診所中測試了該模型的可推廣性。在這種設置下，我們獲得了0.75 Dice係數的逐像素平均靈敏度和特異性分別爲74和95。我們將MED Net與最先進的語義細分模型進行了比較，並獲得了更好的定量細分性能。我們的結果還表明，由於其嵌套的多尺度體系結構，MED Net模型更加連貫地註釋了RCM鑲嵌圖，避免了不切實際的零碎註釋。

Semi-supervised Classification using Attention-based Regularization on Coarse-resolution Data
Authors Guruprasad Nayak, Rahul Ghosh, Xiaowei Jia, Varun Mithal, Vipin Kumar
在多種分辨率下可以觀察到許多現實世界的現象。設計用來預測這些現象的預測模型通常分別考慮不同的分辨率。在需要以高分辨率進行預測但缺乏可用訓練數據的應用中，這種方法可能會受到限制。在本文中，我們提出了分類算法，該算法利用較粗分辨率的監督來幫助訓練較細分辨率的模型。在多視圖框架中，將不同的分辨率建模爲數據的不同視圖，該框架利用不同視圖之間功能的互補性來改進兩個視圖上的模型。與傳統的多視圖學習問題不同，在我們的案例中，關鍵的挑戰是在我們的案例中，跨不同視圖的實例之間沒有一對一的對應關係，這需要對跨分辨率的實例對應關係進行顯式建模。我們建議使用不同分辨率的實例特徵來通過注意力機制來學習不同分辨率的實例之間的對應關係。通過衛星觀測對城市區域進行地圖繪製以及對文本數據進行情感分類的實際應用實驗證明了所提出方法的有效性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁

pic from pexels.com

【AI視野·今日CV 計算機視覺論文速覽第174期】Tue, 7 Jan 2020

Interesting:

Daily Computer Vision Papers

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

【英文寫作日知錄第1期】句式彙總 Sun, 05 July 2020

【AI視野·今日CV 計算機視覺論文速覽第166期】Mon, 28 Oct 2019

【AI視野·今日CV 計算機視覺論文速覽第167期】Mon, 11 Nov 2019

【研究方法】好的研究想法從哪裏來--劉知遠

【AI視野·今日CV 計算機視覺論文速覽第168期】Fri, 15 Nov 2019

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【AI視野·今日CV 計算機視覺論文速覽 第174期】Tue, 7 Jan 2020

Interesting:

Daily Computer Vision Papers

【AI視野·今日CV 計算機視覺論文速覽第174期】Tue, 7 Jan 2020