原创 如何在音頻分析中使用機器學習和深度學習

介紹 深度學習領域的學術論文很多都是關於計算機視覺和自然語言處理,而音頻分析(包括自動語音識別,數字信號處理,音樂分類、標籤、生成)領域的運用也逐漸受到了學者們的關注。目前最流行的機器學習系統,如虛擬助手 Alexa,Siri 和

原创 Stitcher: Feedback-driven Data Provider for Object Detection 論文學習

Abstract 目標檢測器通常會根據尺度的大小而有不同的表現,在小物體上的表現是最不好的。本文中,作者研究了該現象,發現:在訓練的大多數迭代中,小物體幾乎不對整體損失做貢獻,優化不均衡造成模型的表現很差。受此啓發,本文提出了St

原创 ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 論文學習

Abstract 通道注意力機制被證明可以極大地提升CNN的表現。但是,現有的方法都致力於設計出更復雜的注意力模塊,來實現更高的準確率,不可避免地增加模型的複雜度。爲了克服表現與複雜度之間的trade-off,作者提出了一個高效的

原创 ReXNet: Diminishing Representational Bottleneck on Convolutional Neural Network 論文學習

Abstract 本文解決了網絡中 representational bottleneck 問題,提出了若干設計原則來顯著提升模型的表現。作者認爲,傳統方法設計出來的 representational bottleneck 可能造

原创 DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution論文學習

Abstract 很多的目標檢測器通過 looking and thinking twice 的方式實現了驚人的表現。本文作者針對目標檢測主幹網絡的設計,研究了該機制。在宏觀層面,作者提出了遞歸特徵金字塔,將來自FPN的額外的反饋

原创 GhostNet: More Features from Cheap Operations 論文學習

Abstract 在嵌入式設備上設計卷積網絡很困難,主要因爲內存和計算資源有限。特徵圖冗餘是這些CNN的一個重要特點,但是很少在網絡結構設計上得到研究。本文提出了一個創新的 Ghost 模塊,通過低成本的操作輸出更多的特徵圖。基於

原创 TAM: Temporal Adaptive Module for Video Recognition論文學習

Abstract 時域建模在視頻動作識別任務中,對於時空結構的獲取非常重要。由於各種因素,如相機移動、速度差異,視頻數據在時間維度上非常複雜。爲了有效獲取這些運動的模式,本文提出了一個新的時域自適應模塊(TAM),基於特徵圖產生具

原创 CSPNet 論文學習

Abstract 神經網絡爲計算機視覺任務如目標檢測,提供了 state of the art 的方法,取得了難以置信的成績。但是,這些成績都過於依賴高計算量,使我們無法在廉價的設備上使用這些先進的方法。本文從網絡結構的角度出發,

原创 YOLOv4 論文分享

Abstract 爲了提升卷積神經網絡的準確率,人們提出了許多的特徵。我們需要在大規模的數據集上對這些特徵進行充分的試驗和理論證明。有一些特徵只對特定的模型、特定的問題、特定的數據集管用,而另一些特徵如 batch-norm 和殘

原创 用 Bootstrap 進行參數估計

1. 中心極限定理 中心極限定理指的是給定一個任意分佈的總體,每次從這個總體中隨機抽樣nnn個樣本,一共抽取mmm次。然後把這mmm組抽樣分別求出其平均值,這些平均值的分佈接近正態分佈。 舉個例子: 現在我們要統計全國的人的體重,

原创 ATSS 論文學習

Abstract 基於anchor的檢測器在過去很多年都主導着目標檢測領域。最近由於FPN和 Focal Loss 的提出, anchor-free 的檢測器逐漸流行了起來。本文中,作者指出了基於anchor和anchor-fre

原创 Learning Spatiotemporal Features with 3D Convolutional Networks 論文學習

Abstract 本文針對時空特徵學習提出了一個簡單而有效的方法,就是在大規模的視頻數據集上訓練三維卷積網絡(3D ConvNets)。本文的貢獻主要有三方面:1)相較於二維卷積網絡,三維卷積網絡更適合時空特徵的學習;2)對於三維

原创 Pruning from Scratch 論文學習

Abstract 網絡剪枝是降低神經網絡計算成本的重要研究方向。傳統的方法都是先訓練一個大型、冗餘的網絡,然後決定哪些單元(如通道)沒那麼重要,可以被裁剪掉。這篇論文發現,我們不需要預訓練一個過度參數化的網絡,再對其進行剪枝。作者

原创 ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression 論文學習

Abstract 作者提出了一個高效、統一的框架,在訓練和測試階段同步進行CNN模型的加速和壓縮。本文聚焦於濾波器級別的裁剪,如果某濾波器不重要,就將其整個去除。該方法不會改變原有網絡的結構,因而可以用現有的深度學習框架全部實現。

原创 FoveaBox: Beyond Anchor-based Object Detect論文學習

論文地址:https://arxiv.org/abs/1904.03797 Abstract 本文提出了一個準確、靈活且完全沒用 anchor 的目標檢測框架 — FoveaBox。目前幾乎全部的目標檢測器都使用了提前定義好的 a