depthwise模型訓練不容易收斂

原創

啥哈哈哈

2020-06-19 01:35

爲了做模型壓縮，常見方法將正常卷積換成seperable 卷積（正常卷積和可分離卷積具體見下圖）

（1）正常卷積（2）depthwise 卷積（3）pointwise 卷積

正常卷積卷積的大小： kernel_size_w * kernel_size_h * input_channel * output_channel

seperable 卷積大小：kernel_size_w * kernel_size_h * input_channel + input_channel * output_channel

moblieNet v2中解釋：經過激活層的tensor HxWxD 興趣流形，可能只分布在激活層的一個低維子空間，利用這一點使用1x1卷積將tensor降維，但由於relu的存在，將爲損失較多信息。

上圖中，利用MxN的矩陣B將張量（2D，即N=2）變換到M維的空間中，通過ReLUctant後（y=ReLU(Bx)），再用此矩陣之逆恢復原來的張量。（1x1xNxM 的卷積作用後再用relu，如果輸出的dim 比較少的時候，信息丟失嚴重）。在較低維度的張量表示（興趣流形）上進行ReLU等線性變換會有很大的信息損耗。因此在moblieNet v2 中在做depthwise 卷積的時候通過1x1的卷積將channels 數據增多，來方式relu 對信息的損耗。（嚴重的情況，relu 將損失所有的信息，無論輸入是什麼輸出都爲一樣的結果）。

因此在訓練depthwise 結構的模型時容易出現不收斂的情況，可以通過向moblienet v2中一樣將要做relu 層的channels 增多。或者加上skip-connection 將輸入特徵和經過relu 的數據結合在一起，會減輕relu 造成的不收斂情況。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

depthwise模型訓練不容易收斂

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

depthwise模型訓練不容易收斂

C++標準庫中的容器

git 學習（git fetch/ git pull/ git rebase/ git cherry-pick的區別）

提高降噪模型的泛化能力（包含一些噪聲數據鏈接）

訓練語音降噪模型的一些感想

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結