pytorch系列 -- 9 pytorch nn.init 中實現的初始化函數 uniform, normal, const, Xavier, He initialization

原創

2020-02-22 06:09

本文內容：

nn.init 中各種初始化函數
Xavier 初始化
He 初始化
torch.init https://pytorch.org/docs/stable/nn.html#torch-nn-init

1. 均勻分佈

torch.nn.init.uniform_(tensor, a=0, b=1)

2. 正太分佈

torch.nn.init.normal_(tensor, mean=0, std=1)

3. 初始化爲常數

torch.nn.init.constant_(tensor, val)

初始化整個矩陣爲常數val

4. Xavier

基本思想是通過網絡層時，輸入和輸出的方差相同，包括前向傳播和後向傳播。具體看以下博文：

爲什麼需要Xavier 初始化？
文章第一段通過sigmoid激活函數講述了爲何初始化？

簡答的說就是：
如果初始化值很小，那麼隨着層數的傳遞，方差就會趨於0，此時輸入值也變得越來越小，在sigmoid上就是在0附近，接近於線性，失去了非線性
如果初始值很大，那麼隨着層數的傳遞，方差會迅速增加，此時輸入值變得很大，而sigmoid在大輸入值寫倒數趨近於0，反向傳播時會遇到梯度消失的問題

其他的激活函數同樣存在相同的問題。
https://prateekvjoshi.com/2016/03/29/understanding-xavier-initialization-in-deep-neural-networks/

所以論文提出，在每一層網絡保證輸入和輸出的方差相同。

2. xavier初始化的簡單推導

https://blog.csdn.net/u011534057/article/details/51673458

對於Xavier初始化方式，pytorch提供了uniform和normal兩種：

torch.nn.init.xavier_uniform_(tensor, gain=1) 均勻分佈其中， a的計算公式：
torch.nn.init.xavier_normal_(tensor, gain=1) 正態分佈其中std的計算公式：

5. kaiming (He initialization)

Xavier在tanh中表現的很好，但在Relu激活函數中表現的很差，所何凱明提出了針對於Relu的初始化方法。
Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification He, K. et al. (2015)
該方法基於He initialization,其簡單的思想是：
在ReLU網絡中，假定每一層有一半的神經元被激活，另一半爲0，所以，要保持方差不變，只需要在 Xavier的基礎上再除以2

也就是說在方差推到過程中，式子左側除以2.
pytorch也提供了兩個版本：

兩函數的參數：

a：該層後面一層的激活函數中負的斜率(默認爲ReLU，此時a=0)
mode：‘fan_in’ (default) 或者 ‘fan_out’. 使用fan_in保持weights的方差在前向傳播中不變；使用fan_out保持weights的方差在反向傳播中不變

針對於Relu的激活函數，基本使用He initialization，pytorch也是使用kaiming 初始化卷積層參數的

Hinton-wu

發佈了113 篇原創文章 · 獲贊 107 · 訪問量 23萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pytorch系列 -- 9 pytorch nn.init 中實現的初始化函數 uniform, normal, const, Xavier, He initialization

1. 均勻分佈

2. 正太分佈

3. 初始化爲常數

4. Xavier

2. xavier初始化的簡單推導

5. kaiming (He initialization)

ollama使用

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

TiDB Vector 太香啦：以圖搜圖初體驗！

《最新出爐》系列入門篇-Python+Playwright自動化測試-41-錄製視頻

python筆記：conda和pypi源的配置

“華爲雲杯”2020深圳開放數據應用創新大賽·生活垃圾圖片分類（目標檢測）

anchor的簡單理解

YOLO系列：V1,V2,V3,V4簡介

SAR（遙感、衛星）圖像常用數據集

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結