NLP第一課: 深度學習簡介和常識

原創

ruclion

2020-02-24 04:09

FP和BP和消失爆炸

梯度消失和爆炸簡化解釋- -link
梯度消失及其解決方法- -link

解決零: relu, clip, loss正則化. BN. 數值

relu、leakrelu、elu等激活函數
clip
正則化
BN着重瞭解.

解決一: [DBN]大話解釋和應用. 預訓練

link

要用一次

1.用PCA監督訓練各層也可以, 類似於RBM. 隱含着等維度, 不同表示的轉換和信息等價的判定, 稀疏化等都是基於此, 用auto-encoder後半段decoder來判定, 其實維度增加都是生成模型, 把先驗或條件信息過擬合在網絡中.
但是剛開始沒有指引性, 應該把最終標籤作爲指引, Condition-DBN.

2.思想可以遷移到任何網絡的初始化.

隨着神經網絡層數的增加，深度神經網絡的模型參數很多，就要求在訓練時需要有很大的標籤數據，因爲訓練數據少的時候很難找到最優解，也就是說深度神經網絡不具備解決小樣本問題的能力。小樣本語音思路
回想一下RBM，由可見層、隱層組成，顯元用於接受輸入，隱元用於提取特徵，因此隱元也有個別名，叫特徵檢測器。也就是說，通過RBM訓練之後，可以得到輸入數據的特徵。（感性對比：聯想一下主成分分析，提取特徵）
另外，RBM還通過學習將數據表示成概率模型，一旦模型通過無監督學習被訓練或收斂到一個穩定的狀態，它還可以被用於生成新數據。（感性對比：聯想一下曲線擬合，得出函數，可用於生成數據）

解決二: LSTM思想. ResNet. 跳躍.

視野放大.

要用

LSTM全稱是長短期記憶網絡（long-short term memory networks），是不那麼容易發生梯度消失的，主要原因在於LSTM內部複雜的“門”(gates)，LSTM通過它內部的“門”可以接下來更新的時候“記住”前幾次訓練的”殘留記憶“，因此，經常用於生成文本中。目前也有基於CNN的LSTM，感興趣的可以嘗試一下。

Gradient Reversal

link
實際上, loss取反含義一樣, 但是-loss就成負無窮了.
而-λ還可以調控.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NLP第一課: 深度學習簡介和常識

FP和BP和消失爆炸

解決零: relu, clip, loss正則化. BN. 數值

解決一: [DBN]大話解釋和應用. 預訓練

解決二: LSTM思想. ResNet. 跳躍.

Gradient Reversal

kaggle比賽一之ieee-fraud-detection

嘗試nvidia的Tacotron-2和waveglow的結合, 並且着重考慮多GPU以及inference時的性能.

簡單的基於Tacotron2的中英文混語言合成, 包括code-switch和voice clone. 以及深入結構設計的探討.

Tensorflow1.x查看ckpt變量情況, 以及爲之後部分恢復權重做鋪墊.

Pycharm爲核心在構建服務器端深度學習語音合成程序時的配置和技巧

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結