NLP第一課: 深度學習簡介和常識

FP和BP和消失爆炸

梯度消失和爆炸簡化解釋- -link
梯度消失及其解決方法- -link
在這裏插入圖片描述

解決零: relu, clip, loss正則化. BN. 數值

relu、leakrelu、elu等激活函數
clip
正則化
BN着重瞭解.

  • BN

解決一: [DBN]大話解釋和應用. 預訓練

link

  • 要用一次

1.用PCA監督訓練各層也可以, 類似於RBM. 隱含着等維度, 不同表示的轉換和信息等價的判定, 稀疏化等都是基於此, 用auto-encoder後半段decoder來判定, 其實維度增加都是生成模型, 把先驗或條件信息過擬合在網絡中.
但是剛開始沒有指引性, 應該把最終標籤作爲指引, Condition-DBN.
在這裏插入圖片描述
2.思想可以遷移到任何網絡的初始化.

隨着神經網絡層數的增加,深度神經網絡的模型參數很多,就要求在訓練時需要有很大的標籤數據,因爲訓練數據少的時候很難找到最優解,也就是說深度神經網絡不具備解決小樣本問題的能力。小樣本語音思路
回想一下RBM,由可見層、隱層組成,顯元用於接受輸入,隱元用於提取特徵,因此隱元也有個別名,叫特徵檢測器。也就是說,通過RBM訓練之後,可以得到輸入數據的特徵。(感性對比:聯想一下主成分分析,提取特徵)
另外,RBM還通過學習將數據表示成概率模型,一旦模型通過無監督學習被訓練或收斂到一個穩定的狀態,它還可以被用於生成新數據。(感性對比:聯想一下曲線擬合,得出函數,可用於生成數據)

解決二: LSTM思想. ResNet. 跳躍.

視野放大.

  • 要用

LSTM全稱是長短期記憶網絡(long-short term memory networks),是不那麼容易發生梯度消失的,主要原因在於LSTM內部複雜的“門”(gates),LSTM通過它內部的“門”可以接下來更新的時候“記住”前幾次訓練的”殘留記憶“,因此,經常用於生成文本中。目前也有基於CNN的LSTM,感興趣的可以嘗試一下。

Gradient Reversal

link
實際上, loss取反含義一樣, 但是-loss就成負無窮了.
而-λ還可以調控.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章