這些深度學習術語,你瞭解多少?(下)

這些深度學習術語,你瞭解多少?(上)

量(Momentum

Momentum是Gradient Descent算法的擴展、可加速或抑制參數更新。

1、反向播的錯誤來學習表

感知器(MLP

多層感知器是一種前饋神經網絡,具有多個完全連接的層,使用非線性激活函數來處理不可線性分離的數據。MLP是多層神經網絡的最基本形式,如果它超過2層,則是深度神經網絡。

機器翻NMT

NMT系統使用神經網絡在不同語言之間進行翻譯,例如英語和法語。NMT系統可以使用雙語語料庫進行端到端的訓練,這與需要手工製作的特徵的傳統機器翻譯系統不同。NMT系統通常使用編碼器和解碼器遞在歸神經網絡來實現,該編碼器和解碼器分別是編碼源句子和產生目標句子。

1、用神絡進行序列學的序列

2、使用RNN編碼器-器學表示

經網絡圖靈機(NTM

NMT是神經網絡架構,可以從示例中推斷出簡單的算法。例如,NTM可以通過示例輸入和輸出來學習排序算法。NTM通常學習某種形式的記憶和注意力機制來在程序執行期間處理狀態。

1、經網絡圖靈機

噪聲比估NCE

噪聲對比估計是通常用於訓練具有大輸出詞彙的分類器採樣損耗。在大量可能的類別上計算softmax非常昂貴,但使用NCE,我們可以通過訓練分類器將問題從“實際”分佈和人爲生成的噪聲分佈區分開來,將問題簡化爲二元分類問題。

1、噪聲比估:非準化統計模型的一種新的估原理

2、噪聲比估有效地學習詞嵌入

受限玻爾茲曼機(RBN

RBM是一種概率圖形模型,也可以解釋爲隨機人工神經網絡,RBN以無監督的方式學習數據的表徵。RBN由可見層和隱藏層以及這些層中的二進制神經元之間的連接組成。RBN可以使用對比發散Contrastive Divergence進行有效訓練,這是梯度下降的近似值。

1、力系中的信息理:和的基

2、受限玻爾茲曼機器

遞歸神經網絡(RNN

RNN通過隱藏狀態順序交互,它最多需要N個輸入併產生多達N個輸出。例如,輸入可以是句子,輸出是句子的情感分類(N-to-1)。輸入可以是單個圖像,輸出可以是與圖像的描述(1到N)對應的單詞序列。在每個時間步,RNN基於當前輸入和先前隱藏狀態計算新的隱藏狀態(“存儲器”)。“遞歸性”就是源於這樣的事實:在每個步驟中使用相同的參數並且網絡基於不同的輸入執行相同的計算操作。

結構遞歸神經網絡

結構遞歸神經網絡是遞歸神經網絡結合樹狀結構的推廣。它也在每次遞歸時應用相同的權重,但結構遞歸神經網絡可以使用反向傳播進行端到端的訓練。雖然可以將樹結構作爲優化問題的一部分來學習,但結構遞歸神經網絡通常應用於已經具有預定義結構的問題,如自然語言處理中的解析樹。

1、用結構遞歸解析自然景和自然處理

RELU

線性整流函數的簡稱。ReLU通常用作深度神經網絡中的激活函數,它們的定義是f(x)=max(0,x)。ReLU函數在性能上是優於tanh函數,並且它們對梯度消失問題的影響較小。ReLUs是卷積神經網絡中最常用的激活函數。ReLU存在若干變體,例如Leaky ReLUParametric ReLUPReLU或更平滑的softplus近似。

1、深入研究整流函數:超越ImageNet的表

2、用非性整流函數改善神聲學模型

3、性整流函數改受限制的玻爾茲曼機器

RESNET

Deep Residual Networks贏得了2015年ILSVRC的挑戰。它通過在層的堆棧之間引入快捷方式連接來工作,允許優化器學習“更容易”的殘差映射,而不是更復雜的原始映射。ResNet在ImageNet測試集上實現了3.57%的錯誤率。

1、深度殘留學識別

RMSProp

RMSProp是一種基於梯度的優化算法,它與Adagrad類似,但引入了額外的衰減方法來抵消Adagrad學習率的快速下降。

1、用於機器學的神

2、斯坦福CS231n化算法

3、梯度下降化算法概述

Seq2Seq

序列到序列模型將序列(例如句子)作爲輸入讀取併產生另一序列作爲輸出。它與標準RNN不同之處在於,在網絡開始產生任何輸出之前完全讀取輸入序列。通常,seq2seq模型使用兩個RNN實現,用作編碼器和解碼器。神經機器翻譯是seq2seq模型的典型示例。

1、用神絡進行序列學的序列

SGD

隨機梯度下降是一種基於梯度的優化算法,用於在訓練階段學習網絡參數,通常使用反向傳播算法計算梯度。在實踐中,人們使用SGD的小批量版本,其中參數更新是基於批次而不是單個示例來執行的,從而提高了計算效率。存在許多對vanilla SGD的擴展,包括MomentumAdagradrmspropAdadeltaAdam

1、隨機化的自適子梯度方法

2、斯坦福CS231n化算法

3、梯度下降化算法概述

SOFTMAX

SOFTMAX函數通常用於將原始分數的向量轉換成在一個神經網絡的概率類用於分類的輸出層。它通過取冪和除以標準化常數來對分數進行標準化。如果我們正在處理大量的類,例如機器翻譯中的大量詞彙表,標準化這些常量的計算成本很高。這就需要各種替代方案以使計算更有效,包括Hierarchical Softmax或使用基於採樣的損失,例如NCE

TensorFlow

TensorFlow是一個開源的C++/Python軟件庫,使用數據流圖進行數值計算。它是由Google創建,在設計方面,它與Theano最相似。

Theano

Theano是一個Python庫,允許你自定義、優化和評估數學表達式。它包含許多用於深度神經網絡的基礎塊。Theano是一個類似於Tensorflow的低級庫,高級庫包括KerasCaffe

梯度消失問題

消失梯度問題通常出現在非常深的神經網絡中,通常是遞歸神經網絡,因爲它使用了使梯度趨於很小的激活函數(在0到1的範圍內)。而這些小梯度在反向傳播期間成倍增加,所以它們傾向於在整個層中“消失”,從而阻止網絡學習遠程依賴性。解決此問題的常用方法是使用不受小梯度影響的ReLU激活函數或使用明確消除梯度消失的LSTM架構,與此問題相反的是梯度爆炸問題

1、關於訓練遞歸

VGG

VGG指的是一種卷積神經網絡模型,這個模型分別在2014年ImageNet圖像定位和分類中獲得第一名和第二名。VGG模型由16-19個權重層組成,並使用尺寸爲3×3和1×1的小卷積濾波器。

1、用於大識別的非常深的卷

word2vec

word2vec是一種算法和工具,通過嘗試預測文檔中單詞的上下文來學習詞嵌入。例如,生成的單詞向量具有一些有趣的屬性vector(‘queen') ~= vector('king')-vector('man')+vector('woman')。可以使用兩個不同的目標來學習這些嵌入:Skip-Gram目標嘗試從單詞上預測上下文,並且CBOW目標嘗試從其上下文預測單詞。

1、向量空Word表示的有效估

2、詞語分佈式表達及其組合性

3、word2vec參數學

本文由阿里云云棲社區組織翻譯。

文章原標題《deep-learning-glossary》

作者:wildml 譯者:虎說八道,審校:。

文章爲簡譯,更爲詳細的內容,請查看原文

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章