深度學習《面試》你可能需要知道的

列舉常見的一些範數及其應用場景,如L0,L1,L2,L∞,Frobenius範數

範數定義
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
應用場景
在這裏插入圖片描述
L2正則化能讓學習算法‘‘感知’’ 到具有較高方差的輸入x,因此與輸出目標的協方差較小(相對增加方差)的特徵的權重將會收縮。
相比L2正則化,L1正則化會產生更稀疏(sparse)的解。此處稀疏性指的是最優值中的一些參數爲0。和L2正則化相比,L1正則化的稀疏性具有本質的不同。
如果我們使用Hessian 矩陣H 爲對角正定矩陣
的假設(與L1正則化分析時一樣), L2正則化不會使參數變得稀疏,而L1正則化有可能通過足夠大的α\alpha 實現稀疏。
由L1正則化導出的稀疏性質已經被廣泛地用於特徵選擇(feature selection)機制。特徵選擇從可用的特徵子集選擇出有意義的特徵,化簡機器學習問題。著名的LASSO (Tibshirani, 1995)(Least Absolute Shrinkage and Selection Operator)模型將L1 懲罰和線性模型結合,並使用最小二乘代價函數。L1 懲罰使部分子集的權重爲零,表明相應的特徵可以被安全地忽略。

簡單介紹一下貝葉斯概率與頻率派概率,以及在統計中對於真實參數的假設。

概率論最初的發展是爲了分析事件發生的頻率。我們可以很容易地看出概率論,對於像在撲克牌遊戲中抽出一手特定的牌這種事件的研究中,是如何使用的。這類事件往往是可以重複的。當我們說一個結果發生的概率爲p,這意味着如果我們反覆實驗(例如,抽取一手牌) 無限次,有p 的比例可能會導致這樣的結果。這種推理似乎並不立即適用於那些不可重複的命題。如果一個醫生診斷了病人,並說該病人患流感的機率爲40%,這意味着非常不同的事情——我們既不能讓病人有無窮多的副本,也沒有任何理由去相信病人的不同副本在具有不同的潛在條件下表現出相同的症狀。在醫生診斷病人的例子中,我們用概率來表示一種信任度(degree of belief),其中1 表示非常肯定病人患有流感,而0 表示非常肯定病人沒有流感。前面那種概率,直接與事件發生的頻率相聯繫,被稱爲頻率派概率(frequentist probability);而後者,涉及到確定性水平,被稱爲貝葉斯概率(Bayesian probability)

概率密度的萬能近似器

高斯混合模型是概率密度的萬能近似器(universal
approximator),在這種意義下,任何平滑的概率密度都可以用具有足夠多組件的高斯混合模型以任意精度來逼近。

簡單介紹一下sigmoid,relu,softplus,tanh,RBF及其應用場景

sigmoid

logistic sigmoid 函數通常用來產生Bernoulli 分佈中的參數ϕ,因爲它的範圍是(0; 1),處在ϕ 的有效取值範圍內。圖3.3 給出了sigmoid 函數的圖示。sigmoid 函數在變量取絕對值非常大的正值或負值時會出現飽和(saturate)現象,意味着函數會變得很平,並且對輸入的微小改變會變得不敏感。
softmax

softplus

softplus 函數可以用來產生正態分佈的β\beta和參數σ\sigma,因爲它的範圍是(0;1)。當處理包含sigmoid 函數的表達式時它也經常出現。softplus 函數名來源於它是另外一函數的平滑(或‘‘軟化’’)形式,這個函數是x+=max(0,x)x^+=max(0,x)
softplus

ReLU

整流線性單元易於優化,因爲它們和線性單元非常類似。線性單元和整流線性單元的唯一區別在於整流線性單元在其一半的定義域上輸出爲零。這使得只要整流線性單元處於激活狀態,它的導數都能保持較大。它的梯度不僅大而且一致。整流操作的二階導數幾乎處處爲0,並且在整流線性單元處於激活狀態時,它的一階導數處處爲1。這意味着相比於引入二階效應的激活函數來說,它的梯度方向對於學習來說更加有用。
整流線性單元的一個缺陷是它們不能通過基於梯度的方法學習那些使它們激活爲零的樣本。整流線性單元的各種擴展保證了它們能在各個位置都接收到梯度。

tanh

雙曲正切激活函數通常要比logistic sigmoid 函數表現更好。在tanh(0) = 0 而σ\sigma(0) = 1/2 的意義上,它更像是單位函數。因爲tanh 在0 附近與單位函數類似,這使得訓練tanh網絡更極容易。

RBF

在這裏插入圖片描述

Jacobian,Hessian矩陣及其在深度學習中的重要性

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

KL散度在信息論中度量的是那個直觀量

在離散型變量的情況下,KL 散度衡量的是,當我們使用一種被設計成能夠使得概率分佈Q 產生的消息的長度最小的編碼,發送包含由概率分佈P 產生的符號的消息時,所需要的額外信息量(如果我們使用底數爲2 的對數時,信息量用比特衡量,但在機器學習中,我們通常用奈特和自然對數。)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章