MAP、SRM、ERM與MLE

最大似然與經驗風險最小化

當模型是條件概率分佈,損失函數是對數損失函數時,經驗風險最小化就等價於極大似然估計

首先給出對數形式的ERM的公式:

min1ni=1nL(yi,p(yixi))

其中L(yi,f(xi)) 是損失函數,輸出預測值爲f(xi) ,n是觀察到的樣本數。


最大似然的前提是從模型總體隨機抽取樣本觀測值,所有的採樣都是獨立同分布的。

假設x1,x2,...,xn 爲獨立同分布的採樣,θ 爲模型參數,f爲我們使用的模型,我們使用條件概率分佈,遵循獨立同分布。假設我們需要根據觀察數據x 估計沒有觀察到的總體參數θ

f(x1,x2,...,xnθ)=f(x1θ)×f(x2θ)×...×f(xnθ)

此時似然定義爲:

L(θx1,x2,...,xn)=P(x1,x2,...,xnθ)=i=1nf(xiθ)

在實際應用中常用的是取兩邊取對數,並取似然值得平均值:

1nlogL(θx1,x2,...,xn)=1ni=1nlogf(xiθ)

去取極大似然估計MLE:

argmaxθ1ni=1nlogf(xiθ)=min1ni=1nlogf(xiθ)

logf(xiθ) 可以看做是對數似然損失函數。可以明顯看出此時的經驗風險最小化就等價於極大似然估計。上式是要求參數θ ,在這個參數條件下,使得已知數據x 出現的概率最大。

後驗概率與結構風險最小化

當模型是條件概率分佈、損失函數是對數損失函數、模型複雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率估計。

最大後驗估計是根據經驗數據獲得對難以觀察的量的點估計。與最大似然估計類似,但是最大的不同時,最大後驗估計的融入了要估計量的先驗分佈在其中。故最大後驗估計可以看做規則化的最大似然估計。

MAP推導

先來一段後驗概率最大化MAP的推導,摘自Wiki

假設我們需要根據觀察數據x 估計沒有觀察到的總體參數 θ ,讓f 作爲x 的採樣分佈,這樣f(xθ) 就是在那個題參數爲θx 的概率。函數θf(xθ) ,即爲似然函數,其估計θ^ML(x)=argmaxθf(xθ) ,就是θ 的最大似然估計。

假設θ 存在一個先驗分佈g ,這就允許我們將θ 作爲貝葉斯分佈中的隨機變量,這樣θ 的後驗分佈就是:

θf(xθ)g(θ)Θf(xθ1)g(θ1)dθ1

其中Θg 的域,上式分母的下部就相當於對已知數據x 概率的估計,這裏用的公式是貝葉斯公式,由先驗概率去求後驗概率P(AB)=(P(BA)P(A))/P(B)

最大後驗估計方法估計θ 爲這個隨機變量的後驗分佈的衆數:

θ^MAP(x)=argmaxθf(xθ)g(θ)Θf(xθ1)g(θ1)dθ1=argmaxθf(xθ)g(θ)

後驗分佈的分母與θ 無關,在求解中分母不變,當成一個常數使用,所以在優化過程中不起作用。注意當前驗g 是常數函數時最大後驗概率與最大似然估計的重合。

先驗概率

這裏我先對我理解的先驗概率含義做個敘述。先驗分佈,我理解的就是在沒有輸入數據或者其他數據,根據經驗主觀或者頻數客觀的對整個模型的各個結果集佔比的推測。

舉例來說:假設有五個袋子,各袋中都有無限量的餅乾(櫻桃口味或檸檬口味),已知五個袋子中兩種口味的比例分別是
1. 櫻桃 100%
2. 櫻桃 75% + 檸檬 25%
3. 櫻桃 50% + 檸檬 50%
4. 櫻桃 25% + 檸檬 75%
5. 檸檬 100%

如果只有如上所述條件,那問從同一個袋子中連續拿到2個檸檬餅乾,那麼這個袋子最有可能是上述五個的哪一個?

我們首先採用MLE來解這個問題。假設從袋子中能拿出檸檬餅乾的概率爲p(我們通過這個概率p來確定是從哪個袋子中拿出來的),則似然函數可以寫作:

p()=p2

由於p的取值是一個離散值,即上面描述中的0,25%,50%,75%,1。我們只需要評估一下這五個值哪個值使得似然函數最大即可,得到爲袋子5。這裏便是最大似然估計的結果。

上述最大似然估計有一個問題,就是沒有考慮到模型本身的概率分佈,下面我們擴展這個餅乾的問題。

假設拿到袋子1或5的機率都是0.1,拿到2或4的機率都是0.2,拿到3的機率是0.4,那同樣上述問題的答案呢?這個時候就變MAP了。我們根據公式

θ^MAP(x)=argmaxθf(xθ)g(θ)Θf(xθ1)g(θ1)dθ1=argmaxθf(xθ)g(θ)

寫出我們的MAP函數:MAP=p2×g

根據題意的描述可知,p的取值分別爲0,25%,50%,75%,1,g的取值分別爲0.1,0.2,0.4,0.2,0.1.分別計算出MAP函數的結果爲:0,0.0125,0.125,0.28125,0.1.由上可知,通過MAP估計可得結果是從第四個袋子中取得的最高。

SRM與MAP

我們對MAP進行一些變換(先加上對數,再將對數展開),則上式等價於:

θ^MAP(x)=argmaxθ[lnf(xθ)+lng(θ)]

進一步的,有:

θ^MAP(x)=argmaxθlnf(xθ)+argmaxθlng(θ)

可以發現,等式右邊第一部分剛好爲最大似然估計的公式,我們將最大似然估計的公式寫出:

max1ni=1nlnf(xiθ)

將最大似然估計的公式代入,然後通過增加負號將最大後驗概率分佈公式的max改爲min。這樣,最大後驗概率估計的公式可以寫成下面這樣:

θ^MAP(x)=argminθ{[1ni=1nlnf(xiθ)]g(θ)}

對比結構風險最小化公式:

minfF1ni=1nL(yi,f(xi))+λJ(f)

由於f() 是模型,可以是條件概率分佈模型,那麼lnf(xiθ) 便可以看做是對數似然損失函數。

g(θ) 表示模型的先驗概率,模型的複雜度與模型的先驗概率沒有必然的正比反比關係。這裏我爲了推導,暫且假定先驗概率與模型複雜度成反比,g(θ) 可以認爲與複雜度成正比,g(θ) 越大,複雜度越高。

此時,上式中的後半項就對應着結構風險最小化中的正則項。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章