最大似然與經驗風險最小化
當模型是條件概率分佈,損失函數是對數損失函數時,經驗風險最小化就等價於極大似然估計
首先給出對數形式的ERM的公式:
其中
最大似然的前提是從模型總體隨機抽取樣本觀測值,所有的採樣都是獨立同分布的。
假設
此時似然定義爲:
在實際應用中常用的是取兩邊取對數,並取似然值得平均值:
去取極大似然估計MLE:
後驗概率與結構風險最小化
當模型是條件概率分佈、損失函數是對數損失函數、模型複雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率估計。
最大後驗估計是根據經驗數據獲得對難以觀察的量的點估計。與最大似然估計類似,但是最大的不同時,最大後驗估計的融入了要估計量的先驗分佈在其中。故最大後驗估計可以看做規則化的最大似然估計。
MAP推導
先來一段後驗概率最大化MAP的推導,摘自Wiki:
假設我們需要根據觀察數據
假設
其中
最大後驗估計方法估計
後驗分佈的分母與
先驗概率
這裏我先對我理解的先驗概率含義做個敘述。先驗分佈,我理解的就是在沒有輸入數據或者其他數據,根據經驗主觀或者頻數客觀的對整個模型的各個結果集佔比的推測。
舉例來說:假設有五個袋子,各袋中都有無限量的餅乾(櫻桃口味或檸檬口味),已知五個袋子中兩種口味的比例分別是
1. 櫻桃 100%
2. 櫻桃 75% + 檸檬 25%
3. 櫻桃 50% + 檸檬 50%
4. 櫻桃 25% + 檸檬 75%
5. 檸檬 100%
如果只有如上所述條件,那問從同一個袋子中連續拿到2個檸檬餅乾,那麼這個袋子最有可能是上述五個的哪一個?
我們首先採用MLE來解這個問題。假設從袋子中能拿出檸檬餅乾的概率爲p(我們通過這個概率p來確定是從哪個袋子中拿出來的),則似然函數可以寫作:
由於p的取值是一個離散值,即上面描述中的0,25%,50%,75%,1。我們只需要評估一下這五個值哪個值使得似然函數最大即可,得到爲袋子5。這裏便是最大似然估計的結果。
上述最大似然估計有一個問題,就是沒有考慮到模型本身的概率分佈,下面我們擴展這個餅乾的問題。
假設拿到袋子1或5的機率都是0.1,拿到2或4的機率都是0.2,拿到3的機率是0.4,那同樣上述問題的答案呢?這個時候就變MAP了。我們根據公式
寫出我們的MAP函數:
根據題意的描述可知,p的取值分別爲0,25%,50%,75%,1,g的取值分別爲0.1,0.2,0.4,0.2,0.1.分別計算出MAP函數的結果爲:0,0.0125,0.125,0.28125,0.1.由上可知,通過MAP估計可得結果是從第四個袋子中取得的最高。
SRM與MAP
我們對MAP進行一些變換(先加上對數,再將對數展開),則上式等價於:
進一步的,有:
可以發現,等式右邊第一部分剛好爲最大似然估計的公式,我們將最大似然估計的公式寫出:
將最大似然估計的公式代入,然後通過增加負號將最大後驗概率分佈公式的max改爲min。這樣,最大後驗概率估計的公式可以寫成下面這樣:
對比結構風險最小化公式:
由於
此時,上式中的後半項就對應着結構風險最小化中的正則項。