最大似然與經驗風險最小化

當模型是條件概率分佈，損失函數是對數損失函數時，經驗風險最小化就等價於極大似然估計

首先給出對數形式的ERM的公式：

min 1 n \sum i = 1 n L (y i, p (y i ∣ x i))

其中L(yi,f(xi)) 是損失函數，輸出預測值爲f(xi) ，n是觀察到的樣本數。

最大似然的前提是從模型總體隨機抽取樣本觀測值，所有的採樣都是獨立同分布的。

假設x1,x2,...,xn 爲獨立同分布的採樣，θ 爲模型參數，f爲我們使用的模型，我們使用條件概率分佈，遵循獨立同分布。假設我們需要根據觀察數據x 估計沒有觀察到的總體參數θ ：

f (x 1, x 2, . . ., x n ∣ θ) = f (x 1 ∣ θ) \times f (x 2 ∣ θ) \times . . . \times f (x n ∣ θ)

此時似然定義爲：

L (θ ∣ x 1, x 2, . . ., x n) = P (x 1, x 2, . . ., x n ∣ θ) = \prod i = 1 n f (x i ∣ θ)

在實際應用中常用的是取兩邊取對數，並取似然值得平均值：

1 n log L (θ ∣ x 1, x 2, . . ., x n) = 1 n \sum i = 1 n log f (x i ∣ θ)

去取極大似然估計MLE：

arg max θ 1 n \sum i = 1 n log f (x i ∣ θ) = min 1 n \sum i = 1 n - log f (x i ∣ θ)

−logf(xi∣θ) 可以看做是對數似然損失函數。可以明顯看出此時的經驗風險最小化就等價於極大似然估計。上式是要求參數θ ，在這個參數條件下，使得已知數據x 出現的概率最大。

後驗概率與結構風險最小化

當模型是條件概率分佈、損失函數是對數損失函數、模型複雜度由模型的先驗概率表示時，結構風險最小化就等價於最大後驗概率估計。

最大後驗估計是根據經驗數據獲得對難以觀察的量的點估計。與最大似然估計類似，但是最大的不同時，最大後驗估計的融入了要估計量的先驗分佈在其中。故最大後驗估計可以看做規則化的最大似然估計。

MAP推導

先來一段後驗概率最大化MAP的推導，摘自Wiki：

假設我們需要根據觀察數據x 估計沒有觀察到的總體參數 θ ，讓f 作爲x 的採樣分佈，這樣f(x∣θ) 就是在那個題參數爲θ 時x 的概率。函數θ→f(x∣θ) ，即爲似然函數，其估計θ^ML(x)=argmaxθf(x∣θ) ，就是θ 的最大似然估計。

假設θ 存在一個先驗分佈g ，這就允許我們將θ 作爲貝葉斯分佈中的隨機變量，這樣θ 的後驗分佈就是:

θ \to f ( x ∣ θ ) g ( θ ) \int Θ f ( x ∣ θ 1 ) g ( θ 1 ) d θ 1

其中Θ 是g 的域，上式分母的下部就相當於對已知數據x 概率的估計，這裏用的公式是貝葉斯公式，由先驗概率去求後驗概率P(A∣B)=(P(B∣A)∗P(A))/P(B) 。

最大後驗估計方法估計θ 爲這個隨機變量的後驗分佈的衆數：

θ^M A P (x) = arg max θ f ( x ∣ θ ) g ( θ ) \int Θ f ( x ∣ θ 1 ) g ( θ 1 ) d θ 1 = arg max θ f (x ∣ θ) g (θ)

後驗分佈的分母與θ 無關，在求解中分母不變，當成一個常數使用，所以在優化過程中不起作用。注意當前驗g 是常數函數時最大後驗概率與最大似然估計的重合。

先驗概率

這裏我先對我理解的先驗概率含義做個敘述。先驗分佈，我理解的就是在沒有輸入數據或者其他數據，根據經驗主觀或者頻數客觀的對整個模型的各個結果集佔比的推測。

舉例來說：假設有五個袋子，各袋中都有無限量的餅乾(櫻桃口味或檸檬口味)，已知五個袋子中兩種口味的比例分別是
1. 櫻桃 100%
2. 櫻桃 75% + 檸檬 25%
3. 櫻桃 50% + 檸檬 50%
4. 櫻桃 25% + 檸檬 75%
5. 檸檬 100%

如果只有如上所述條件，那問從同一個袋子中連續拿到2個檸檬餅乾，那麼這個袋子最有可能是上述五個的哪一個？

我們首先採用MLE來解這個問題。假設從袋子中能拿出檸檬餅乾的概率爲p(我們通過這個概率p來確定是從哪個袋子中拿出來的)，則似然函數可以寫作：

p (兩 個 檸 檬 餅 幹 ∣ 袋 子) = p 2

由於p的取值是一個離散值，即上面描述中的0,25%，50%，75%，1。我們只需要評估一下這五個值哪個值使得似然函數最大即可，得到爲袋子5。這裏便是最大似然估計的結果。

上述最大似然估計有一個問題，就是沒有考慮到模型本身的概率分佈，下面我們擴展這個餅乾的問題。

假設拿到袋子1或5的機率都是0.1，拿到2或4的機率都是0.2，拿到3的機率是0.4，那同樣上述問題的答案呢？這個時候就變MAP了。我們根據公式

θ^M A P (x) = arg max θ f ( x ∣ θ ) g ( θ ) \int Θ f ( x ∣ θ 1 ) g ( θ 1 ) d θ 1 = arg max θ f (x ∣ θ) g (θ)

寫出我們的MAP函數：

MAP=p2×g

根據題意的描述可知，p的取值分別爲0,25%，50%，75%，1，g的取值分別爲0.1，0.2,0.4,0.2,0.1.分別計算出MAP函數的結果爲：0,0.0125,0.125,0.28125,0.1.由上可知，通過MAP估計可得結果是從第四個袋子中取得的最高。

SRM與MAP

我們對MAP進行一些變換(先加上對數，再將對數展開)，則上式等價於：

θ^M A P (x) = arg max θ [ln f (x ∣ θ) + ln g (θ)]

進一步的，有：

θ^M A P (x) = arg max θ ln f (x ∣ θ) + arg max θ ln g (θ)

可以發現，等式右邊第一部分剛好爲最大似然估計的公式，我們將最大似然估計的公式寫出：

max 1 n \sum i = 1 n ln f (x i ∣ θ)

將最大似然估計的公式代入，然後通過增加負號將最大後驗概率分佈公式的max改爲min。這樣，最大後驗概率估計的公式可以寫成下面這樣：

θ^MAP(x)=argminθ{[1n∑i=1n−lnf(xi∣θ)]−g(θ)}

對比結構風險最小化公式：

min f \in F 1 n \sum i = 1 n L (y i, f (x i)) + λ J (f)

由於f(∣) 是模型，可以是條件概率分佈模型，那麼−lnf(xi∣θ) 便可以看做是對數似然損失函數。

g(θ) 表示模型的先驗概率，模型的複雜度與模型的先驗概率沒有必然的正比反比關係。這裏我爲了推導，暫且假定先驗概率與模型複雜度成反比，−g(θ) 可以認爲與複雜度成正比，−g(θ) 越大，複雜度越高。

此時，上式中的後半項就對應着結構風險最小化中的正則項。

MAP、SRM、ERM與MLE

最大似然與經驗風險最小化

後驗概率與結構風險最小化

MAP推導

先驗概率

SRM與MAP

關於遊戲付費的一點想法

洗白BT文件

基於ISE的設計實現基礎

ISE-testbench實例

Android Sdk獲取更新

verilog過程塊與賦值

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結