Binary Cross Entropy

我們從兩種角度來推導.

Bernoulli Distribution

對於任意一個樣本(x,y)(x,y), 我們希望模型能夠預測
P(yx)={p^if y=11p^if y=0 P(y|x) = \begin{cases} \hat{p} & \text{if $y=1$}\\ 1- \hat{p} & \text{if $y=0$}\\ \end{cases}
可以簡寫爲
P(yx)=p^y(1p^)1y P(y|x)=\hat{p}^y(1-\hat{p})^{1-y}
我們希望將其最大化. 通過loglog變換
logP(yx)=ylogp^+(1y)log(1p^) logP(y|x)=ylog\hat{p}+(1-y)log(1-\hat{p})
對於nni.i.di.i.d樣本而言
logP=iyilogp^i+(1yi)log(1p^i) logP=\sum_i y_ilog\hat{p}_i+(1-y_i)log(1-\hat{p}_i)

Maximum Likelihood Estimation

對於nni.i.di.i.d樣本, 其概率爲
P=iP(yixi)=ip^iyi(1p^i)1yi P=\prod_i P(y_i|x_i)=\prod_i \hat{p}_i^{y_i}(1-\hat{p}_i)^{1-y_i}
同樣的
logP=iyilogp^i+(1yi)log(1p^i) logP=\sum_i y_ilog\hat{p}_i+(1-y_i)log(1-\hat{p}_i)
取負即爲Loss.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章