我們從兩種角度來推導.
Bernoulli Distribution
對於任意一個樣本, 我們希望模型能夠預測
可以簡寫爲
我們希望將其最大化. 通過變換
對於個樣本而言
Maximum Likelihood Estimation
對於個樣本, 其概率爲
同樣的
取負即爲Loss.
我們從兩種角度來推導.
對於任意一個樣本(x,y), 我們希望模型能夠預測
P(y∣x)={p^1−p^if y=1if y=0
可以簡寫爲
P(y∣x)=p^y(1−p^)1−y
我們希望將其最大化. 通過log變換
logP(y∣x)=ylogp^+(1−y)log(1−p^)
對於n個i.i.d樣本而言
logP=i∑yilogp^i+(1−yi)log(1−p^i)
對於n個i.i.d樣本, 其概率爲
P=i∏P(yi∣xi)=i∏p^iyi(1−p^i)1−yi
同樣的
logP=i∑yilogp^i+(1−yi)log(1−p^i)
取負即爲Loss.