李宏毅機器學習4(P8)

一. 從基礎概率推導貝葉斯公式,樸素貝葉斯公式(1)

1.1基本概率公式

我們先交待基本概率公式:
設A,B是兩個事件,且P(B)>0,則在事件B發生的條件下,事件A發生的條件概率(conditional probability):
(1)P(AB)=P(AB)/P(B),P(A|B) = P(AB)/P(B), \tag{1}
由條件概率(1)得到乘法公式:
(2)P(AB)=P(AB)P(B)=P(BA)P(A),P(AB) = P(A|B)P(B) = P(B|A)P(A), \tag{2}
乘法公式的推廣:對於任何正整數n2n \geq 2,當P(A1A2An1)>0P\left(A_{1} A_{2} \dots A_{n-1}\right)>0時,有:
(3)P(A1A2An1An)=P(A1)P(A2A1)P(A3A1A2)P(AnA1A2An1) \mathrm{P}\left(\mathrm{A}_{1} \mathrm{A}_{2} \ldots \mathrm{A}_{\mathrm{n}-1} \mathrm{A}_{\mathrm{n}}\right)=\mathrm{P}\left(\mathrm{A}_{1}\right) \mathrm{P}\left(\mathrm{A}_{2} | \mathrm{A}_{1}\right) \mathrm{P}\left(\mathrm{A}_{3} | \mathrm{A}_{1} \mathrm{A}_{2}\right) \ldots \mathrm{P}\left(\mathrm{A}_{\mathrm{n}} | \mathrm{A}_{1} \mathrm{A}_{2} \ldots \mathrm{A}_{\mathrm{n}-1}\right) \tag{3}
從而可以推導出全概率公式:
如果事件組B1B_1B2B_2,…滿足
1.B1B_1B2B_2,…兩兩互斥,即BiBj=B_{i} \cap B_{j}=\emptysetiji 不等於 j,i,j=1,2,…,且P(Bi)>0,i=1,2,...;P(B_i)>0,i=1,2,...;
2.B1B2=Ω\mathrm{B}_{1} \cup \mathrm{B}_{2} \cup \ldots=\Omega,則稱事件組B1B_1B2B_2,…是樣本空間Ω\Omega的一個劃分
B1B_1B2B_2,…是樣本空間Ω\Omega的一個劃分,A爲任一事件,則:
(4)P(A)=i=1P(Bi)P(ABi), P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) P\left(A | B_{i}\right),\tag{4}

1.2貝葉斯公式

1.與全概率公式解決的問題相反,貝葉斯公式是建立在條件概率的基礎上尋找事件發生的原因(即大事件A已經發生的條件下,分割中的小事件BiB_i的概率),設B1B_1B2B_2,…是樣本空間Ω的一個劃分,則對任一事件A(P(A)>0),有
(5)P(BiA)=P(ABi)P(A)=P(Bi)P(ABi)j=1nP(Bj)P(ABj), P\left(B_{i} | A\right)=\frac{P(AB_i)}{P(A)}= \frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)},\tag{5}

1.3樸素貝葉斯公式

其實我看了李航統計學習,這個公式還不是很能懂,我就先看看其他人怎麼回答
這個是來自李航統計學習方法。
如果按照李宏毅老師的做法

二. 學習先驗概率(2)

爲了很好的說明這個問題,在這裏舉一個例子:
玩英雄聯盟佔到中國總人口的60%,不玩英雄聯盟的人數佔到40%:

爲了便於數學敘述,這裏我們用變量X來表示取值情況,根據概率的定義以及加法原則,我們可以寫出如下表達式:

P(X=玩lol)=0.6;P(X=不玩lol)=0.4,這個概率是統計得到的,即X的概率分佈已知,我們稱其爲先驗概率(prior probability);

三. 學習後驗概率(3)

另外玩lol中80%是男性,20%是小姐姐,不玩lol中20%是男性,80%是小姐姐,這裏我用離散變量Y表示性別取值,同時寫出相應的條件概率分佈:、
P(Y=男性|X=玩lol)=0.8,P(Y=小姐姐|X=玩lol)=0.2

P(Y=男性|X=不玩lol)=0.2,P(Y=小姐姐|X=不玩lol)=0.8
那麼我想問在已知玩家爲男性的情況下,他是lol玩家的概率是多少:

依據貝葉斯公式(5)可得:

P(X=玩lol|Y=男性)=P(X=玩lol, Y=男性)/P(Y=男性)
=P(Y=男性|X=玩lol)*P(X=玩lol)/
[ P(Y=男性|X=玩lol)*P(X=玩lol)+P(Y=男性|X=不玩lol)*P(X=不玩lol)]
這個概率就是後驗概率。

四. 學習LR和linear regression之間的區別(4)

個人感覺邏輯迴歸和線性迴歸首先都是廣義的線性迴歸,
其次經典線性模型的優化目標函數是最小二乘,而邏輯迴歸則是似然函數。
邏輯迴歸是分類算法,llinear regression是迴歸算法
兩者前面的公式一樣,邏輯迴歸後續會加上激活函數,讓輸出限制在0到1之間,這樣可以更小的減少異常點的干擾,魯班性更好

五. 推導sigmoid function公式(5)

先給出sigmoid funciton的公式:
σ(z)=11+ez\sigma(z)=\frac{1}{1+e^{-z}}
這個公式我們只知道怎麼用,卻不知道它怎麼來的,也沒有底層的含義。我就搬了同學的解答來說明:
首先假設我們有兩個class:class1和class2,並且給出一個sample x,我們的目標是求x屬於C1的概率是多少。
這個我們可以貝葉斯公式(5)來輕鬆得到,也就是:
P(C1x)=P(xC1)P(C1)P(x) P\left(C_{1} | x\right)=\frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P(x)}
其中:
P(x)=P(xC1)P(C1)+P(xC2)P(C2) P(x)=P\left(x | C_{1}\right) P\left(C_{1}\right)+P\left(x | C_{2}\right) P\left(C_{2}\right)
把公式帶到公式分母中:
P(C1x)=P(xC1)P(C1)P(xC1)P(C1)+P(xC2)P(C2) P\left(C_{1} | x\right)=\frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P\left(x | C_{1}\right) P\left(C_{1}\right)+P\left(x | C_{2}\right) P\left(C_{2}\right)}
然後同時除以分子就變成了:
P(C1x)=11+P(xC2)P(C2)P(xC1)P(C1) P\left(C_{1} | x\right)=\frac{1}{1+\frac{P\left(x | C_{2}\right) P\left(C_{2}\right)}{P\left(x | C_{1}\right) P\left(C_{1}\right)}}
設:
z=lnP(xC1)P(C1)P(xC2)P(C2) z=\ln \frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P\left(x | C_{2}\right) P\left(C_{2}\right)}
把z帶入公式,可以得到:
σ(z)=11+ez \sigma(z)=\frac{1}{1+e^{-z}}
我基本照搬,而且那個鏈接還有更加詳細的解釋,我就不在贅述。

參考文獻

https://zhuanlan.zhihu.com/p/26464206
https://www.julyedu.com/question/big/kp_id/23/ques_id/983
https://blog.csdn.net/Crafts_Neo/article/details/90520609
https://blog.csdn.net/chixujohnny/article/details/78639554

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章