李宏毅機器學習4(P8)

文章目錄

一. 從基礎概率推導貝葉斯公式，樸素貝葉斯公式(1)

1.1基本概率公式

一. 從基礎概率推導貝葉斯公式，樸素貝葉斯公式(1)

1.1基本概率公式

我們先交待基本概率公式：
設A,B是兩個事件，且P(B)>0，則在事件B發生的條件下，事件A發生的條件概率（conditional probability）：
$P(A|B) = P(AB)/P(B), \tag{1}$
由條件概率（1）得到乘法公式：
$P(AB) = P(A|B)P(B) = P(B|A)P(A), \tag{2}$
乘法公式的推廣：對於任何正整數 $n \geq 2$ ，當 $P\left(A_{1} A_{2} \dots A_{n-1}\right)>0$ 時，有：
$\mathrm{P}\left(\mathrm{A}_{1} \mathrm{A}_{2} \ldots \mathrm{A}_{\mathrm{n}-1} \mathrm{A}_{\mathrm{n}}\right)=\mathrm{P}\left(\mathrm{A}_{1}\right) \mathrm{P}\left(\mathrm{A}_{2} | \mathrm{A}_{1}\right) \mathrm{P}\left(\mathrm{A}_{3} | \mathrm{A}_{1} \mathrm{A}_{2}\right) \ldots \mathrm{P}\left(\mathrm{A}_{\mathrm{n}} | \mathrm{A}_{1} \mathrm{A}_{2} \ldots \mathrm{A}_{\mathrm{n}-1}\right) \tag{3}$
從而可以推導出全概率公式：
如果事件組 $B_1$ ， $B_2$ ，…滿足
1. $B_1$ ， $B_2$ ，…兩兩互斥，即 $B_{i} \cap B_{j}=\emptyset$ ， $i 不等於 j$ ，i,j=1,2,…,且 $P(B_i)>0,i=1,2,...;$
2. $\mathrm{B}_{1} \cup \mathrm{B}_{2} \cup \ldots=\Omega$ ，則稱事件組 $B_1$ ， $B_2$ ，…是樣本空間 $\Omega$ 的一個劃分
設 $B_1$ ， $B_2$ ，…是樣本空間 $\Omega$ 的一個劃分，A爲任一事件，則：
$P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) P\left(A | B_{i}\right),\tag{4}$

1.2貝葉斯公式

1.與全概率公式解決的問題相反，貝葉斯公式是建立在條件概率的基礎上尋找事件發生的原因（即大事件A已經發生的條件下，分割中的小事件 $B_i$ 的概率），設 $B_1$ ， $B_2$ ，…是樣本空間Ω的一個劃分，則對任一事件A（P(A)>0),有
$P\left(B_{i} | A\right)=\frac{P(AB_i)}{P(A)}= \frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)},\tag{5}$

1.3樸素貝葉斯公式

這個是來自李航統計學習方法。
如果按照李宏毅老師的做法

二. 學習先驗概率(2)

爲了很好的說明這個問題，在這裏舉一個例子：
玩英雄聯盟佔到中國總人口的60%，不玩英雄聯盟的人數佔到40%：

爲了便於數學敘述，這裏我們用變量X來表示取值情況，根據概率的定義以及加法原則，我們可以寫出如下表達式：

P(X=玩lol)=0.6；P(X=不玩lol)=0.4，這個概率是統計得到的，即X的概率分佈已知，我們稱其爲先驗概率(prior probability)；

三. 學習後驗概率(3)

另外玩lol中80%是男性，20%是小姐姐,不玩lol中20%是男性，80%是小姐姐,這裏我用離散變量Y表示性別取值，同時寫出相應的條件概率分佈：、
P(Y=男性|X=玩lol)=0.8，P(Y=小姐姐|X=玩lol)=0.2

P(Y=男性|X=不玩lol)=0.2，P(Y=小姐姐|X=不玩lol)=0.8
那麼我想問在已知玩家爲男性的情況下，他是lol玩家的概率是多少：

依據貝葉斯公式(5)可得：

P(X=玩lol|Y=男性)=P(X=玩lol, Y=男性)/P(Y=男性)
=P(Y=男性|X=玩lol)*P(X=玩lol)/
[ P(Y=男性|X=玩lol)*P(X=玩lol)+P(Y=男性|X=不玩lol)*P(X=不玩lol)]
這個概率就是後驗概率。

四. 學習LR和linear regression之間的區別(4)

個人感覺邏輯迴歸和線性迴歸首先都是廣義的線性迴歸，
其次經典線性模型的優化目標函數是最小二乘，而邏輯迴歸則是似然函數。
邏輯迴歸是分類算法，llinear regression是迴歸算法
兩者前面的公式一樣，邏輯迴歸後續會加上激活函數，讓輸出限制在0到1之間，這樣可以更小的減少異常點的干擾，魯班性更好

五. 推導sigmoid function公式(5)

先給出sigmoid funciton的公式：
$\sigma(z)=\frac{1}{1+e^{-z}}$
這個公式我們只知道怎麼用，卻不知道它怎麼來的，也沒有底層的含義。我就搬了同學的解答來說明：
首先假設我們有兩個class：class1和class2，並且給出一個sample x，我們的目標是求x屬於C1的概率是多少。
這個我們可以貝葉斯公式(5)來輕鬆得到，也就是：
$P\left(C_{1} | x\right)=\frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P(x)}$
其中：
$P(x)=P\left(x | C_{1}\right) P\left(C_{1}\right)+P\left(x | C_{2}\right) P\left(C_{2}\right)$
把公式帶到公式分母中：
$P\left(C_{1} | x\right)=\frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P\left(x | C_{1}\right) P\left(C_{1}\right)+P\left(x | C_{2}\right) P\left(C_{2}\right)}$
然後同時除以分子就變成了：
$P\left(C_{1} | x\right)=\frac{1}{1+\frac{P\left(x | C_{2}\right) P\left(C_{2}\right)}{P\left(x | C_{1}\right) P\left(C_{1}\right)}}$
設：
$z=\ln \frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P\left(x | C_{2}\right) P\left(C_{2}\right)}$
把z帶入公式，可以得到：
$\sigma(z)=\frac{1}{1+e^{-z}}$
我基本照搬，而且那個鏈接還有更加詳細的解釋，我就不在贅述。

參考文獻

https://zhuanlan.zhihu.com/p/26464206
https://www.julyedu.com/question/big/kp_id/23/ques_id/983
https://blog.csdn.net/Crafts_Neo/article/details/90520609
https://blog.csdn.net/chixujohnny/article/details/78639554

李宏毅機器學習4(P8)

文章目錄

一. 從基礎概率推導貝葉斯公式，樸素貝葉斯公式(1)

1.1基本概率公式

1.2貝葉斯公式

1.3樸素貝葉斯公式

二. 學習先驗概率(2)

三. 學習後驗概率(3)

四. 學習LR和linear regression之間的區別(4)

五. 推導sigmoid function公式(5)

參考文獻

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

任務5 LightGBM模型的嘗試

初識opencv

李宏毅機器學習10（CART）

李宏毅機器學習9（matplotlib畫決策樹）

李宏毅機器學習3(HW1)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結