機器學習（2）：概率論與貝葉斯先驗

概率論在機器學習中佔有一定的份量，單純的概率論是比較枯燥的，這節我們先從一個有趣的例子着手，引入生活中概率的應用，然後回顧經典的常用的概率公式、概率分佈，由基本的概率分佈引入機器學習常用的指數族分佈。其次由事件的相關、不相關、獨立，引入協方差矩陣。接着簡單介紹切比雪夫不等式、大數定律和中心極限定理等。最後引入最大似然。
**

1、本福特定律

**
給定某個正整數N，統計從1到N!的所有數中，首位數字出現1的概率？進而可以計算首位是2的概率，是3的概率，從而得到一條”九點分佈“。
直觀第一反應，9個數字可能是等概率分佈的，即都是1/9，實際情況，我們設定不同的N，用簡單粗暴的方式畫出來，如下：

從圖中可以看出，首位出現1的概率和我們直觀想象的差距很大。本福特定律（也稱第一數字定律），是指在實際生活得出的一組數據中，以1爲首位數字出現的概率約爲總數的三成，是直觀想象的三倍。
再來看一個阿里面試題，商品推薦模型：在某個場景推薦中，商品A和B與當前用戶的訪問匹配度分別爲0.8和0.2，系統將隨機爲A生成一個均勻分佈於0到0.8的最終得分，爲B生成一個均勻分佈於0到0.2的最終得分，計算最後B的得分大於A的得分的概率。
這裏通過繪圖更容易解釋該問題，如下示。

**

2、概率公式

3、分佈

1）兩點分佈，即0-1分佈：

事件只有1、0兩種可能，1的概率爲p，0的概率爲1-p
期望E(X)=1*p+0*(1-p)=p
方差D(X)=E(X^2)-[E(X)]^2=p+0-p^2=p(1-p)=pq
2)二項分佈（伯努利分佈）：
多個獨立都服從兩點分佈的X，即X服從參數爲n，p的二項分佈
E(X)=np
D(X)=npq
3）泊松分佈
我們先來考察taylor公式：

由於事件發生的概率總和爲1，那麼是否可以定義一種概率滿足如上各個各項的分佈呢？答案是肯定的，即泊松分佈。
定義如下：如果x滿足分佈律爲：
P{x=k}=λkk!e−λ,k=0,1,2,3...
則x服從泊松分佈，其期望和方差都是λ 。
這裏我們可以認爲λ 是一種衡量的度，即事件的密度。當某一隨機事件，以固定的速率隨機且獨立的出現時，我們就認爲該事件服從泊松分佈。比如某一服務設施一定時間內出現的人數，機器出現的故障數等等。
以上我們回顧的都是離散分佈，下面我們來回顧下基本的連續分佈。
4）均勻分佈
當x在某一區間(a，b)內均勻出現，其概率密度服從：
$f (x) = {1 b - a, 0, a<x<b 其他$
時，則爲均勻分佈。可通過積分計算出其期望和方差分別爲：
E(X)=12(a+b)
D(X)=E(x^2) - [E(x)]^2=(b−a)212
5）指數分佈
若x的概率密度函數爲：
$f (x) = {1 θ e - x θ, 0, x>0 x<=0$
其中θ>0 。
可以計算出指數分佈的期望是θ ，方差是θ2 。
其中1θ 也經常寫作λ ，常被稱作速率，即單位時間內發生某事件的次數。
6）正態分佈
若x~N(μ ,σ2 )，滿足如下的概率密度：
$f (x) = 1 2 π - - \sqrt σ e - ( x - μ ) 2 2 σ 2, σ > 0$
則x是均值μ 、方差σ2 的正太分佈。
**

4、指數族分佈

**
以上我們介紹了常用的3個離散分佈和3個連續分佈。下面我們簡單介紹機器學習中第一個接觸到的指數族分佈。
如果基於η 的某個事件y可以寫成如下的分佈形式：

p (y; η) = b (y) e x p (η T T (y) - a (η))

這裏

η 爲自然參數，則爲指數族分佈。伯努利分佈和高斯分佈也都可以寫成指數分佈的形式。
比如伯努利分佈，

P(y=1;p)=p;p(y=0;p)=1−p; ，可以寫成：

P(y;p)=py+(1−p)(1−y)
可以繼續寫成：

exp(ln(py+(1−p)(1−y)))=exp(ylnp+(1−y)ln(1−p))=exp(yln(p1−p)+ln(1−p))
至此，我們把伯努利分佈寫成了指數族的形式。
更進一步，如果令：

ϕ=ln(p1−p) ，則可以得出

p=(1−p)eϕ ，
進一步得到p=

11+e−ϕ ，該函數的分佈位於(0,1)之間，必然經過(0,1/2)點，這就是後面機器學習用到的邏輯迴歸函數。
同理，也可以把高斯分佈寫成指數族分佈的形式。
**

5、事件的獨立、相關、不相關

**
獨立：若兩個事件A和B滿足P(AB)=P(A)P(B)，則A和B獨立。
不相關：若X和Y不相關，則E(XY)=E(X)E(Y)，協方差爲0則爲不相關
相關：協方差不爲0，則相關
**

6、切比雪夫、大數定律

切比雪夫不等式
若事件X的期望μ 、方差σ2 ，則對任意正數ϵ ，都有：
$p {| x - μ | \geq ϵ} \leq σ 2 ϵ 2$
切比雪夫不等式說明，方差越小，則x的取值基本落在均值附近。
大數定律
設隨機變量x1 、x2 、x3 ……xn …，相互獨立，並且具有相同的期望μ 和方差σ2 ，取前n個隨機變量的平均Yn=1n∑ni=1Xi ，則對任意正數ϵ ，都有：
$lim n \to \infty p {| Y n - μ | < ϵ} = 1$
大數定律的意義：當n無限大時，其平均值無限接近於期望。
伯努利定理
對隨機事件A，其發生的概率爲p。重複n次獨立試驗中，事件A發生nA 次，則對p、n、nA ，則對任意正數ϵ ，都有：
$lim n \to \infty p {| n A n - p | < ϵ} = 1$
上述定理說明，事件A發生的頻率無限接近於概率，該定理直接的導致概率論這門學科的誕生。
中心極限定理
隨機事件x1 、x2 、x3 ……xn …，相互獨立同分布，具有相同的期望μ 和方差σ2 ，則隨機變量
$Y n = \sum n i = 1 ( x i - n μ ) π \sqrt σ$
收斂到標準的態分佈。
其意義在於，現實生活中的很多事情，可以看做是許多因素的獨立影響的綜合反映，往往近似服從正態分佈（線性迴歸中，利用該定理論證最小二乘的合理性）。
**

7、最大似然

**
最大似然估計提供了一種給定觀察數據來評估模型參數的方法，即：“模型已定，參數未知”。
簡單而言，假設我們要統計全國人口的年齡，首先假設這個年齡服從正態分佈，但是對應的均值與方差未知。我們沒有人力與物力去統計全國每個人的年齡，但是可以通過採樣，獲取部分人的年齡，然後通過最大似然估計來獲取上述假設中的正態分佈的均值與方差。
最大似然估計中採樣需滿足一個很重要的假設，就是所有的採樣都是獨立同分布的。下面我們具體描述一下最大似然估計。首先，假設爲獨立同分布的採樣，θ爲模型參數，f爲我們所使用的模型，遵循我們上述的獨立同分布假設。參數爲θ的模型f產生上述採樣可表示爲：

f (x 1, x 2, x 3, . . . x n | θ) = f (x 1 | θ) * f (x 2 | θ) * . . . * f (x n | θ)

由於模型已定，參數未知，似然定義爲：

L (θ | x 1, x 2, x 3, . . . x n) = f (x 1, x 2, x 3, . . . x n | θ) = \prod i = 1 n f (x i | θ)

在實際應用中常用的是兩邊取對數，得到公式如下：

l n L (θ | x 1, x 2, x 3, . . . x n) = \sum i = 1 n l n f (x i | θ)

微積分中我們知道，一般求最大最小值，對目標求導數即可，對應導數爲0則爲最大或最小值。
比如：隨機扔N次硬幣，n次正面，N-n次反面，那麼其對應模型爲

pn(1−p)N−n ，最大似然函數爲：

nlnp+(N−n)ln(1−p) ，其導數爲：

np−N−n1−p ，令其爲0，則

p=nN ，和我們生活常識所熟知的一致。

機器學習（2）：概率論與貝葉斯先驗

1、本福特定律

2、概率公式

3、分佈

4、指數族分佈

5、事件的獨立、相關、不相關

6、切比雪夫、大數定律

7、最大似然

機器學習（6）：線性迴歸

機器學習（2）：概率論與貝葉斯先驗

tomcat設置不輸出catalina.out

機器學習（1）：機器學習與數學分析

機器學習（5）、數據清洗和特徵選擇

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結