概率論在機器學習中佔有一定的份量,單純的概率論是比較枯燥的,這節我們先從一個有趣的例子着手,引入生活中概率的應用,然後回顧經典的常用的概率公式、概率分佈,由基本的概率分佈引入機器學習常用的指數族分佈。其次由事件的相關、不相關、獨立,引入協方差矩陣。接着簡單介紹切比雪夫不等式、大數定律和中心極限定理等。最後引入最大似然。
**
1、本福特定律
**
給定某個正整數N,統計從1到N!的所有數中,首位數字出現1的概率?進而可以計算首位是2的概率,是3的概率,從而得到一條”九點分佈“。
直觀第一反應,9個數字可能是等概率分佈的,即都是1/9,實際情況,我們設定不同的N,用簡單粗暴的方式畫出來,如下:
從圖中可以看出,首位出現1的概率和我們直觀想象的差距很大。本福特定律(也稱第一數字定律),是指在實際生活得出的一組數據中,以1爲首位數字出現的概率約爲總數的三成,是直觀想象的三倍。
再來看一個阿里面試題,商品推薦模型:在某個場景推薦中,商品A和B與當前用戶的訪問匹配度分別爲0.8和0.2,系統將隨機爲A生成一個均勻分佈於0到0.8的最終得分,爲B生成一個均勻分佈於0到0.2的最終得分,計算最後B的得分大於A的得分的概率。
這裏通過繪圖更容易解釋該問題,如下示。
**
2、概率公式
**
先來回顧一些基本概念。
條件概率:
全概率公式:
貝葉斯公式:
先驗概率:沒有數據支持的情況下,事件A發生的概率P(A)
後驗概率:在數據B的支持下,事件A發生的概率P(A|B)
似然函數:給定某參數A的概率分佈,P(B|A)
**
3、分佈
**
1)兩點分佈,即0-1分佈:
事件只有1、0兩種可能,1的概率爲p,0的概率爲1-p
期望E(X)=1*p+0*(1-p)=p
方差D(X)=E(X^2)-[E(X)]^2=p+0-p^2=p(1-p)=pq- 2)二項分佈(伯努利分佈):
多個獨立都服從兩點分佈的X,即X服從參數爲n,p的二項分佈
E(X)=np
D(X)=npq - 3)泊松分佈
我們先來考察taylor公式:
由於事件發生的概率總和爲1,那麼是否可以定義一種概率滿足如上各個各項的分佈呢?答案是肯定的,即泊松分佈。
定義如下:如果x滿足分佈律爲:
P{x=k}=λkk!e−λ,k=0,1,2,3...
則x服從泊松分佈,其期望和方差都是λ 。
這裏我們可以認爲λ 是一種衡量的度,即事件的密度。當某一隨機事件,以固定的速率隨機且獨立的出現時,我們就認爲該事件服從泊松分佈。比如某一服務設施一定時間內出現的人數,機器出現的故障數等等。
以上我們回顧的都是離散分佈,下面我們來回顧下基本的連續分佈。 - 4)均勻分佈
當x在某一區間(a,b)內均勻出現,其概率密度服從:
f(x)={1b−a,0,a<x<b其他
時,則爲均勻分佈。可通過積分計算出其期望和方差分別爲:
E(X)=12(a+b)
D(X)=E(x^2) - [E(x)]^2=(b−a)212 - 5)指數分佈
若x的概率密度函數爲:
f(x)={1θe−xθ,0,x>0x<=0
其中θ>0 。
可以計算出指數分佈的期望是θ ,方差是θ2 。
其中1θ 也經常寫作λ ,常被稱作速率,即單位時間內發生某事件的次數。 - 6)正態分佈
若x~N(μ ,σ2 ),滿足如下的概率密度:
f(x)=12π−−√σe−(x−μ)22σ2,σ>0
則x是均值μ 、方差σ2 的正太分佈。
**
4、指數族分佈
**
以上我們介紹了常用的3個離散分佈和3個連續分佈。下面我們簡單介紹機器學習中第一個接觸到的指數族分佈。
如果基於
這裏
比如伯努利分佈,
可以繼續寫成:
至此,我們把伯努利分佈寫成了指數族的形式。
更進一步,如果令:
進一步得到p=
同理,也可以把高斯分佈寫成指數族分佈的形式。
**
5、事件的獨立、相關、不相關
**
獨立:若兩個事件A和B滿足P(AB)=P(A)P(B),則A和B獨立。
不相關:若X和Y不相關,則E(XY)=E(X)E(Y),協方差爲0則爲不相關
相關:協方差不爲0,則相關
**
6、切比雪夫、大數定律
**
- 切比雪夫不等式
若事件X的期望μ 、方差σ2 ,則對任意正數ϵ ,都有:
p{|x−μ|≥ϵ}≤σ2ϵ2
切比雪夫不等式說明,方差越小,則x的取值基本落在均值附近。 - 大數定律
設隨機變量x1 、x2 、x3 ……xn …,相互獨立,並且具有相同的期望μ 和方差σ2 ,取前n個隨機變量的平均Yn=1n∑ni=1Xi ,則對任意正數ϵ ,都有:
limn→∞p{|Yn−μ|<ϵ}=1
大數定律的意義:當n無限大時,其平均值無限接近於期望。 - 伯努利定理
對隨機事件A,其發生的概率爲p。重複n次獨立試驗中,事件A發生nA 次,則對p、n、nA ,則對任意正數ϵ ,都有:
limn→∞p{|nAn−p|<ϵ}=1
上述定理說明,事件A發生的頻率無限接近於概率,該定理直接的導致概率論這門學科的誕生。 - 中心極限定理
隨機事件x1 、x2 、x3 ……xn …,相互獨立同分布,具有相同的期望μ 和方差σ2 ,則隨機變量
Yn=∑ni=1(xi−nμ)π√σ
收斂到標準的態分佈。
其意義在於,現實生活中的很多事情,可以看做是許多因素的獨立影響的綜合反映,往往近似服從正態分佈(線性迴歸中,利用該定理論證最小二乘的合理性)。
**
7、最大似然
**
最大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。
簡單而言,假設我們要統計全國人口的年齡,首先假設這個年齡服從正態分佈,但是對應的均值與方差未知。我們沒有人力與物力去統計全國每個人的年齡,但是可以通過採樣,獲取部分人的年齡,然後通過最大似然估計來獲取上述假設中的正態分佈的均值與方差。
最大似然估計中採樣需滿足一個很重要的假設,就是所有的採樣都是獨立同分布的。下面我們具體描述一下最大似然估計。首先,假設爲獨立同分布的採樣,θ爲模型參數,f爲我們所使用的模型,遵循我們上述的獨立同分布假設。參數爲θ的模型f產生上述採樣可表示爲:
由於模型已定,參數未知,似然定義爲:
在實際應用中常用的是兩邊取對數,得到公式如下:
微積分中我們知道,一般求最大最小值,對目標求導數即可,對應導數爲0則爲最大或最小值。
比如:隨機扔N次硬幣,n次正面,N-n次反面,那麼其對應模型爲