機器學習(2):概率論與貝葉斯先驗

概率論在機器學習中佔有一定的份量,單純的概率論是比較枯燥的,這節我們先從一個有趣的例子着手,引入生活中概率的應用,然後回顧經典的常用的概率公式、概率分佈,由基本的概率分佈引入機器學習常用的指數族分佈。其次由事件的相關、不相關、獨立,引入協方差矩陣。接着簡單介紹切比雪夫不等式、大數定律和中心極限定理等。最後引入最大似然。
**

1、本福特定律

**
給定某個正整數N,統計從1到N!的所有數中,首位數字出現1的概率?進而可以計算首位是2的概率,是3的概率,從而得到一條”九點分佈“。
直觀第一反應,9個數字可能是等概率分佈的,即都是1/9,實際情況,我們設定不同的N,用簡單粗暴的方式畫出來,如下:
這裏寫圖片描述
從圖中可以看出,首位出現1的概率和我們直觀想象的差距很大。本福特定律(也稱第一數字定律),是指在實際生活得出的一組數據中,以1爲首位數字出現的概率約爲總數的三成,是直觀想象的三倍。
再來看一個阿里面試題,商品推薦模型:在某個場景推薦中,商品A和B與當前用戶的訪問匹配度分別爲0.8和0.2,系統將隨機爲A生成一個均勻分佈於0到0.8的最終得分,爲B生成一個均勻分佈於0到0.2的最終得分,計算最後B的得分大於A的得分的概率。
這裏通過繪圖更容易解釋該問題,如下示。
這裏寫圖片描述
**

2、概率公式

**
先來回顧一些基本概念。
條件概率:P(A|B)=P(AB)P(B)
全概率公式:P(A)=iP(A|Bi)P(Bi)
貝葉斯公式:P(A|B)=P(B|A)P(A)P(B)
先驗概率:沒有數據支持的情況下,事件A發生的概率P(A)
後驗概率:在數據B的支持下,事件A發生的概率P(A|B)
似然函數:給定某參數A的概率分佈,P(B|A)
**

3、分佈

**

  • 1)兩點分佈,即0-1分佈:

    事件只有1、0兩種可能,1的概率爲p,0的概率爲1-p
    期望E(X)=1*p+0*(1-p)=p
    方差D(X)=E(X^2)-[E(X)]^2=p+0-p^2=p(1-p)=pq

  • 2)二項分佈(伯努利分佈):
    多個獨立都服從兩點分佈的X,即X服從參數爲n,p的二項分佈
    E(X)=np
    D(X)=npq
  • 3)泊松分佈
    我們先來考察taylor公式:
    這裏寫圖片描述
    由於事件發生的概率總和爲1,那麼是否可以定義一種概率滿足如上各個各項的分佈呢?答案是肯定的,即泊松分佈。
    定義如下:如果x滿足分佈律爲:
    P{x=k}=λkk!eλ,k=0,1,2,3...
    則x服從泊松分佈,其期望和方差都是λ
    這裏我們可以認爲λ 是一種衡量的度,即事件的密度。當某一隨機事件,以固定的速率隨機且獨立的出現時,我們就認爲該事件服從泊松分佈。比如某一服務設施一定時間內出現的人數,機器出現的故障數等等。
    以上我們回顧的都是離散分佈,下面我們來回顧下基本的連續分佈。
  • 4)均勻分佈
    當x在某一區間(a,b)內均勻出現,其概率密度服從:
    f(x)={1ba,0,a<x<b

    時,則爲均勻分佈。可通過積分計算出其期望和方差分別爲:
    E(X)=12(a+b)
    D(X)=E(x^2) - [E(x)]^2=(ba)212
  • 5)指數分佈
    若x的概率密度函數爲:
    f(x)={1θexθ,0,x>0x<=0

    其中θ>0
    可以計算出指數分佈的期望是θ ,方差是θ2
    其中1θ 也經常寫作λ ,常被稱作速率,即單位時間內發生某事件的次數。
  • 6)正態分佈
    若x~N(μ ,σ2 ),滿足如下的概率密度:
    f(x)=12πσe(xμ)22σ2,σ>0

    則x是均值μ 、方差σ2 的正太分佈。
    **

4、指數族分佈

**
以上我們介紹了常用的3個離散分佈和3個連續分佈。下面我們簡單介紹機器學習中第一個接觸到的指數族分佈。
如果基於η 的某個事件y可以寫成如下的分佈形式:

p(y;η)=b(y)exp(ηTT(y)a(η))

這裏η 爲自然參數,則爲指數族分佈。伯努利分佈和高斯分佈也都可以寫成指數分佈的形式。
比如伯努利分佈,P(y=1;p)=p;p(y=0;p)=1p; ,可以寫成:P(y;p)=py+(1p)(1y)
可以繼續寫成:exp(ln(py+(1p)(1y)))=exp(ylnp+(1y)ln(1p))=exp(yln(p1p)+ln(1p))
至此,我們把伯努利分佈寫成了指數族的形式。
更進一步,如果令:ϕ=ln(p1p) ,則可以得出
p=(1p)eϕ
進一步得到p=11+eϕ ,該函數的分佈位於(0,1)之間,必然經過(0,1/2)點,這就是後面機器學習用到的邏輯迴歸函數。
同理,也可以把高斯分佈寫成指數族分佈的形式。
**

5、事件的獨立、相關、不相關

**
獨立:若兩個事件A和B滿足P(AB)=P(A)P(B),則A和B獨立。
不相關:若X和Y不相關,則E(XY)=E(X)E(Y),協方差爲0則爲不相關
相關:協方差不爲0,則相關
**

6、切比雪夫、大數定律

**

  • 切比雪夫不等式
    若事件X的期望μ 、方差σ2 ,則對任意正數ϵ ,都有:
    p{|xμ|ϵ}σ2ϵ2

    切比雪夫不等式說明,方差越小,則x的取值基本落在均值附近。
  • 大數定律
    設隨機變量x1x2x3 ……xn …,相互獨立,並且具有相同的期望μ 和方差σ2 ,取前n個隨機變量的平均Yn=1nni=1Xi ,則對任意正數ϵ ,都有:
    limnp{|Ynμ|<ϵ}=1

    大數定律的意義:當n無限大時,其平均值無限接近於期望。
  • 伯努利定理
    對隨機事件A,其發生的概率爲p。重複n次獨立試驗中,事件A發生nA 次,則對p、n、nA ,則對任意正數ϵ ,都有:
    limnp{|nAnp|<ϵ}=1

    上述定理說明,事件A發生的頻率無限接近於概率,該定理直接的導致概率論這門學科的誕生。
  • 中心極限定理
    隨機事件x1x2x3 ……xn …,相互獨立同分布,具有相同的期望μ 和方差σ2 ,則隨機變量
    Yn=ni=1(xinμ)πσ

    收斂到標準的態分佈。
    其意義在於,現實生活中的很多事情,可以看做是許多因素的獨立影響的綜合反映,往往近似服從正態分佈(線性迴歸中,利用該定理論證最小二乘的合理性)。
    **

7、最大似然

**
最大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。
簡單而言,假設我們要統計全國人口的年齡,首先假設這個年齡服從正態分佈,但是對應的均值與方差未知。我們沒有人力與物力去統計全國每個人的年齡,但是可以通過採樣,獲取部分人的年齡,然後通過最大似然估計來獲取上述假設中的正態分佈的均值與方差。
最大似然估計中採樣需滿足一個很重要的假設,就是所有的採樣都是獨立同分布的。下面我們具體描述一下最大似然估計。首先,假設爲獨立同分布的採樣,θ爲模型參數,f爲我們所使用的模型,遵循我們上述的獨立同分布假設。參數爲θ的模型f產生上述採樣可表示爲:

f(x1,x2,x3,...xn|θ)=f(x1|θ)f(x2|θ)...f(xn|θ)

由於模型已定,參數未知,似然定義爲:
L(θ|x1,x2,x3,...xn)=f(x1,x2,x3,...xn|θ)=i=1nf(xi|θ)

在實際應用中常用的是兩邊取對數,得到公式如下:
lnL(θ|x1,x2,x3,...xn)=i=1nlnf(xi|θ)

微積分中我們知道,一般求最大最小值,對目標求導數即可,對應導數爲0則爲最大或最小值。
比如:隨機扔N次硬幣,n次正面,N-n次反面,那麼其對應模型爲pn(1p)Nn ,最大似然函數爲:nlnp+(Nn)ln(1p) ,其導數爲:npNn1p ,令其爲0,則p=nN ,和我們生活常識所熟知的一致。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章