機器學習---數學基礎加強(2)概率與統計

常見的概率分佈

分佈 公式 期望 方差
二項分佈 f(X=k)=n!k!(nk!)pk(1p)nkf(X = k) = \frac{{n!}}{{k!(n - k!)}}{p^k}{(1 - p)^{n - k}} np np(1-p)
高斯分佈 f(X)=12πexp((xμ)22σ2)f(X) = \frac{1}{{\sqrt {2\pi } }}\exp \left( { - \frac{{{{\left( {x - \mu } \right)}^2}}}{{2{\sigma ^2}}}} \right) μ σ2{\sigma ^2}
泊松分佈 P(X=k)=k=0λkk!eλP\left( {X = k} \right) = \sum\limits_{k = 0}^\infty {\frac{{{\lambda ^k}}}{{k!}}{e^{ - \lambda }}} λ\lambda λ\lambda
均勻分佈 P(X)=1a+bP\left( X \right) = \frac{1}{{a + b}} a+b2\frac{{a + b}}{2} (ba)212\frac{{{{\left( {b - a} \right)}^2}}}{{12}}
指數分佈 f(x)={λeλ0,x0,x0f\left(x\right)=\left\{\begin{array}{l}\lambda e^{-\lambda}\\0\end{array}\right.\begin{array}{c},x\geq0\\,x\leq0\end{array} λ\lambda λ\lambda

Beta分佈

beta分佈可以看做是觀察一系列的二項分佈的分佈,我們可以用實際檢驗的分佈數據來進行分佈的統計,從這個分佈中我們可以計算出所有概率出現的可能性大小,所以也叫做概率的概率分佈。
其分佈的概率密度公式爲:
f(p;α,β)=pα1(1p)β101μα1(1μ)β1dμ=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1f(p;\alpha,\beta)=\frac{p^{\alpha-1}\left(1-p\right)^{\beta-1}}{\displaystyle\int_0^1\mu^{\alpha-1}\left(1-\mu\right)^{\beta-1}d\mu}=\frac{\Gamma\left(\alpha+\beta\right)}{\Gamma\left(\alpha\right)\Gamma\left(\beta\right)}x^{\alpha-1}\left(1-x\right)^{\beta-1}
從第一個等式的積分項可以看出其是對二項分佈各種概率的積分。

指數族分佈

對於一些分佈我們可以將其轉化爲指數族分佈的形式進行表示。
指數族分佈的表達式(η\eta爲一個參數)
P(x;η)=h(x)eηT(x)A(η)P(x;\eta)=h(x)e^{\eta T(x)-A(\eta)}
其中h(x)爲底層觀測值
T(x)爲充分統計量
A(η\eta)爲對數規則化

協方差

協方差表示的是兩個隨機變量是否具有相同方向變化趨勢的變量。
協方差的公式爲:
cov(X,Y)=E(XY)E(X)E(Y)\mathrm{cov}\left(X,Y\right)=E\left(XY\right)-E\left(X\right)E\left(Y\right)
協方差與獨立之間有兩個關係:
協方差爲0表示這兩個變量不相關,即兩個變量的線性獨立,但是無法推出兩個變量獨立。
而兩個變量獨立可以推出兩個變量協方差爲0

協方差矩陣

當存在多個變量時,協方差矩陣表示兩兩變量之間的協方差組成的矩陣,協方差矩陣爲對稱矩陣。

切比雪夫不等式

切比雪夫不等式表示在已知期望以及方差後,變量落在各個區間內的概率
P{xμε}σ2ε2P\text{\{}\left|x-\mu\right|\geq\varepsilon\text{\}}\leq\frac{\sigma^2}{\varepsilon^2}
X變量的方差越小,事件{xμ<ε}\left\{\left|x-\mu\right|<\varepsilon\right\}發生的概率越小。

大數定律

針對與隨機變量X1,X2,…Xn互相獨立,且具有相同期望和方差。
limn{Ynμ<ε}=1\lim_{\text{n}\rightarrow\infty}\left\{\left|Y_n-\mu\right|<\varepsilon\right\}=1

中心極限定理

X1,X2,…Xn互相獨立且具有相同的期望則其可以收斂到標準正態分佈。
Yn=i=1nXinμnσY_n=\frac{\displaystyle\sum_{i=1}^nX_i-n\mu}{\sqrt n\sigma}

最大似然估計

利用已知信息反推出最有可能導致樣本結果出現的模型參數值。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章