概率論基礎概念總結 Basic Concepts in Statistics


在這裏自己總結一些概率論中常用的基本概念,方便以後參考。這裏強調對概念的理解,不強調精確的定義和理論。

大數定律 (Law of Large Number, LLN)

大數定律是指,對於一個隨機變量 X , 通過 n 次實驗對其進行觀察得到 n 個採樣值 X1,X2,X3,...Xn ,當 n 逐漸增大並趨向無窮時,這 n 個採樣值的平均值 X¯ 趨向於隨機變量的期望值 μ 。寫成公式就是如下的形式:

limn1ni=1nXi=μ
這裏我們補充說明一下上面定律成立的條件是 n 次實驗獨立同分布,關於LLN和CLT對於一階矩和二階矩的不同要求在這裏不予討論。

中心極限定理 (Central Limit Theorem, CLT)

中心極限定理比大數定律更近一步,除了給出期望的估計之外,還給出了這個估計的誤差,或者說給出了樣本均值的分佈。即,對於 n 個獨立同分布的隨機變量X ,滿足 E(X)=μ , Var(X)=σ2 。那麼隨着 n 的增大並趨近於無窮,n 個樣本的均值滿足均值爲 μ ,方差爲 σ2n 的正態分佈。寫成公式就是如下的形式:

n(1ni=1nXiμ)N(0,σ2)
其實這裏除了關心樣本的均值之外,我們還可以關心其他的統計量,比如樣本的和,也有類似的結論。
中心極限定理的神奇之處在於這裏其實並不要求隨機變量 X 本身滿足正態分佈。

正態分佈 (Normal Distribution)

正態分佈其實不需要多講,這裏主要想提一下所謂的 68–95–99.7 rule,或者叫 Standard Deviation Rule。放一張圖就夠了:
Standard Deviation Rule
(圖片來源:OLI: ProbStat Probability and Statistics)
因爲置信區間(Confidence Interval)和包括假設檢驗(Hypothesis Testing)的討論都和這張圖緊密相關,因此放這張圖以便參考。

指數分佈(Exponential Distribution)

指數分佈常用來描述相鄰兩個時間的時間間隔,比如比賽中出現兩個進球的時間間隔,相鄰的乘客到達出發車站的時間間隔,是一種典型的無記憶的分佈。其概率密度函數爲和累計分佈函數分別爲:

PDFExp.=λeλx
CDFExp.=1eλx
可以看出,當 x 時,指數分佈是以指數的速率下降並趨近於0的。

假設檢驗(Hypothesis Testing)

根據 OLI: ProbStat Probability and Statistics 的內容,假設檢驗一般分爲四步:
1 提出零假設(Null Hypothesis)和備擇假設(Alternative Hypothesis)。
2 採集樣本並收集數據(樣本要隨機,數目要夠大)。
3 按照 z 檢驗或者 t 檢驗計算 p 值。
4 根據 p 值和顯著性水平的閾值得到結論。

值得注意的內容包括:
零假設通常是什麼都不發生或者什麼都不變,即 H0:p=p0 。而備擇假設則認爲出現了變化。
當採用 z 檢驗來檢驗某個比例時,樣本數目的要求一般是 np0>10n(1p0)>10 。當採用 z 檢驗或者 t 檢驗來檢驗某個均值時,樣本數目的要求一般是 n>30
檢驗比例時, z 檢驗中參數 z 的計算公式爲 z=p^p0p0(1p0)n
檢驗均值時,選擇 z 檢驗還是 t 檢驗主要在於隨機變量自身的方差是否已知,如果已知則採用 z 檢驗,如果未知則採用 t 檢驗。
檢驗均值時,z 檢驗中參數 z 的計算公式爲 z=x¯μ0σn ,其中 σ 是隨機變量自身的標準差。
檢驗均值時,t 檢驗中參數 t 的計算公式爲 t=x¯μ0sn ,其中 s 是樣本的標準差。
由參數 z 和 t 來計算 p 之的方法基本就是靠上面正態分佈的圖來完成了。

Kolmogorov–Smirnov test (K-S test)

K-S test是一種用於檢查某個樣本數據是否服從某種分佈,或者某兩個樣本是否來自同一分佈的假設檢驗的方法。其零假設和備擇假設分別是:
H0 :樣本數據符合某種分佈。
Ha :樣本數據不符合該分佈。
檢查思想是比較該分佈的累積分佈函數(Cumulative Distribution Function, CDF)和根據樣本計算出來的經驗累積分佈函數(Empirical Cumulative Distribution Function, ECDF)。然後比較二者在整個曲線中的最大差異。感覺公式比較複雜,就不在這裏放公式了,可以通過維基百科的圖來理解K-S test的原理。
K-S Test
(圖片來源:Wikipedia, Kolmogorov–Smirnov test)

上圖黑色箭頭標出的部分就是K-S test中使用的 test statistic。
MATLAB中有內置函數kstest()可以完成這一功能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章