在這裏自己總結一些概率論中常用的基本概念,方便以後參考。這裏強調對概念的理解,不強調精確的定義和理論。
大數定律 (Law of Large Number, LLN)
大數定律是指,對於一個隨機變量
中心極限定理 (Central Limit Theorem, CLT)
中心極限定理比大數定律更近一步,除了給出期望的估計之外,還給出了這個估計的誤差,或者說給出了樣本均值的分佈。即,對於
中心極限定理的神奇之處在於這裏其實並不要求隨機變量
正態分佈 (Normal Distribution)
正態分佈其實不需要多講,這裏主要想提一下所謂的 68–95–99.7 rule,或者叫 Standard Deviation Rule。放一張圖就夠了:
(圖片來源:OLI: ProbStat Probability and Statistics)
因爲置信區間(Confidence Interval)和包括假設檢驗(Hypothesis Testing)的討論都和這張圖緊密相關,因此放這張圖以便參考。
指數分佈(Exponential Distribution)
指數分佈常用來描述相鄰兩個時間的時間間隔,比如比賽中出現兩個進球的時間間隔,相鄰的乘客到達出發車站的時間間隔,是一種典型的無記憶的分佈。其概率密度函數爲和累計分佈函數分別爲:
假設檢驗(Hypothesis Testing)
根據 OLI: ProbStat Probability and Statistics 的內容,假設檢驗一般分爲四步:
1 提出零假設(Null Hypothesis)和備擇假設(Alternative Hypothesis)。
2 採集樣本並收集數據(樣本要隨機,數目要夠大)。
3 按照 z 檢驗或者 t 檢驗計算 p 值。
4 根據 p 值和顯著性水平的閾值得到結論。
值得注意的內容包括:
零假設通常是什麼都不發生或者什麼都不變,即
當採用 z 檢驗來檢驗某個比例時,樣本數目的要求一般是
檢驗比例時, z 檢驗中參數 z 的計算公式爲
檢驗均值時,選擇 z 檢驗還是 t 檢驗主要在於隨機變量自身的方差是否已知,如果已知則採用 z 檢驗,如果未知則採用 t 檢驗。
檢驗均值時,z 檢驗中參數 z 的計算公式爲
檢驗均值時,t 檢驗中參數 t 的計算公式爲
由參數 z 和 t 來計算 p 之的方法基本就是靠上面正態分佈的圖來完成了。
Kolmogorov–Smirnov test (K-S test)
K-S test是一種用於檢查某個樣本數據是否服從某種分佈,或者某兩個樣本是否來自同一分佈的假設檢驗的方法。其零假設和備擇假設分別是:
檢查思想是比較該分佈的累積分佈函數(Cumulative Distribution Function, CDF)和根據樣本計算出來的經驗累積分佈函數(Empirical Cumulative Distribution Function, ECDF)。然後比較二者在整個曲線中的最大差異。感覺公式比較複雜,就不在這裏放公式了,可以通過維基百科的圖來理解K-S test的原理。
(圖片來源:Wikipedia, Kolmogorov–Smirnov test)
上圖黑色箭頭標出的部分就是K-S test中使用的 test statistic。
MATLAB中有內置函數kstest()可以完成這一功能。