爲什麼樣本方差（sample variance）的分母是 n-1？

原創

2020-02-25 20:10

爲什麼樣本方差（sample variance）的分母是 n-1？

本文轉自：https://www.matongxue.com/madocs/607.html

先把問題完整的描述下。

如果已知隨機變量的期望爲 $\mu$ ，那麼可以如下計算方差 $\sigma ^{2}$ ：

$\sigma ^{2}=E[(X-\mu )^{2}]$

上面的式子需要知道的具體分佈是什麼（在現實應用中往往不知道準確分佈），計算起來也比較複雜。

所以實踐中常常採樣之後，用下面這個 $S^{2}$ 來近似 $\sigma ^{2}$ ：

$S^{2}=\frac{1}{n} \sum_{i=1}^{n}(X_{i}-\mu )^{2}$

其實現實中，往往連的期望 $\mu$ 也不清楚，只知道樣本的均值：

$\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}$

那麼可以這樣計算 $S^{2}$ ：

$S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}$

此時就有兩個問題需要思考了：

爲什麼可以用 $S^{2}$ 來近似 $\sigma ^{2}$ ？
爲什麼使用 $\bar{X}$ 替代 $\mu$ 之後，分母是?

下面仔細分析細節，就可以弄清楚這兩個問題。

舉個例子，假設服從這樣一個正態分佈：

$X\sim N(145,1,4^{2})$

即， $\mu =145,\sigma ^{2}=1.4^{2}=1.96$ ，圖形如下：

當然，現實中往往並不清楚服從的分佈是什麼，具體參數又是什麼。所以下面用虛線來表明我們並不是真正知道的分佈：

很幸運，我們知道 $\mu =145$ ，因此對採樣，並通過：

$S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X-\mu )^{2}$

來估計 $\sigma ^{2}$ 。其次採樣計算出來的 $S^{2}$ ：

看起來要比 $\sigma ^{2}=1.96$ 小。採樣具有隨機性，我們多采樣幾次， $S^{2}$ 會圍繞 $\sigma ^{2}$ 上下波動。所以可知：

可推出：

進而推出：

如果用下面這個式子來估計：

那麼 $S^{2}$ 採樣均值會服從一個偏離 $1.4^{2}$ 的正態分佈：

可見，此分佈傾向於低估 $\sigma ^{2}$ 。

具體小了多少，我們可以來計算一下：

其中：

所以我們接着算下去：

其中：

所以：

也就是說，低估了 $\frac{1}{n}\sigma ^{2}$ ，進行以下調整：

因此使用下面這個式子進行估計，得到的就是無偏估計：

$S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{_{i}}-\bar{X})^{2}$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章