爲什麼樣本方差(sample variance)的分母是 n-1?
本文轉自:https://www.matongxue.com/madocs/607.html
先把問題完整的描述下。
如果已知隨機變量的期望爲,那麼可以如下計算方差:
上面的式子需要知道的具體分佈是什麼(在現實應用中往往不知道準確分佈),計算起來也比較複雜。
所以實踐中常常採樣之後,用下面這個來近似:
其實現實中,往往連的期望也不清楚,只知道樣本的均值:
那麼可以這樣計算:
此時就有兩個問題需要思考了:
- 爲什麼可以用來近似?
- 爲什麼使用替代之後,分母是?
下面仔細分析細節,就可以弄清楚這兩個問題。
舉個例子,假設服從這樣一個正態分佈:
即,,圖形如下:
當然,現實中往往並不清楚 服從的分佈是什麼,具體參數又是什麼。所以下面用虛線來表明我們並不是真正知道的分佈:
很幸運,我們知道,因此對採樣,並通過:
來估計。其次採樣計算出來的:
看起來要比小。採樣具有隨機性,我們多采樣幾次, 會圍繞上下波動。所以可知:
可推出:
進而推出:
如果用下面這個式子來估計:
那麼採樣均值會服從一個偏離的正態分佈:
可見,此分佈傾向於低估 。
具體小了多少,我們可以來計算一下:
其中:
所以我們接着算下去:
其中:
所以:
也就是說,低估了,進行以下調整:
因此使用下面這個式子進行估計,得到的就是無偏估計: