第3章隨機變量的數字特徵

[TOC]
隨機變量的數字特徵，是某些由隨機變量的分佈所決定的常數，它刻畫了隨機變量（或者說，刻畫了其分佈）的某一方面的性質。

3.1 數學期望（均值）與中位數

3.1.1 數學期望的定義

設隨機變量X只能取有限個可能值a1,a2,⋯,am ，其概率分佈爲P(X=ai)=pi(i=1,⋯,m) 。則X的數學期望，記爲E(X)或EX，定義爲：

$E (X) = a 1 p 1 + a 2 p 2 + \dots + a m p m = \sum a i p i .$
數學期望也常被稱爲均值。
當X取無窮多個值時，∑aipi 的上界取無窮，這時候要求這個級數是收斂的。這就要求：
$\sum i = 0 \infty | a i | p i < \infty$
對於連續型隨機變量的情況，設X是一個連續型隨機變量，如果：

$\int \infty - \infty | x | f (x) d x < \infty$
則X的數學期望爲：
$E (X) = \int \infty - \infty x f (x) d x$

數學期望是由隨機變量的分佈完全決定的。

3.1.2 數學期望的性質

若干個隨機變量和的期望等於各變量的期望之和，即：

$E (X 1 + X 2 + \dots + X n) = E (X 1) + E (X 2) + \dots + E (X n) .$

若干個獨立隨機變量之積的期望等於各變量的期望之積，即：

$E (X 1 X 2 \dots X n) = E (X 1) E (X 2) \dots E (X n) .$
注意這裏要求各個隨機變量是相互獨立的。

設隨機變量X爲離散型，有分佈函數P(X=ai)=pi(i=1,2,⋯) ；或者爲連續型，有概率密度函數f(x) 。則：

$E (g (x)) = \sum i g (a i) p i （當 \sum i | g (a i) | p i ） < \infty 時）$
或
$E (g (X)) = \int \infty - \infty g (x) f (x) d x （當 \int \infty - \infty | g (x) | f (x) d x < \infty 時）$
也就是說，要求g(x)的期望，並不一定非要求出來g(x)的密度函數。

$E (c X) = c E (X)$

3.1.3 條件數學期望（條件均值）

按定義，條件數學期望：

$E (Y | x) = \int \infty - \infty y f (y | x) d y$

它反應了隨着x的取值變化，Y的變化情況是如何。這通常是研究者所關心的主要內容。比如人羣中固定身高x，平均體重的變化情況。在統計學上，也把E(Y|x)作爲x的函數，稱爲Y對X的“迴歸函數”。

聯想到全概率公式，有：

E (Y) = \int \infty - \infty E (Y | x) f 1 (x) d x

E (Y) = E [E (Y | X)]

即一個變量的期望等於其條件期望的期望。

3.1.4 中位數

設連續型隨機變量X的分佈函數爲F(x)，則滿足條件：

$P (X < m) = F (m) = 1 / 2$
的m，稱爲X或分佈F的中位數。

與期望相比，中位數受個別特大值或特小值的影響很小。但是，應用卻沒有期望廣泛，主要是因爲：

期望（均值）有很多優良的性質。
中位數本身固有某些缺點，比如可以不唯一。
對於離散型的變量，可能並沒有理想的“中位”數。

3.2 方差與矩

設X爲隨機變量，分佈爲F，則：

$V a r (X) = E [(X - E (X)) 2]$
稱爲X或分佈F的方差，其平方根Var−−−√ 稱爲X或分佈F的標準差。

$V a r (X) = E (X 2) - [E (X)] 2$

常數的方差爲0。
若c爲常數，則Var(X+c)=Var(X) 。
若c爲常數，則Var(cX)=c2Var(X) 。

獨立隨機變量之和的方差等於各變量的方差之和。

$V a r (X 1 + \dots + X n) = V a r (X 1) + \dots + V a r (X n)$

設X爲一隨機變量，E(X)=a ，而Var(X)=σ2 。記Y=(X−a)/σ ，則E(Y)=0,Var(Y)=1 。這樣對X進行一次線性變換後，得到一個具有均值爲0、方差爲1的變量Y。常稱Y是X的“標準化”。

正態分佈完全由均值和方差決定。方差σ2 越小，X的取值就以更大的概率集中在均值μ 附近。

分佈	期望（均值）	方差
泊松分佈	λ	λ
指數分佈		1/λ2
二項分佈	ip	np(1−p)
負二項分佈	r(1−p)/p
均勻分佈	12(a+b)	(b−a)2/12
正態分佈	μ	σ2
n卡方分佈	n	2n
n t分佈	0	n/(n−2)(n>2)
(m,n) t分佈	n/(n−2)	2n2(m+n−2)m(n−2)2(n−4)(n>4)

3.2.2 矩

設X爲隨機變量，c爲常數，k爲正整數。則量E[(X−c)k] 稱爲X關於c點的k階矩。

比較重要的有兩種情況：

c=0,αk=E(Xk) 稱爲X的k階原點矩。
c=E(X),μk=E[(X−E(X))k] 稱爲X的k階原點矩。

β1=μ3μ3/22 稱爲X或其分佈的“偏度係數”。如果β>0 則稱分佈爲正偏或右偏，如果β<0 則稱分佈爲負偏或左偏。

β2=μ4μ22 稱爲X或其分佈的“峯度係數”。

3.3 協方差與相關係數

記E(X)=m1,E(Y)=m2,Var(X)=σ21,Var(Y)=σ22 。

稱E[(X−m1)(Y−m2)] 爲X，Y的協方差，並記爲Cov(X,Y) 。

$C o v (c 1 X + c 2, c 3 Y + c 4) = c 1 c 3 C o v (X, Y)$
$C o v (X, Y) = E (X, Y) - m 1 m 2$

兩條性質：
1.若X，Y獨立，則Cov(X,Y)=0 。
2.[Cov(X,Y)]2≤σ21σ22 。等號當且僅當X，Y有嚴格線性關係時成立。

稱Cov(X,Y)/(σ1σ2) 爲X，Y的相關係數，並記爲Corr(X,Y) 。

形式上，可以把相關係數看成是“標準尺度下的協方差”。

兩條性質：
1.若X，Y獨立，則Corr(X,Y)=0 。（但反過來說不一定成立）
2.−1≤Corr(X,Y)≤1 。等號當且僅當X，Y有嚴格線性關係時成立。

可以將相關係數看成是X與Y之間線性關係程度的度量。

3.4 大數定理和中心極限定理

3.4.1 大數定理

設X1,X2,⋯,Xn,⋯ 是獨立同分布的隨機變量，均值和方差分別爲a,σ2 。則對任意給定的ε>0 ，有：

$lim n \to \infty P (| X ¯ - a | \geq ε) = 0$

大數定理也可以理解成是當n很大時，我們有很大的把握斷言均值很接近a。
在概率論中，叫做X¯ 依概率收斂於a。

馬爾科夫不等式：

$P (Y \geq ε) \leq E (Y) / ε$

契比雪夫不等式：

$P (| Y - E Y | \geq ε) \leq V a r (Y) / ε 2$

3.4.2 中心極限定理

也叫作林德伯格定理或林德伯格-萊維定理。

設X1,X2,⋯,Xn,⋯ 是獨立同分布的隨機變量（注意並沒有說是什麼分佈），均值和方差分別爲a,σ2 。則對任何實數x，有：

$lim n \to \infty P (1 n \sqrt σ (X 1 + X 2 + \dots + X n - n a) \leq x) = Φ (x)$ ，其中Φ(x) 是標準正態分佈N(0,1) 的分佈函數。

這其實是一個標準化的過程。這告訴我們，在很難求出X1+X2+⋯+Xn 的確切形式時，可以用正態分佈做近似。

若X1,X2,⋯,Xn,⋯ 是某事件A在n次獨立試驗中發生的次數，均值爲p，方差爲p(1-p)。對任何實數x，有：

棣莫佛-拉普拉斯定理（最早的中心極限定理）

$lim n \to \infty P (1 n p ( 1 - p ) - - - - - - - - \sqrt σ (X 1 + X 2 + \dots + X n - n p) \leq x) = Φ (x)$

如果t1,t2 是兩個正整數，且t1<t2 。則當n相當大時，近似有：

P (t 1 \leq X 1 + X 2 + \dots + X n \leq t 2) \approx Φ (y 2) - Φ (y 1)

其中

y i = (t i - n p) / n p (1 - p) - - - - - - - - \sqrt (i = 1, 2)

可以修正爲：

y 1 = (t 1 - 1 2 - n p) / n p (1 - p) - - - - - - - - \sqrt

y 2 = (t 2 + 1 2 - n p) / n p (1 - p) - - - - - - - - \sqrt

第3章隨機變量的數字特徵

第3章隨機變量的數字特徵

3.1 數學期望（均值）與中位數

3.1.1 數學期望的定義

3.1.2 數學期望的性質

3.1.3 條件數學期望（條件均值）

3.1.4 中位數

3.2 方差與矩

3.2.2 矩

3.3 協方差與相關係數

3.4 大數定理和中心極限定理

3.4.1 大數定理

3.4.2 中心極限定理

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

第3章隨機變量的數字特徵

第2章隨機變量及概率分佈

Scrapy實戰-爬取某博客聚合網站信息

關於RCNN中Bounding-box regression的個人理解

【機器學習】決策樹總結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

第3章 隨機變量的數字特徵

第3章 隨機變量的數字特徵

3.1 數學期望（均值）與中位數

3.1.1 數學期望的定義

3.1.2 數學期望的性質

3.1.3 條件數學期望（條件均值）

3.1.4 中位數

3.2 方差與矩

3.2.2 矩

3.3 協方差與相關係數

3.4 大數定理和中心極限定理

3.4.1 大數定理

3.4.2 中心極限定理

第3章隨機變量的數字特徵

第3章隨機變量的數字特徵