文章目錄

第一章.緒論

一、常見隨機變量分佈

1.二項分佈：

如果隨機變量的分佈律爲
$p(X=k)=C^k_np^k(1-p)^{n-k},(k=0,1,...,n)$

則稱隨機變量X服從參數爲 $(n,p)$ 的二項分佈
記爲X~B(n,p),(其中n爲自然數，0<p<1爲參數）

1). n重伯努利實驗，關心事件發生次數的分佈律
2） $EX=np,DX = np(1-p)$
當n=1時，爲“0-1分佈”，即 $B(1,p)$

2.Poisson分佈

如果隨機變量X的分佈律爲
$P{X=k}=\frac{\lambda^k}{k!}e^{-\lambda},(k=0,1,\dots. where\ constant\ \lambda>0)$

記爲: $X$ ~ $p(\lambda)$

1).稀有事件，事件發生次數的分佈律
2). $EX=\lambda,DX =\lambda$

3.幾何分佈

如果隨機變量X的分佈律爲
$P(X=k)=(1-p)^{k-1}p,(k=1,2,\dots.\ where\ constrant\ p\in (0,1))$
則稱隨機變量X服從參數爲p 的幾何分佈.
記爲： $X$ ~ $G(p)$

1).獨立重複試驗，首次成功次數的分佈律。
2). $EX=\frac{1}{p},DX=\frac{1-p}{p^2}$

4.帕斯卡分佈（負二項分佈）

如果隨機變量X的分佈律爲
$P(X=k)=C^{r-1}_{k-1}(1-p)^{k-r}p^r),(k=r,r+1,r+2,\dots,where\ constant\ p\in (0,1))$
記爲： $X$ ~ $NB(r,p)$

1).獨立重複試驗，第r此成功時實驗次數的分佈律
2). $EX=\frac{r}{p},DX=\frac{r(1-p)}{p^2}$
*負二項分佈可以看成是r個獨立同分布的幾何分佈的 $Y_i$ ~ $G(p)$ 疊加，則有

$EX = E(Y_1+Y_2+\cdots+Y_r)=rE(Y_i)=r\cdot \frac{1}{p}$

$DX = D(Y_1+Y_2+\cdots+Y_r)=rD(Y_i)=r\cdot \frac{1-p}{p^2}$

5.多項分佈（二項分佈的推廣）

如果隨機向量 $N=(N_1,N_2,\cdots,N_m)$ 的分佈律爲
$P(N_1=r_1,N_2=r_2,\cdots,N_m=r_m)=\frac{n!}{r_1!r_2!\cdots r_m!}p^{r_1}_1p^{r_2}_2\cdots p^{r_m}_m$
則稱隨機變量N服從參數爲 $p=(p_1,\cdots,p_m)的多項分佈$ .
$\Sigma^m_{i=1}p_i=1,\Sigma^m_{i=1}r_i=n$ (其中n爲自然數，0< $p_i$ <1爲參數)
記作 $N$ ~ $M(n,p)$

-1).每次試驗有m個可能結果： $A_1,A_2,\dots,A_m$

-2). $P(A_k)=p_k$ ,此實驗獨立重複進行n此，記 $A_k$ 發生的次數爲 $N_k$ .
$N$ ~ $M(n,p)$ 可以分解成n個獨立的 $M(1,p)$ 之和。

6.均勻分佈

若隨機變量X 的密度函數爲
$f(x)=\begin{cases} \frac{1}{b-a}, & \text{if $a\le x\le b$} \\ 0, & others \end{cases}$
則稱隨機變量 $X$ 服從區間 $[a,b]$ 上的均勻分佈．
記作X~ $U[a,b]$
$F(x)= \begin{cases} 0, & x<a \\ \frac{x-a}{b-a},&a\le x\le b \\ 1, & b<x \end{cases}$
幾何概型

1). $P{c<X<c+l}=\frac{l}{b-a}$
2)l. $EX=\frac{1}{b-a},DX=\frac{(b-a)^2}{12}$

7.指數分佈

$X$ ~ $e(\lambda)$
定義:如果隨機變量X 的密度函數爲
$f(x)=\lambda e^{-\lambda x}I\{x>0\}$
其中 $\lambda>0$ 爲常數，則稱隨機變量X服從參數爲 $\lambda$ 的指數分佈．

1). $F(x)=1-e^{-\lambda x}I\{x>0\}$
2). $P(X>x)=1-F(x)=e^{-\lambda x}$
3). $EX=\frac{1}{\lambda},DX=\frac{1}{\lambda^2}$

8.正態分佈

如果連續型隨機變量的密度函數爲
$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}}$
$(where\ -\infty \lt \mu\lt +\infty,constant\ \sigma >0$ )

9.柯西分佈

如果連續型隨機變量的密度函數爲
$f(x)=\frac{1}{\beta \pi}\frac{1}{1+(\frac{x-\alpha}{\beta})^2},x\in \mathbb R$
則稱隨機變量X服從參數爲 $\alpha,\beta$ 的柯西分佈
記爲：X~C $(\alpha,\beta)$

若 $\alpha=0,\beta=1,我們稱C(0,1)爲標準柯西分佈$ .
$f(x)=\frac{1}{\pi}\frac{1}{1+x^2},x\in \mathbb R$
EX不存在
物理學中受迫共振的微分方程的解。

10.伽馬分佈

如果隨機變量 X 的密度函數爲
$f(x)=\frac{(\beta x)^{\alpha-1}}{\Gamma(\alpha)}\beta e^{-\beta x}I\{ x>0\},where\ \alpha >0,\beta >0$
則稱隨機變量 $X$ 服從參數爲 $(\alpha,\beta)$ 的 $\Gamma$ 分佈.
記爲: $X$ ~ $\Gamma(\alpha,\beta)$

當 $\alpha = 1$ 時, $X$ ~ $e(\beta)$
$\Gamma(\alpha)=\int^{\infty}_0x^{\alpha-1}e^{-x}dx=(\alpha-1)\Gamma(\alpha-1)$
$EX=\int^{\infty}_0\frac{(\beta x)^{\alpha}}{\Gamma(\alpha)}e^{-\beta x}dx =\frac{\Gamma(\alpha+1)}{\beta\Gamma(\alpha)}=\frac{\alpha}{\beta}$
$DX=EX^2-(EX)^2=\frac{\alpha^2+\alpha}{\beta^2}-(\frac{\alpha}{\beta})^{2}=\frac{\alpha}{\beta^2}$
獨立的指數分部之和服從伽馬分佈。

11.逆伽馬分佈

如果隨機變量 X 的密度函數爲
$f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{-\frac{\beta}{x}}I\{x>0\},where\ \alpha>0,\beta>0$
則稱隨機變量 $X$ 服從參數爲 $(\alpha,\beta)$ 的逆伽馬分佈.
記爲: $X$ ~ $\Gamma^{-1}(\alpha,\beta)$

當 $X$ ~ $\Gamma(\alpha,\beta)$ 時, $Y=\frac{1}{X}$ ~ $\Gamma^{-1}(\alpha,\beta)$
$EX=\int^\infty_0x \frac{\beta\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{\frac{\beta}{\alpha}}dx=\frac{\beta}{\alpha-1}$
$DX=\frac{\beta^2}{(\alpha-1)^2(\alpha-2)}$

通常用來描述誤差分佈。

12.貝塔分佈

如果隨機變量 X 的密度函數爲
$f(x)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}I\{0\lt x \lt1\},where\ a>0,b>0$

則稱隨機變量 X 服從參數爲 ( a , b ) 的 $\beta$ 分佈.
記爲 $X$ ~ $Be(a,b)$

當a=1,b=1時, $X$ ~ $U(0,1)$
$\int^\infty_{-\infty}f(x)dx=1$ , $\int^1_0x^{a-1}(1-x)^{b-1}dx=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}=\beta(a,b)$
$EX=\int^\infty_0 \frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}x^a(1-x)^{b-1}dx=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)}=\frac{a}{a+b}$
$DX=\frac{ab}{(a+b)^2(a+b+1)}$
beta分佈可以看作一個概率的概率分佈.
若 $X$ ~ $\Gamma(\alpha,\theta)$ , $Y$ ~ $\Gamma(\beta,\theta)$ 獨立,則 $\frac{X}{X+Y}$ ~ $Be(\alpha,\beta)$

13.狄裏克萊分佈(貝塔分佈的多維形式)

$P(x_1,x_2,\dots,x_k)=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}x^{\alpha_1-1}_1x^{\alpha_2-1}_2 \cdots x^{\alpha_k-1}_k,\sum^k_{i=1}x_i=1$
則稱隨機變量 $X$ 服從參數爲 $\alpha=(\alpha_1,\cdots,\alpha_k)(\alpha_i>0)$ 的狄裏克萊分佈 .
記爲 $X$ ~ $D(k,\alpha)$

當k=2時,狄裏克萊分佈爲貝塔分佈
可以描述一個多維概率的概率分佈.
$\int \cdots\int x_1^{\alpha_1-1}x_2^{\alpha_2-1}\cdots x_k^{\alpha_k-1}dx_1 \cdots dx_k=\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}$
$EX_i=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)} \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +1) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+1)} =\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k}$
$DX_i = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +2) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+2)}-(\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k})^2 =\frac{\alpha_i(\alpha_i+1)}{(\alpha_1+\alpha_2+\dots+\alpha_k+1) (\alpha_1+\alpha_2+\dots+\alpha_k)}-(\frac{\alpha_i}{ \alpha_1+\alpha_2+\dots+\alpha_k })^2$

14.帕累託分佈

如果隨機變量 X 的密度函數爲
$f(x)=\frac{\alpha C^\alpha}{x^{\alpha+1}}I\{x>C\},where\ C>0,\alpha>0$

則稱隨機變量 X 服從參數爲 $( C , \alpha )$ 的帕雷託分佈.
記爲 $X$ ~ $Pa(C,\alpha)$

經濟問題 :貧與富的存在
通過市場交易,20%的人將佔有80%的社會財富,如果交易可以不斷進行下去,那麼,在因和果、努力和收穫之間,普遍存在着不平衡關係.

二. 聯合分佈,邊緣分佈,條件分佈

1.已知邊緣分佈和條件分佈

設隨機向量 X 的概率分佈爲 $P_X(x)$ ,Y 在 X 下的條件分佈
爲 $P_{Y|X}(y|x)$ ,則
聯合分佈:
$f(x,y) = f_x(x)f_{Y|X}(y|X),( X 連續型 , Y 連續型 )$

$P(x_i,y_i)=P_X(x_i)P_{Y|X}(y_i|x_i),( X 離散型 , Y 離散型 )$

$P(x_i,y_i)=P_X(x_i)f_{Y|X}(y|x_i),(Y連續型,X離散型)$

$P(x_i,y_i)=f_X(x)P_{Y|X}(y_i|x),(X連續型,Y離散型)$

2.已知聯合分佈

設隨機向量 ( X , Y ) 的聯合分佈爲 P ( x , y ), 則

邊緣分佈:
$P_X(x)=\int^\infty_{-\infty}p(x,y)dy,(Y連續型)$

$P_X(x)=\sum_ip(x,y_i),(Y離散型)$

條件分佈:
$P_{Y|X}(y|x)=\frac{p(x,y)}{p_X(x)},(Y連續型)$

$P_{Y|X}(y_i|x) =\frac{p(x,y_i)}{p_X(x)},(Y離散型)$

三.基本概念

1.指數族:

$p(x,\theta)=C(\theta)exp\{\sum^k_{i=1}\theta_iT_i(x)\}h(x)$
標準形式:
見<<高等數理統計shaojun>>

2.充分統計量:

有分佈族 $\{p(x,\theta),\theta\in \Theta \}$ ,
若在已知統計量 T 的條件下 , 樣本 X 的條件分佈與 $\theta$ 無關,則稱 T 爲參數 $\theta$ 的充分統計量.

3.因子分解定理:

有分佈族 $\{p(x,\theta),\theta\in \Theta \}$ , 以及統計量:T=T(x)
若 $p ( x , \theta )$ 能夠分解成
$p ( x , \theta ) = g ( T ( x ), \theta ) h ( x )$
則 T 爲參數 $\theta$ 的充分統計量。

4.完備統計量:

有分佈族 $\{p(x,\theta),\theta\in \Theta \}$ , 以及統計量:T=T(x),
若對 $\forall \varphi(\ T(x)\ )$ 滿足, $E_\theta (\varphi(\ (T(x)\ )=0$ ,都有
$P_\theta (\varphi (T(X))=0)=1$

5.完全統計量判定:

若樣本 $X = ( X_1 , X_2 ,\cdots , X_n )$ 的分佈族: $\{p(x,\theta),\theta\in \Theta \}$ ,
$P(x,\theta)=C(\theta)exp\{ \sum^k_{i=1}\theta_iT_i(x) \}h(x)$
統計量: $T=(\ T_1(x),T_2(x),\cdots,T_k(x) \ )$ , 且參數空間 $\Theta$ 有內點,則T爲參數 $\theta$ 的完全統計量
看<<高等數理統計 shaojun>><<參數統計教程韋博成>>

6.UMVUE:

樣本 $X=(X_1,X_2,\cdots,X_n)$ ,
分佈族: $\{p(x,\theta),\theta\in \Theta \}$ ,
可估函數: $g(\theta)$ ,
設 $\hat g^*(X)$ 是 $g(\theta)$ 的一個無偏估計量,若對 $g(\theta)$ 的任意無偏估計 $\hat g(X)$ 都有:
$D \hat g^*(X) \le D \hat g(X)$
則稱 $\hat g^*(X)是g(\theta)的UMVUE$

7.L-S定理:

樣本 $X=(X_1,X_2,\cdots,X_n)$ ,
分佈族: $\{p(x,\theta),\theta\in \Theta \}$ ,
可估函數: $g(\theta)$ ,
統計量 T (X ) 是一個充分完備統計量.
$\hat g( T ( X ))$ 是 g ( \theta ) 的一個無偏估計量,
則 $\hat g(T(X))$ 是 $g(\theta)$ 唯一的UMVUE

8.C-R不等式:

樣本 $X=(X_1,X_2,\cdots,X_n)$ ,
分佈族: $\{p(x,\theta),\theta\in \Theta \}$ ,
可估函數: $g(\theta)$ ,
$\hat g( T ( X ))$ 是 $g ( \theta )$ 的一個無偏估計量,
假設 p(x, $\theta$ )滿足正則性條件:

1). $\{ x|p(x,\theta)>0 \}與\theta無關$
2). $p(x,\theta)關於\theta可導$
3). $有關p(x,\theta)關於\theta求導和積分可換序$
則有 $Var_\theta (\hat g(X)) \ge \frac{(g`(\theta))^2}{nI(\theta)}\left( =\frac{(g`(\theta)I^{-1}(\theta)(g`(\theta)^T}{n} \right)$
稱 $I(\theta)=E(\frac{\partial lnp(x,\theta)}{\partial \theta})^2$ 爲參數 $\theta$ 的信息量
如果 $DT=\frac{(g`(\theta))^2}{nI(\theta)},(當q(\theta)=\theta時,DT=\frac{1}{nI(\theta)})則稱T(X_1,X_2,\cdots,X_n)爲g(\theta)的有效估計量$ ]

9.N-P引理

10.N-P引理推廣

第二章.先驗分佈的選取

一.古典學派和貝葉斯學派

古典統計學派: 堅持概率的頻率解釋, 把未知參數看成一個固定的未知量!
統計推斷的信息量: 總體信息和樣本信息
缺點: 需要大量重複試驗
貝葉斯學派: 堅持先給定先驗概率, 把未知參數用一個概率分佈描述!
統計推斷的信息量: 總體信息,樣本信息及先驗信息
缺點: 先驗信息主觀性比較強

二.貝葉斯統計的基本概念

設總體 X 的概率函數爲 $p ( x | \theta )$ ( 分佈律或密度函數 ) ,
樣本: $X_1 , X_2 ,..., X_n ,\ \theta$ 是未知參數。

1).參數的先驗分佈: $\pi (\theta)$

$\theta$ 是離散型隨機變量時:
$\pi(\theta_i)=P(\theta=\theta_i)$
$\theta$ 是連續型隨機變量時:
$\pi(\theta)表示參數\theta 概率密度函數$

2).參數的後驗分佈: $\pi(\theta|x_1,x_2,\cdots, x_n)$

在給定 $X_1=x_1,\cdots,X_n=x_n$ 條件下,
$\theta的條件分佈\pi(\theta|x_1,x_2,\cdots, x_n)$

三.後驗分佈的計算

樣本的條件分佈爲:

$p(x_1,x_2,\cdots,x_n|\theta)=\prod^n_{i=1}p(x_i|\theta)$

樣本與參數的聯合分佈爲:

$h( x_1 , x_2 , \cdots, x_n , \theta ) =\pi ( \theta ) p ( x_1 , x_2 , \cdots, x_n | \theta )$

樣本邊緣分佈爲:

$m(x_1,x_2,\cdots,x_n)=\int_\Theta h(x_1,x_2,\cdots,x_n,\theta)d\theta$
則有後驗分佈:
1).連續型
$\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{h(x_1,x_2,\cdots,x_n|\theta)}{m(x_1,x_2,\cdots,x_n)} \\ =\frac{\pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)}{\int_\Theta \pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)d\theta}$

2).離散型
$\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{\pi(\theta_k)p(x_1,x_2,\cdots,x_n|\theta_k)}{\sum_i\pi(\theta_i)p(x_1,x_2,\cdots,x_n|\theta_i)}$

四.先驗分佈函數形式的確定

1.專家意見
2.歷史資料
3.相對似然法
4.直方圖法
5.定分度法和變分度法
6.樣本邊緣分佈最大似然先驗

例題1
$X$ ~ $e(\theta)$ 樣本 $X_1,X_2,\cdots,X_n, \theta$ ~ $e(\lambda)$
解:
$\pi (\theta)=\lambda e^{-\lambda \theta}$

$p(x_1,\cdots,x_n|\theta)=\theta^{-n}e^{-\theta \sum^n_{i=1}x_i}$

$p(x_1,\cdots,x_n,\theta|\lambda)=\lambda \theta^n e^{-\theta (\lambda+\sum^n_{i=1}x_i)}$

$p(x_1,\cdots,x_n|\lambda)=\int p(x_1,\cdots,x_n)p(\theta)d\theta=\int \lambda\theta^n exp(-\theta (\lambda + \sum^n_{i=1}x_i))d\theta \\ =\lambda \frac{n!}{(\lambda+\sum^n_{i=1}x_i)^{n+1}}$

$lnp(x_1,\cdots,x_n|\lambda) = ln\lambda+lnn!-(n+1)ln(\lambda+\sum^n_{i=1}x_i)$

$令\frac{dlnp(x_1,\cdots,x_n|\lambda)}{d\lambda}=\frac{1}{\lambda}-(n+1\frac{1}{\lambda+\sum^n_{i=1}x_i})=0$
求出極大似然估計 $\hat \lambda=\bar X$

五.超參數的確定

若先驗分佈的形式確定,但分佈中含有未知參數(超參數)

1.先驗分佈具有明確的意義或信息

例子1 $\theta$ ~ $N(\mu,\sigma^2)$

2.利用邊緣分佈確定超參數(矩估計和MLE)

已知總體X~P(x| $\theta$ ) , $\theta$ ~ $\pi(\theta|\lambda)$ $\lambda$ 是超參數

六.無信息先驗分佈

1.貝葉斯假設

離散均勻分佈: $\theta可能取值有限, \theta_1,\cdots,\theta_n,P(\theta=\theta_i)=\frac{1}{n}$
有限區間上的均勻分佈: $\theta$ ~ $U[a,b]$
廣義先驗分佈: $\theta \in (-\infty,\infty),\theta的先驗分佈滿足:$
1. $\pi(\theta)\ge0,\int^\infty_{-\infty}\pi(\theta)d\theta=\infty$
2. $\pi(\theta|x)是正常的密度函數$
. 若 $\pi(\theta)是廣義先驗,則c\pi(\theta)也是廣義先驗$
$\pi(\theta|x)=\frac{h(x,\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int p(x|\theta)\pi(\theta)d\theta}$
$\int \pi(\theta|x)d\theta=1$

2. 位置參數的無信息先驗

<<貝葉斯分析>> $P_{49}$
位置參數族：平移變換下的不變性
$\pi(\theta)=1$

例1
例2

3.尺度參數的無信息先驗

尺度參數族舉例:

$p(x|\sigma)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{x^2}{2\sigma^2}}$
$p(x|\beta)=\frac{1}{\pi \beta}\frac{1}{1+(\frac{x}{\beta})^2}$
$p(x|\lambda)=\frac{1}{\lambda}e^{\frac{x}{\lambda}},x \gt 0$

尺度參數族:尺度變換下的不變性<<貝葉斯分析>> $P_{51}$

$\{f(x,\theta) \to \frac{1}{\theta}f(\frac{x}{\theta}), \theta \in \Bbb R^+ \}$

證 $\pi(\sigma)=\frac{1}{\sigma}$ :

令 $Y=cX,(c \in \Bbb R^+)$
$f_Y(y)=\frac{1}{c\theta}f(\frac{y}{c\theta})$
令 $\eta = c\theta$
$f_Y(y)=\frac{1}{\eta}f(\frac{y}{\eta})$

$\sigma的無信息先驗與\eta的無信息先驗應當相同.有:$
$\pi(\tau) = \pi^*(\tau)\tag{3.1}$
其中 $\pi^*(\tau)爲\eta$ 的先驗分佈,另一方面,由變換 $\eta=c\sigma,可知\eta$ 的無信息先驗爲:
$\pi^*(\eta)=\pi(\sigma)|_{\sigma=\frac{\eta}{c}}\cdot|\frac{d\sigma}{d\eta}|=\frac{1}{c}\pi(\frac{\eta}{c})\tag{3.2}$
比較(3.1)和(3.2)得:
$\pi(\eta)=\pi^*(\eta)=\frac{1}{c}\pi(\frac{\eta}{c})$
取 $\eta=c,有:$
$\pi(c)=\frac{1}{c}\pi(1)$
爲方便計算, 令 $\pi(1)=1$ ,由c的任意性,可得 $\sigma$ 的無信息先驗爲:
$\pi(\sigma)=\frac{1}{\sigma},(\sigma \gt 0)$

4.一般情況:Jeffreys無信息先驗

$\pi(\theta)=|I(\theta)|^{1/2}$ "| |"表示行列式

七.共軛先驗分佈

1.共軛先驗分佈

$設\mathscr F表示\theta的先驗分佈\pi(\theta)構成的分佈族,如果取的\pi \in \mathscr F,後驗分佈\pi(\theta|x)\in \mathscr F,那麼稱\mathscr F是一個共軛先驗分佈.$ (先驗分佈和後驗分佈同一個分佈族)

二項分佈,其參數的共軛分佈族是貝塔分佈.

方差已知的正態分佈,均值的共軛分佈族是正態分佈族.
泊松分佈, 參數的共軛分佈族是伽馬分佈.

2.求共軛先驗分佈

指數分佈,參數的共軛分佈族是伽馬分佈.
-均值已知的正態分佈, 方差的共軛分佈族是逆伽馬分佈.

八.多層先驗分佈

當先驗分佈中的超參數無法確定時,可以對超參數再給出一個先驗
分佈,這個給出的第二個先驗就是超先驗。
設參數 $\theta$ 的先驗分佈是 $\pi_1(\theta|\lambda)$ ,其中 $\lambda$ 是超參數給出超參數 $\lambda$ 的超先驗分佈 $\pi_2(\lambda)$ 則有 $\theta$ 和 $\lambda$ 的聯合分佈式是:
$\pi_1(\theta|\lambda)\pi_2(\lambda)$
參數 $\theta$ 的先驗分佈是:
$\pi(\theta)=\int \pi_1(\theta| \lambda)\pi_2(\lambda)d\lambda$
以此類推,可以得到三層以致多層先驗.

後驗分佈與充分性

定義:設總體 X 的分佈函數爲 $F ( x , \theta )$ , 樣本: $X_1 , X_2 ,..., X_n$ ,統計量 $T ( X_1 , X_2 ,..., X_n )$ . 若給定 T 後,  $X_1 , X_2 ,..., X_n$  的條件分佈與參數 $\theta$ 無關, 則稱統計量 $T ( X_1 , X_2 ,..., X_n )$ 爲 $\theta$ 的充分統計量.
因子分解定理:
$T=T(x_1,x_2,\cdots,x_n)$ 是一個充分統計量的充要條件是對任一的 $\theta$ ,存在兩個函數 $g(t,\theta)$ 和 $h(x_1,x_2,\cdots,x_n)$ ,有:
$p(x_1,x_2,\cdots,x_n,\theta)=g\left( T(x_1,x_2,\cdots,x_n),\theta \right)h(x_1,x_2,\cdots,x_n)$
後驗分佈引理
設 $\Gamma$ 是未知參數 $\theta$ 的先驗分佈類 $\pi(\theta) \in \Gamma$ , 若 $\Gamma$ 是 $\theta$ 的充分統計量,則對  $\forall \pi \in \Gamma$ ,有:
$\pi(\theta|x)=\tilde \pi(\theta|t)$
證明:
設 T 的概率函數爲: $q(t|\theta)$ ,
由充分統計量的定義: $p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x)$
$p(x|\theta)=q(t|\theta)C(x)$
由因子分解定理有: $p(x|\theta)=g(t,\theta)h(x), q(t|\theta) \propto g(t|\theta)$
則

$\begin{aligned} \pi(\theta|x) & =\frac{h(x,\theta)}{m(x)}\\ & =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta} \\ &=\frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ & =\frac{\pi(\theta)q(t|\theta)}{\int \pi(\theta)q(t|\theta)d\theta}\\ & =\tilde \pi(\theta|t) \end{aligned}$

回顧充分統計量

因子分解定理

後驗分佈引理

設 $\Gamma$ 是未知參數 $\theta$ 的先驗分佈類 $\pi(\theta)\in \Gamma$ , 若 T 是 $\theta$ 的充分統計量,則對 $\forall \pi \in \Gamma$ , 有:
$\pi(\theta|x)=\tilde \pi(\theta|t)$
證明:
設T的概率函數爲 $q(t|\theta)$ ,
由充分統計量 $p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x)$
由因子分解定理 $p(x|\theta)=g(t|\theta)h(x),q(t|\theta) \propto g(t|\theta)$
$p(x|\theta)=q(t|\theta)C(x)$
$\begin{aligned} \pi(\theta|x)=\frac{h(x,\theta)}{m(x)} & =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta}\\ & = \frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ & = \frac{\pi(\theta)q(t|\theta)}{\int \pi (\theta) q(t|\theta )d\theta}\\ & = \tilde \pi(\theta|t) \end{aligned}$

Reference先驗

KL散度定義:

設兩個概率分佈P(x),q(x),KL距離(散度)爲,
$KL(p(x),q(x))=\int ln(\frac{p(x)}{q(x)})p(x)dx=E_p(ln(\frac{p(x)}{q(x)}))$
即連續型隨機變量相對熵.

顯然:

1). $KL(p(x),q(x)) \ != KL(q(x),p(x))$
2). $KL(p(x),q(x))\ge 0$

$E_p(-ln\frac{p(x)}{q(x)})=E_p(ln\frac{q(x)}{p(x)}) \le lnE_p(\frac{q(x)}{p(x)})$
$lnE_p(\frac{q(x)}{p(x)})=ln\int(\frac{q(x)}{p(x)})p(x)dx=0$

Reference先驗

設 $\begin{aligned} I_{\pi(\theta)}(\theta,x) & =\int_Xp(x)[\int_\Theta\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}d\theta]dx \\ & = E_X(KL(\pi(\theta,x),\pi(\theta))) \end{aligned}$
其中p(x)爲樣本X的邊緣分佈.若 $\pi^*(\theta)$ 滿足:
$I_{\pi^*(\theta)}(\theta,x)=\max_{\pi(\theta)} \{ I_{\pi(\theta)}(\theta,x) \}$
則稱 $\pi^*(\theta)=arg\max_{\pi(\theta)}\{ I_{\pi(\theta)}(\theta,x) \}爲參數\theta的Reference先驗$

積分換序:
$\begin{aligned} I_{\pi(\theta)}(\theta,x) &=\int_\Theta[\int_Xp(x)\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}dx]d\theta \\ &=\int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)-ln(\pi(\theta)))dx]d\theta \\ & = \int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)dx-\int _X p(x|\theta)ln(\pi(\theta))dx]d\theta \end{aligned}$
$I_{\pi(\theta)}(\theta,x) = \int_\Theta \pi(\theta)[\underbrace{\int_X p(x|\theta)(ln\pi(\theta|x)dx}-\int _X p(x|\theta)ln(\pi(\theta))dx]d\theta$
令 $lnf_n(\theta)=\int_X p(x|\theta)ln\pi(\theta|x)dx$
則 $I_{\pi(\theta)}(\theta,x)=\int_\Theta \pi(\theta)ln\frac{f_n(\theta)}{\pi(\theta)}d\theta$
$\pi^*(\theta)=\lim_{n\to \infty}\frac{f_n(\theta)}{f_n(\theta_0)}$
其中 $\theta_0$ 是參數空間 $\Theta$ 的一個內點.
參考<<貝葉斯分析P65>>

Reference先驗計算

二維參數爲例子:分佈族 $p(x|\theta,\lambda)$ ,樣本爲 $X_1,X_2,\cdots,X_n$
參數信息陣:
$I(\theta,\lambda)=\begin{bmatrix} I_{11}(\theta,\lambda) \ \ I_{12}(\theta,\lambda) \\ I_{21}(\theta, \lambda) \ \ I_{22}(\theta, \lambda) \end{bmatrix}$

1).固定 $\theta$ ,獲得先驗分佈: $\pi(\lambda|\theta) = I^{1/2}_{22}(\theta,\lambda)$
2).如果 $\pi(\lambda|\theta)是正常先驗分佈,直接消參數$ :
$p(x|\theta)\int_X p(x|\theta,\lambda)\pi(\lambda|\theta)d\lambda$
3).根據 $p(x|\theta),確定\theta的先驗分佈\pi(\theta)$
4).獲得聯合先驗分佈:
$\pi(\theta,\lambda)=\pi(\theta)\pi(\lambda|\theta)$
如果 $\pi(\lambda|\theta)是非正常先驗分佈集$ :
(1.劃分出 $\lambda的逼近閉參數空間$
$\Theta_1 \subset \Theta_2 \subset \cdots \subset \Theta_k \cdots, \cup_k \Theta_k = \Theta$
(2.在 $\Theta上,確定\pi_k(\lambda|\theta)是正常先驗分佈,\pi_k(\lambda|\theta)=A_k(\theta)\pi(\lambda|\theta),A_k(\theta)=\frac{1}{\int_{\Theta_k}\pi(\lambda|\theta)d\lambda}$ 按照前面步驟二,確定 $\pi_k(\theta)$
$\pi_k(\theta)=exp\{ \frac{1}{2} \int_{\Theta_k} \pi_k(\lambda|\theta) ln\frac{|I(\lambda,\theta)|}{|I_{22}(\lambda,\theta)|} d\lambda\}$
(3. $\pi(\theta,\lambda)=lim_{k \to \infty}\frac{A_k(\theta)\pi_k(\theta)}{A_k(\theta_0)\pi_k(\theta_0)}\pi(\theta|\lambda)$
如果參數維數多於二維 ,類似二維多次循環進行
$\pi(\theta_1,\theta_2,\cdots,\theta_k)=\pi(\theta_1)\pi(\theta_2|\theta_1)\pi(\theta_k|\theta_1,\theta_2,\cdots,\theta_{k-1})$

最大熵先驗

定義1: 設 $\theta$ 爲離散型隨機變量 , 分佈律爲: $p(\theta=\theta_i)=p_i,i=1,2,\cdots$
則稱 $E(p)=-\sum_ip_ilnp_i$
爲隨機變量的熵函數.
$H(x,y)=H(x)+H(y)$
$P(x,y) = P(x)P(y)$
$H(x)=-lnp(x)$

1). $p\to 0或p\to1是,有-plnp \to 0$
2). $\sum^n_{i=1}p_i=1時,當p_1=p_2=\cdots=p_n有-\sum^n_{i=1}p_ilnp_i最大.$

連續性:
$E(\pi)=-\int \pi(\theta)ln\frac{\pi(\theta)}{\pi_0(\theta)}d\theta$
$\pi_0(\theta)是不變的無信息先驗$

定理1(離散型):

$設\theta爲離散型隨機變量, \theta_i,i=1,2,\cdots,滿足條件:$
$E^\pi(g_k(\theta))=\sum_ig_k(\theta_i)\pi(\theta_i)=\mu_k,k=1,2,\cdots,m$
$其中g_k(\cdot),\mu_k(k=1,\cdots,m)分別表示已知的函數和已知的常數.同時還有隱藏條件\sum_i \pi(\theta_i)=1.$
則滿足條件的最大熵先驗爲:
$\bar \pi(\theta_i)=\frac{exp\{ \sum^m_{k=1} \lambda_kg_k(\theta_i) \}}{\sum_iexp\{ \sum^m_{k=1} \lambda_k g_k(\theta_i) \}}$
$其中\lambda_k是保證\bar \pi(\theta)滿足約束條件的常數.$

定理2(連續型):

$設\theta爲連續型隨機變量, \theta_i,i=1,2,\cdots,滿足條件:$
$E^\pi(g_k(\theta))=\int_i g_k(\theta)\pi(\theta)d\theta=\mu_k,k=1,2,\cdots,m$
$其中g_k(\cdot),\mu_k(k=1,\cdots,m)分別表示已知的函數和已知的常數.同時還有隱藏條件\sum_i \pi(\theta_i)=1.$
則滿足條件的最大熵先驗爲:
$\bar \pi(\theta_i)=\frac{\pi_0(\theta) exp\{ \sum^m_{k=1} \lambda_kg_k(\theta) \}}{\int_{\Theta} \pi_0(\theta)exp\{ \sum^m_{k=1} \lambda_k g_k(\theta) \}d\theta}$
$其中\lambda_k是保證\bar \pi(\theta)滿足約束條件的常數.$

第三章：貝葉斯統計推斷

點估計

已知總體X參數的後驗分佈: $\pi(\theta|x_1,\cdots,x_n)$

1).最大後驗估計:

也稱後驗衆數估計,後驗極大似然估計:
$\pi(\theta|x_1,x_2,\cdots,x_n)$

最大值點 $\hat \theta_{MD}$ .

即,將後驗分佈求其似然函數的最大值(MLE).

2).後驗中位數估計: $\hat \theta_{ME}$

$P(\theta > \hat \theta|x_1,x_2,\cdots,x_n)=P(\theta<\hat \theta|x_1,x_2,\cdots,x_n)$

3).後驗期望估計:

$\hat \theta=E(\theta|x_1,x_2,\cdots,x_n)=\hat \theta_E$

點估計的誤差估計

後驗分佈: $\pi(\theta|x_1,\cdots,x_n).貝葉斯估計:\hat \theta =\delta(x_1,\cdots,x_n)$
後驗均方誤差:
$PMSE(\delta(x))=E_{\theta|x}(\theta-\delta(x_1,x_2,\cdots,x_n))^2$
該值越小越好
$當\hat \theta=\hat \theta_E,即\hat \theta=E_{\theta|x}(\theta)$
$PMSE(\hat \theta_E)=E_{\theta|x}{(\theta-\hat \theta_E)}^2=D_{\theta|x}(\theta)=V(x)$
後驗均值估計使得後驗均方誤差達到最小.

區間估計

$已知 \theta 的後驗分佈 \pi ( \theta | x ), 對於給定的樣本x和x 和概率 1-\alpha,若存在兩個統計量\hat \theta_1( x ), \hat \theta_2 ( x ) ,有$
$P(\hat \theta_1(x)) \le \theta \le \hat \theta_2(x)|x) \ge 1-\alpha$

則稱置信水平爲1-\alpah的可信區間: $[\hat \theta_1(x), \hat \theta_2(x)],$
若 $P(\hat\theta_L(x)\le\theta|x)\ge1-\alpha$ :
則稱置信下限爲: $\hat\theta_L(x)$
若 $P(\theta\le\hat\theta_U(x)|x)\ge 1-\alpha$
則稱可信上仙爲: $\hat\theta_U(x)$

最大後驗密度可信區間(HPD)

1.定義(最大後驗密度可信集):

X~ $f(x|\theta)$ ,樣本: $X_1,X_2,\cdots,X_n,\theta的後驗分佈\pi(\theta|x),給定概率1-\alpha,(0<\alpha<1),集合C滿足如下條件:$

$P(\theta\in C)=1-\alpha$
$對任意的\theta_1\in C,\theta_2 \notin C,總有\pi(\theta_1|x)>\pi(\theta_2|x)則稱C爲\theta的置信水平爲1-\alpha最大後驗密度可信集.$

2.大樣本方法

X~ $f(x|\theta),樣本:X_1,X_2,\cdots,X_n,\theta的後驗分佈\pi_n(\theta|x),\mu^\pi(x)=E(\theta|x),V^\pi(x),當n比較大時,近似的有:$

1). $\theta-\mu^\pi(x)$ ~ $N(0,V^\pi(x))$
$\to (\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x))$ ~ $\chi^2(p)$
2). $\theta \to \{ \theta|(\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x)) \le \chi^2_\alpha(p) \}$

預測推斷

1.問題提出

1).X~ $f(x|\theta),樣本:X_1,X_2,\cdots,X_n,$ Z~ $g(z|\theta),$ 推斷未觀察值 $Z_0$
Z ~ $g(z|\theta)$ ~ $g(z|\theta,x)$
2). $X$ ~ $f(x|\theta), 樣本:X_1,X_2,\cdots,X_n,推斷未觀測值X_0$

2.定義

特例情況
$P(x_0|x_1,\cdots,x_n)=\int f(x_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\theta$

$Z_0的預報區間[a,b]滿足:$
$P(a\le z_0\le b|x_1,\cdots,x_n)=\int^b_a p(z_0|x_1,\cdots,x_n)dz_0=1-\alpha$

$x_0的預測區間[a,b]滿足:$
$P(a\le x_0\le b|x_1,\cdots,x_n)=\int^b_a p(x_0|x_1,\cdots,x_n)dz_0=1-\alpha$

假設檢驗:

$H_0:\theta \in \Theta_0\ \ vs\ \ H_1:\theta\in \Theta_1$
計算後驗概率: $P(\theta \in \Theta_0|x_1,\cdots,x_n),\ P(\theta\in \Theta_1|x_1,\cdots,x_n)$
若 $P(\theta \in \Theta_0|x_1,\cdots,x_n) \gt P(\theta \in \Theta_1| x_1,\cdots,x_n),接受H_0$
$H_i:\theta \in \Theta_i(i=1,2,\cdots,k)$

$\alpha_i=P(\theta \in \Theta_i|x),若\alpha_l最大,則接受H_l$

貝葉斯因子

$設兩個假設\Theta_0和\Theta_1的先驗概率分別爲\pi_0和\pi_1,後驗概率分別爲\alpha_0和\alpha_1,比率\frac{\pi_0}{\pi_1}稱爲H_0對H_1先驗機會比,\frac{\alpha_0}{\alpha_1}稱爲H_0對H_1後驗機會比,且稱$
$B^\pi(x)=\frac{\frac{\alpha_0}{\alpha_1}}{\frac{\pi_0}{\pi_1}}=\frac{\alpha_0\pi_1}{\alpha_1\pi_0}=\frac{\alpha_0/\pi_0}{\alpha_1/\pi_1}$

爲支持 $H_0$ 的貝葉斯因子.
$貝葉斯因子B^\pi(x)反應數據x支持H_0的程度.B^\pi(x)取值越大,對H_0的支持程度越高.$
拒絕域: $\frac{\alpha_0}{\alpha_1}<1$ 等價於:
$B^\pi(x)<\frac{\pi_1}{\pi_0} \iff \frac{1}{B^\pi(x)}>\frac{\pi_0}{\pi_1}$

簡單vs簡單檢驗

$H_0:\Theta_0={\theta_0}\ \ vs \ \ H_1:\Theta_1=\theta_1$

$\alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\theta_0,x)}{m(x)}=\frac{\pi_0P(x|\theta_0)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)}$

$\alpha_1=P(\theta \in \Theta_1| x)=\frac{\pi_1P(x|\theta_1)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)}$

$\frac{\alpha_0}{\alpha_1}=\frac{\pi_0P(x|\theta_0)}{\pi_1P(x|\theta_1)}$

$\implies B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{P(x|\theta_0)}{P(x|\theta_1)}$

拒絕域: $\frac{\alpha_0}{\alpha_1}<1$ 等價於:
$\frac{P(x|\theta_0)}{P(x|\theta_1)}>\frac{\pi_1}{\pi_0}$
例題:

複雜-複雜檢驗

$H_0:\Theta_0(非空複合集) \ \ vs \ \ H_1:\Theta_1=\Theta_0-\Theta_1(非空複合集)$

$\alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\Theta_0,x)}{m(x)}=\frac{\int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}$

$\alpha_1=P(\theta \in \Theta_0|x)=\frac{P(\Theta_1,x)}{m(x)}=\frac{\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}$

$則\frac{\alpha_0}{\alpha_1}=\frac{ \int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta }{ \int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta }$
$令\pi_0 = \int_{\Theta_0} \pi(\theta)d\theta,\ \pi_1=\int_{\Theta_1}\pi(\theta)d\theta$
$B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{ \int_{\Theta_0} \frac{\pi(\theta)}{\pi_0}P(x|\theta)d\theta }{ \int_{\Theta_1} \frac{\pi(\theta)}{\pi_1}P(x|\theta)d\theta }=\frac{m_0(x)}{m_1(x)}$

拒絕域: $\frac{\alpha_0}{\alpha_1}<1$ 等價於:
$\frac{m_0(x)}{m_1(x)}>\frac{\pi_1}{\pi_0}$

例題:

簡單-複雜檢驗

第四章：貝葉斯統計決策

一.概念

1.樣本空間和樣本分佈族

$隨機變量 X 取值於樣本空間 \Bbb R ,分佈族爲 { p( x | \theta ), \theta \in \Theta }$

2.決策空間: 統計決策問題可能採取的行動構成的非空集合.

$定義在樣本空間,取值於決策空間中函數 \delta (x ) 稱爲決策函數$

3.損失函數

$定義在 \Theta \times \Bbb R 的非負可測函數,記L( \theta , \delta ( x ))$

4.統計決策三要素

$隨機變量 X 的分佈族爲 p ( x | \theta ) , 決策空間 \Theta 和損失函數L(\theta,\delta(x)).$

5.風險函數

設 $\delta (x )$ 是一個決策函數,平均
損失:
$R(\theta,\delta)=E_{X|\theta}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))p(x|\theta)dx$
爲 $\delta(x)$ 的風險函數.
$對每一個 \theta 的平均損失, \theta 的函數$
風險函數就是損失函數關於 $p(x|\theta)$ 的期望
.
.
決策函數就類似於機器學習中的 $\hat y$
$設\delta(x)是任意一個決策函數,如果存在一個決策函數\delta^*(x),滿足:$
$R(\theta,\delta^*) \le R(\theta,\delta)$
則稱 $\delta^*(x)$ 爲一致最優決策函數

6.貝葉斯風險

$設R(\theta,\delta)爲風險函數,\pi(\theta)爲\theta的先驗分佈,則稱:$
$R_\pi( \delta )=E_\theta[R(\theta,\delta)]=\int R(\theta,\delta) \pi(\theta)d\delta$
爲 $\sigma(x)$ 的貝葉斯風險.
$如果 \delta( x ) 是任意一個決策函數,如果存在一個決策函數\delta^* ( x ), 滿足:$
$R_\pi(\delta^*) \le R_\pi(\delta)$
$則稱\delta^*(x)爲統計決策的貝葉斯解.$
統計決策的貝葉斯解就是貝葉斯風險的一致最有決策函數

7.後驗風險

$設L(\theta,\delta(x))爲損失函數,\pi(\theta|x)爲\theta的後驗分佈,則稱:$
$R(\delta(x)|x)=E_{\theta|x}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta|x)d\theta$
爲決策函數 $\delta(x)$ 的貝葉斯後驗風險.
在某個樣本下,損失函數 $L$ 關於後驗分佈 $\pi(\theta|x)$ 的期望(對 $\theta$ 求積分)
$如果存在一個決策函數\delta^* ( x ), 對任意的決策函數 \delta ( x ) ,滿足:$
$R(\delta^*(x)|x)=minR(\delta(x)|x)$
則稱 $\delta^*(x)$ 爲後驗風險最小原則下最優貝葉斯決策函數.

8.貝葉斯先驗風險

設 $\pi(\theta)爲先驗分佈,稱:$
$R(\pi,\delta(x))=E_\theta[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta)d\theta$
$爲\delta(x)對\theta的貝葉斯期望風險$

$\begin{aligned} E_X(R(\delta(x)|x)) &=\int R(\delta(x)|x)m(x)dx\\ &=\int m(x)dx\int L(\theta,\delta(x))\pi(\theta|x)d\theta\\ &=\int dx \int L(\theta,\delta(x))p(x,\theta)d\theta\\ &=\int dx \int L(\theta,\delta(x))\pi(\theta)p(x|\theta)d\theta\\ &=\int \pi(\theta)d\theta \int L(\theta,\delta(x))p(x|\theta)dx\\ &=\int R(\theta,\delta)\pi(\theta)d\theta\\ &=E_\theta[R(\theta,\delta)]\\ &=R_\pi(\delta)\\ &=\underline{\int \int L(\theta,\delta(x))p(x,\theta)dxd\theta} \end{aligned}$