貝葉斯分析-學習筆記(超乾的乾貨)

文章目錄

第一章.緒論

一、常見隨機變量分佈

1.二項分佈:

如果隨機變量的分佈律爲
p(X=k)=Cnkpk(1p)nk,(k=0,1,...,n)p(X=k)=C^k_np^k(1-p)^{n-k},(k=0,1,...,n)

則稱隨機變量X服從參數爲(n,p)(n,p)的二項分佈
記爲X~B(n,p),(其中n爲自然數,0<p<1爲參數)

  • 1). n重伯努利實驗,關心事件發生次數的分佈律
  • 2)EX=np,DX=np(1p)EX=np,DX = np(1-p)
    當n=1時,爲“0-1分佈”,即B(1,p)B(1,p)

2.Poisson分佈

如果隨機變量X的分佈律爲
PX=k=λkk!eλ,(k=0,1,&ThinSpace;.where constant λ&gt;0)P{X=k}=\frac{\lambda^k}{k!}e^{-\lambda},(k=0,1,\dots. where\ constant\ \lambda&gt;0)

記爲:XX~p(λ)p(\lambda)

  • 1).稀有事件,事件發生次數的分佈律
  • 2).EX=λ,DX=λEX=\lambda,DX =\lambda

3.幾何分佈

如果隨機變量X的分佈律爲
P(X=k)=(1p)k1p,(k=1,2,&ThinSpace;. where constrant p(0,1))P(X=k)=(1-p)^{k-1}p,(k=1,2,\dots.\ where\ constrant\ p\in (0,1))
則稱隨機變量X服從參數爲p 的幾何分佈.
記爲:XX~G(p)G(p)

  • 1).獨立重複試驗,首次成功次數的分佈律。
  • 2).EX=1p,DX=1pp2EX=\frac{1}{p},DX=\frac{1-p}{p^2}

4.帕斯卡分佈(負二項分佈)

如果隨機變量X的分佈律爲
P(X=k)=Ck1r1(1p)krpr),(k=r,r+1,r+2,,where constant p(0,1))P(X=k)=C^{r-1}_{k-1}(1-p)^{k-r}p^r),(k=r,r+1,r+2,\dots,where\ constant\ p\in (0,1))
記爲:XX~NB(r,p)NB(r,p)

  • 1).獨立重複試驗,第r此成功時實驗次數的分佈律
  • 2).EX=rp,DX=r(1p)p2EX=\frac{r}{p},DX=\frac{r(1-p)}{p^2}
    *負二項分佈可以看成是r個獨立同分布的幾何分佈的YiY_i~G(p)G(p)疊加,則有

EX=E(Y1+Y2++Yr)=rE(Yi)=r1pEX = E(Y_1+Y_2+\cdots+Y_r)=rE(Y_i)=r\cdot \frac{1}{p}

DX=D(Y1+Y2++Yr)=rD(Yi)=r1pp2DX = D(Y_1+Y_2+\cdots+Y_r)=rD(Y_i)=r\cdot \frac{1-p}{p^2}

5.多項分佈(二項分佈的推廣)

如果隨機向量N=(N1,N2,&ThinSpace;,Nm)N=(N_1,N_2,\cdots,N_m)的分佈律爲
P(N1=r1,N2=r2,&ThinSpace;,Nm=rm)=n!r1!r2!rm!p1r1p2r2pmrmP(N_1=r_1,N_2=r_2,\cdots,N_m=r_m)=\frac{n!}{r_1!r_2!\cdots r_m!}p^{r_1}_1p^{r_2}_2\cdots p^{r_m}_m
則稱隨機變量N服從參數爲p=(p1,&ThinSpace;,pm)p=(p_1,\cdots,p_m)的多項分佈.
Σi=1mpi=1,Σi=1mri=n\Sigma^m_{i=1}p_i=1,\Sigma^m_{i=1}r_i=n(其中n爲自然數,0<pip_i<1爲參數)
記作NN~M(n,p)M(n,p)

-1).每次試驗有m個可能結果:A1,A2,,AmA_1,A_2,\dots,A_m

-2).P(Ak)=pkP(A_k)=p_k,此實驗獨立重複進行n此,記AkA_k發生的次數爲NkN_k.
NN~M(n,p)M(n,p)可以分解成n個獨立的M(1,p)M(1,p)之和。

6.均勻分佈

若隨機變量X 的密度函數爲
f(x)={1ba,if axb0,othersf(x)=\begin{cases} \frac{1}{b-a}, &amp; \text{if $a\le x\le b$} \\ 0, &amp; others \end{cases}
則稱隨機變量XX服從區間[a,b][a,b]上的均勻分佈.
記作X~U[a,b]U[a,b]
F(x)={0,x&lt;axaba,axb1,b&lt;xF(x)= \begin{cases} 0, &amp; x&lt;a \\ \frac{x-a}{b-a},&amp;a\le x\le b \\ 1, &amp; b&lt;x \end{cases}
幾何概型

  • 1).Pc&lt;X&lt;c+l=lbaP{c&lt;X&lt;c+l}=\frac{l}{b-a}
  • 2)l.EX=1ba,DX=(ba)212EX=\frac{1}{b-a},DX=\frac{(b-a)^2}{12}

7.指數分佈

XX~e(λ)e(\lambda)
定義:如果隨機變量X 的密度函數爲
f(x)=λeλxI{x&gt;0}f(x)=\lambda e^{-\lambda x}I\{x&gt;0\}
其中λ&gt;0\lambda&gt;0爲常數,則稱隨機變量X服從參數爲λ\lambda的指數分佈.

  • 1).F(x)=1eλxI{x&gt;0}F(x)=1-e^{-\lambda x}I\{x&gt;0\}
  • 2).P(X&gt;x)=1F(x)=eλxP(X&gt;x)=1-F(x)=e^{-\lambda x}
  • 3).EX=1λ,DX=1λ2EX=\frac{1}{\lambda},DX=\frac{1}{\lambda^2}

8.正態分佈

如果連續型隨機變量的密度函數爲
f(x)=12πσe(xμ)22σ2f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}}
(where &lt;μ&lt;+,constant σ&gt;0(where\ -\infty \lt \mu\lt +\infty,constant\ \sigma &gt;0)

9.柯西分佈

如果連續型隨機變量的密度函數爲
f(x)=1βπ11+(xαβ)2,xRf(x)=\frac{1}{\beta \pi}\frac{1}{1+(\frac{x-\alpha}{\beta})^2},x\in \mathbb R
則稱隨機變量X服從參數爲α,β\alpha,\beta的柯西分佈
記爲:X~C(α,β)(\alpha,\beta)

  • α=0,β=1,C(0,1)西\alpha=0,\beta=1,我們稱C(0,1)爲標準柯西分佈.
  • f(x)=1π11+x2,xRf(x)=\frac{1}{\pi}\frac{1}{1+x^2},x\in \mathbb R
  • EX不存在
    物理學中受迫共振的微分方程的解。

10.伽馬分佈

如果隨機變量 X 的密度函數爲
f(x)=(βx)α1Γ(α)βeβxI{x&gt;0},where α&gt;0,β&gt;0f(x)=\frac{(\beta x)^{\alpha-1}}{\Gamma(\alpha)}\beta e^{-\beta x}I\{ x&gt;0\},where\ \alpha &gt;0,\beta &gt;0
則稱隨機變量XX服從參數爲(α,β)(\alpha,\beta)Γ\Gamma分佈.
記爲:XX~Γ(α,β)\Gamma(\alpha,\beta)

  • α=1\alpha = 1時, XX~e(β)e(\beta)
  • Γ(α)=0xα1exdx=(α1)Γ(α1)\Gamma(\alpha)=\int^{\infty}_0x^{\alpha-1}e^{-x}dx=(\alpha-1)\Gamma(\alpha-1)
  • EX=0(βx)αΓ(α)eβxdx=Γ(α+1)βΓ(α)=αβEX=\int^{\infty}_0\frac{(\beta x)^{\alpha}}{\Gamma(\alpha)}e^{-\beta x}dx =\frac{\Gamma(\alpha+1)}{\beta\Gamma(\alpha)}=\frac{\alpha}{\beta}
  • DX=EX2(EX)2=α2+αβ2(αβ)2=αβ2DX=EX^2-(EX)^2=\frac{\alpha^2+\alpha}{\beta^2}-(\frac{\alpha}{\beta})^{2}=\frac{\alpha}{\beta^2}
  • 獨立的指數分部之和服從伽馬分佈。

11.逆伽馬分佈

如果隨機變量 X 的密度函數爲
f(x)=βαΓ(α)x(α+1)eβxI{x&gt;0},where α&gt;0,β&gt;0f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{-\frac{\beta}{x}}I\{x&gt;0\},where\ \alpha&gt;0,\beta&gt;0
則稱隨機變量XX服從參數爲(α,β)(\alpha,\beta)的逆伽馬分佈.
記爲:XX~Γ1(α,β)\Gamma^{-1}(\alpha,\beta)

  • XX~Γ(α,β)\Gamma(\alpha,\beta)時, Y=1XY=\frac{1}{X}~Γ1(α,β)\Gamma^{-1}(\alpha,\beta)
  • EX=0xβαΓ(α)x(α+1)eβαdx=βα1EX=\int^\infty_0x \frac{\beta\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{\frac{\beta}{\alpha}}dx=\frac{\beta}{\alpha-1}
  • DX=β2(α1)2(α2)DX=\frac{\beta^2}{(\alpha-1)^2(\alpha-2)}

通常用來描述誤差分佈。

12.貝塔分佈

如果隨機變量 X 的密度函數爲
f(x)=Γ(a+b)Γ(a)Γ(b)xa1(1x)b1I{0&lt;x&lt;1},where a&gt;0,b&gt;0 f(x)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}I\{0\lt x \lt1\},where\ a&gt;0,b&gt;0

則稱隨機變量 X 服從參數爲 ( a , b ) 的β\beta分佈.
記爲XX~Be(a,b)Be(a,b)

  • 當a=1,b=1時, XX~U(0,1)U(0,1)
    beta分佈的密度函數
  • f(x)dx=1\int^\infty_{-\infty}f(x)dx=1, 01xa1(1x)b1dx=Γ(a)Γ(b)Γ(a+b)=β(a,b)\int^1_0x^{a-1}(1-x)^{b-1}dx=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}=\beta(a,b)
  • EX=0Γ(a+b)Γ(a)+Γ(b)xa(1x)b1dx=Γ(a+b)Γ(a)Γ(b)Γ(a+1)Γ(b)Γ(a+b+1)=aa+bEX=\int^\infty_0 \frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}x^a(1-x)^{b-1}dx=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)}=\frac{a}{a+b}
  • DX=ab(a+b)2(a+b+1)DX=\frac{ab}{(a+b)^2(a+b+1)}
  • beta分佈可以看作一個概率的概率分佈.
  • XX ~ Γ(α,θ)\Gamma(\alpha,\theta),YY ~ Γ(β,θ)\Gamma(\beta,\theta)獨立,則XX+Y\frac{X}{X+Y} ~ Be(α,β)Be(\alpha,\beta)

13.狄裏克萊分佈(貝塔分佈的多維形式)

P(x1,x2,,xk)=Γ(α1+α2++αk)Γ(α1)Γ(α2)Γ(αk)x1α11x2α21xkαk1,i=1kxi=1P(x_1,x_2,\dots,x_k)=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}x^{\alpha_1-1}_1x^{\alpha_2-1}_2 \cdots x^{\alpha_k-1}_k,\sum^k_{i=1}x_i=1
則稱隨機變量 XX 服從參數爲 α=(α1,&ThinSpace;,αk)(αi&gt;0)\alpha=(\alpha_1,\cdots,\alpha_k)(\alpha_i&gt;0) 的狄裏克萊分佈 .
記爲XX ~ D(k,α)D(k,\alpha)

  • 當k=2時,狄裏克萊分佈爲貝塔分佈
  • 可以描述一個多維概率的概率分佈.
  • x1α11x2α21xkαk1dx1dxk=Γ(α1)Γ(α2)Γ(αk)Γ(α1+α2++αk)\int \cdots\int x_1^{\alpha_1-1}x_2^{\alpha_2-1}\cdots x_k^{\alpha_k-1}dx_1 \cdots dx_k=\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}
  • EXi=Γ(α1+α2++αk)Γ(α1)Γ(α2)Γ(αk)Γ(α1)Γ(α2)Γ(αi+1)Γ(αk)Γ(α1+α2++αk+1)=αiα1+α2++αkEX_i=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)} \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +1) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+1)} =\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k}
  • DXi=Γ(α1)Γ(α2)Γ(αi+2)Γ(αk)Γ(α1+α2++αk+2)(αiα1+α2++αk)2=αi(αi+1)(α1+α2++αk+1)(α1+α2++αk)(αiα1+α2++αk)2DX_i = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +2) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+2)}-(\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k})^2 =\frac{\alpha_i(\alpha_i+1)}{(\alpha_1+\alpha_2+\dots+\alpha_k+1) (\alpha_1+\alpha_2+\dots+\alpha_k)}-(\frac{\alpha_i}{ \alpha_1+\alpha_2+\dots+\alpha_k })^2

14.帕累託分佈

如果隨機變量 X 的密度函數爲
f(x)=αCαxα+1I{x&gt;C},where C&gt;0,α&gt;0f(x)=\frac{\alpha C^\alpha}{x^{\alpha+1}}I\{x&gt;C\},where\ C&gt;0,\alpha&gt;0

則稱隨機變量 X 服從參數爲 (C,α)( C , \alpha ) 的 帕雷託 分佈.
記爲XX ~ Pa(C,α)Pa(C,\alpha)

  • 經濟問題 :貧與富的存在
  • 通過市場交易,20%的人將佔有80%的社會財富,如果交易可以不斷進行下去,那麼,在因和果、努力和收穫之間,普遍存在着不平衡關係.
    在這裏插入圖片描述

二. 聯合分佈,邊緣分佈,條件分佈

1.已知邊緣分佈和條件分佈

設隨機向量 X 的概率分佈爲PX(x)P_X(x),Y 在 X 下的條件分佈
PYX(yx)P_{Y|X}(y|x),則
聯合分佈:
f(x,y)=fx(x)fYX(yX),(X,Y)f(x,y) = f_x(x)f_{Y|X}(y|X),( X 連續型 , Y 連續型 )

P(xi,yi)=PX(xi)PYX(yixi),(X,Y)P(x_i,y_i)=P_X(x_i)P_{Y|X}(y_i|x_i),( X 離散型 , Y 離散型 )

P(xi,yi)=PX(xi)fYX(yxi),(Y,X)P(x_i,y_i)=P_X(x_i)f_{Y|X}(y|x_i),(Y連續型,X離散型)

P(xi,yi)=fX(x)PYX(yix),(X,Y)P(x_i,y_i)=f_X(x)P_{Y|X}(y_i|x),(X連續型,Y離散型)

2.已知聯合分佈

設隨機向量 ( X , Y ) 的聯合分佈爲 P ( x , y ), 則

  • 邊緣分佈:
    PX(x)=p(x,y)dy,(Y)P_X(x)=\int^\infty_{-\infty}p(x,y)dy,(Y連續型)

PX(x)=ip(x,yi),(Y)P_X(x)=\sum_ip(x,y_i),(Y離散型)

  • 條件分佈:
    PYX(yx)=p(x,y)pX(x),(Y)P_{Y|X}(y|x)=\frac{p(x,y)}{p_X(x)},(Y連續型)

PYX(yix)=p(x,yi)pX(x),(Y)P_{Y|X}(y_i|x) =\frac{p(x,y_i)}{p_X(x)},(Y離散型)

三.基本概念

1.指數族:

p(x,θ)=C(θ)exp{i=1kθiTi(x)}h(x)p(x,\theta)=C(\theta)exp\{\sum^k_{i=1}\theta_iT_i(x)\}h(x)
標準形式:
見<<高等數理統計shaojun>>

2.充分統計量:

有分佈族{p(x,θ),θΘ}\{p(x,\theta),\theta\in \Theta \},
若在已知統計量 T 的條件下 , 樣本 X 的條件分佈與 θ\theta 無關,則稱 T 爲參數 θ\theta 的充分統計量.

3.因子分解定理:

有分佈族{p(x,θ),θΘ}\{p(x,\theta),\theta\in \Theta \}, 以及統計量:T=T(x)
p(x,θ)p ( x , \theta ) 能夠分解成
p(x,θ)=g(T(x),θ)h(x)p ( x , \theta ) = g ( T ( x ), \theta ) h ( x )
則 T 爲參數 θ\theta 的充分統計量。

4.完備統計量:

有分佈族{p(x,θ),θΘ}\{p(x,\theta),\theta\in \Theta \}, 以及統計量:T=T(x),
若對φ( T(x) )\forall \varphi(\ T(x)\ )滿足, Eθ(φ( (T(x) )=0E_\theta (\varphi(\ (T(x)\ )=0,都有
Pθ(φ(T(X))=0)=1P_\theta (\varphi (T(X))=0)=1

5.完全統計量判定:

若樣本 X=(X1,X2,&ThinSpace;,Xn)X = ( X_1 , X_2 ,\cdots , X_n ) 的分佈族:{p(x,θ),θΘ}\{p(x,\theta),\theta\in \Theta \},
P(x,θ)=C(θ)exp{i=1kθiTi(x)}h(x)P(x,\theta)=C(\theta)exp\{ \sum^k_{i=1}\theta_iT_i(x) \}h(x)
統計量: T=( T1(x),T2(x),&ThinSpace;,Tk(x) )T=(\ T_1(x),T_2(x),\cdots,T_k(x) \ ), 且參數空間 Θ\Theta有內點,則T爲參數θ\theta的完全統計量
看<<高等數理統計 shaojun>><<參數統計教程韋博成>>

6.UMVUE:

樣本X=(X1,X2,&ThinSpace;,Xn)X=(X_1,X_2,\cdots,X_n),
分佈族:{p(x,θ),θΘ}\{p(x,\theta),\theta\in \Theta \},
可估函數:g(θ)g(\theta),
g^(X)\hat g^*(X)g(θ)g(\theta)的一個無偏估計量,若對g(θ)g(\theta)的任意無偏估計g^(X)\hat g(X)都有:
Dg^(X)Dg^(X)D \hat g^*(X) \le D \hat g(X)
則稱g^(X)g(θ)UMVUE\hat g^*(X)是g(\theta)的UMVUE

7.L-S定理:

樣本X=(X1,X2,&ThinSpace;,Xn)X=(X_1,X_2,\cdots,X_n),
分佈族:{p(x,θ),θΘ}\{p(x,\theta),\theta\in \Theta \},
可估函數:g(θ)g(\theta),
統計量 T (X ) 是一個充分完備統計量.
g^(T(X))\hat g( T ( X ))是 g ( \theta ) 的 一個無偏估計量,
g^(T(X))\hat g(T(X))g(θ)g(\theta)唯一的UMVUE

8.C-R不等式:

樣本X=(X1,X2,&ThinSpace;,Xn)X=(X_1,X_2,\cdots,X_n),
分佈族:{p(x,θ),θΘ}\{p(x,\theta),\theta\in \Theta \},
可估函數:g(θ)g(\theta),
g^(T(X))\hat g( T ( X ))g(θ)g ( \theta ) 的 一個無偏估計量,
假設 p(x,θ\theta)滿足正則性條件:

  • 1). {xp(x,θ)&gt;0}θ\{ x|p(x,\theta)&gt;0 \}與\theta無關
  • 2). p(x,θ)θp(x,\theta)關於\theta可導
  • 3). p(x,θ)θ有關p(x,\theta)關於\theta求導和積分可換序
    則有Varθ(g^(X))(g(θ))2nI(θ)(=(g(θ)I1(θ)(g(θ)Tn)Var_\theta (\hat g(X)) \ge \frac{(g`(\theta))^2}{nI(\theta)}\left( =\frac{(g`(\theta)I^{-1}(\theta)(g`(\theta)^T}{n} \right)
    I(θ)=E(lnp(x,θ)θ)2I(\theta)=E(\frac{\partial lnp(x,\theta)}{\partial \theta})^2爲參數θ\theta的信息量
    如果 DT=(g(θ))2nI(θ),(q(θ)=θ,DT=1nI(θ))T(X1,X2,&ThinSpace;,Xn)g(θ)DT=\frac{(g`(\theta))^2}{nI(\theta)},(當q(\theta)=\theta時,DT=\frac{1}{nI(\theta)})則稱T(X_1,X_2,\cdots,X_n)爲g(\theta)的有效估計量]

9.N-P引理

10.N-P引理推廣

第二章.先驗分佈的選取

一.古典學派和貝葉斯學派

  • 古典統計學派: 堅持概率的頻率解釋, 把未知參數看成一個固定的未知量!
    統計推斷的信息量: 總體信息和樣本信息
    缺點: 需要大量重複試驗

  • 貝葉斯學派: 堅持先給定先驗概率, 把未知參數用一個概率分佈描述!
    統計推斷的信息量: 總體信息,樣本信息及先驗信息
    缺點: 先驗信息主觀性比較強

二.貝葉斯統計的基本概念

設總體 X 的概率函數爲 p(xθ)p ( x | \theta )( 分佈律或密度函數 ) ,
樣本: X1,X2,...,Xn, θX_1 , X_2 ,..., X_n ,\ \theta 是未知參數。

1).參數的先驗分佈: π(θ)\pi (\theta)

  • θ\theta 是離散型隨機變量時:
    π(θi)=P(θ=θi)\pi(\theta_i)=P(\theta=\theta_i)
  • θ\theta 是連續型隨機變量時:
    π(θ)θ\pi(\theta)表示參數\theta 概率密度函數

2).參數的後驗分佈:π(θx1,x2,&ThinSpace;,xn)\pi(\theta|x_1,x_2,\cdots, x_n)

在給定X1=x1,&ThinSpace;,Xn=xnX_1=x_1,\cdots,X_n=x_n條件下,
θπ(θx1,x2,&ThinSpace;,xn)\theta的條件分佈\pi(\theta|x_1,x_2,\cdots, x_n)

三.後驗分佈的計算

  • 樣本的條件分佈爲:

p(x1,x2,&ThinSpace;,xnθ)=i=1np(xiθ)p(x_1,x_2,\cdots,x_n|\theta)=\prod^n_{i=1}p(x_i|\theta)

  • 樣本與參數的聯合分佈爲:

h(x1,x2,&ThinSpace;,xn,θ)=π(θ)p(x1,x2,&ThinSpace;,xnθ)h( x_1 , x_2 , \cdots, x_n , \theta ) =\pi ( \theta ) p ( x_1 , x_2 , \cdots, x_n | \theta )

  • 樣本邊緣分佈爲:

m(x1,x2,&ThinSpace;,xn)=Θh(x1,x2,&ThinSpace;,xn,θ)dθm(x_1,x_2,\cdots,x_n)=\int_\Theta h(x_1,x_2,\cdots,x_n,\theta)d\theta
則有後驗分佈:
1).連續型
π(θx1,x2,&ThinSpace;,xn)=h(x1,x2,&ThinSpace;,xnθ)m(x1,x2,&ThinSpace;,xn)=π(θ)p(x1,x2,&ThinSpace;,xnθ)Θπ(θ)p(x1,x2,&ThinSpace;,xnθ)dθ\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{h(x_1,x_2,\cdots,x_n|\theta)}{m(x_1,x_2,\cdots,x_n)} \\ =\frac{\pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)}{\int_\Theta \pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)d\theta}

2).離散型
π(θx1,x2,&ThinSpace;,xn)=π(θk)p(x1,x2,&ThinSpace;,xnθk)iπ(θi)p(x1,x2,&ThinSpace;,xnθi)\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{\pi(\theta_k)p(x_1,x_2,\cdots,x_n|\theta_k)}{\sum_i\pi(\theta_i)p(x_1,x_2,\cdots,x_n|\theta_i)}

在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述

四.先驗分佈函數形式的確定

1.專家意見
2.歷史資料
3.相對似然法
4.直方圖法
5.定分度法和變分度法
6.樣本邊緣分佈最大似然先驗

  • 例題1
    XX~e(θ)e(\theta) 樣本X1,X2,&ThinSpace;,Xn,θX_1,X_2,\cdots,X_n, \theta~ e(λ)e(\lambda)
    解:
    π(θ)=λeλθ\pi (\theta)=\lambda e^{-\lambda \theta}

p(x1,&ThinSpace;,xnθ)=θneθi=1nxip(x_1,\cdots,x_n|\theta)=\theta^{-n}e^{-\theta \sum^n_{i=1}x_i}

p(x1,&ThinSpace;,xn,θλ)=λθneθ(λ+i=1nxi)p(x_1,\cdots,x_n,\theta|\lambda)=\lambda \theta^n e^{-\theta (\lambda+\sum^n_{i=1}x_i)}

p(x1,&ThinSpace;,xnλ)=p(x1,&ThinSpace;,xn)p(θ)dθ=λθnexp(θ(λ+i=1nxi))dθ=λn!(λ+i=1nxi)n+1p(x_1,\cdots,x_n|\lambda)=\int p(x_1,\cdots,x_n)p(\theta)d\theta=\int \lambda\theta^n exp(-\theta (\lambda + \sum^n_{i=1}x_i))d\theta \\ =\lambda \frac{n!}{(\lambda+\sum^n_{i=1}x_i)^{n+1}}

lnp(x1,&ThinSpace;,xnλ)=lnλ+lnn!(n+1)ln(λ+i=1nxi)lnp(x_1,\cdots,x_n|\lambda) = ln\lambda+lnn!-(n+1)ln(\lambda+\sum^n_{i=1}x_i)

dlnp(x1,&ThinSpace;,xnλ)dλ=1λ(n+11λ+i=1nxi)=0令\frac{dlnp(x_1,\cdots,x_n|\lambda)}{d\lambda}=\frac{1}{\lambda}-(n+1\frac{1}{\lambda+\sum^n_{i=1}x_i})=0
求出極大似然估計 λ^=Xˉ\hat \lambda=\bar X

五.超參數的確定

若先驗分佈的形式確定,但分佈中含有未知參數(超參數)

1.先驗分佈具有明確的意義或信息

例子1 θ\theta~N(μ,σ2)N(\mu,\sigma^2)
在這裏插入圖片描述

2.利用邊緣分佈確定超參數(矩估計和MLE)

已知總體X~P(x|θ\theta) , θ\theta ~ π(θλ)\pi(\theta|\lambda) λ\lambda是超參數
在這裏插入圖片描述

六.無信息先驗分佈

1.貝葉斯假設

  • 離散均勻分佈:θ,θ1,&ThinSpace;,θn,P(θ=θi)=1n\theta可能取值有限, \theta_1,\cdots,\theta_n,P(\theta=\theta_i)=\frac{1}{n}
  • 有限區間上的均勻分佈:θ\theta~U[a,b]U[a,b]
  • 廣義先驗分佈:θ(,),θ滿:\theta \in (-\infty,\infty),\theta的先驗分佈滿足:
  • 1.π(θ)0,π(θ)dθ=\pi(\theta)\ge0,\int^\infty_{-\infty}\pi(\theta)d\theta=\infty
  • 2.π(θx)\pi(\theta|x)是正常的密度函數
    . 若π(θ),cπ(θ)\pi(\theta)是廣義先驗,則c\pi(\theta)也是廣義先驗
    π(θx)=h(x,θ)m(x)=p(xθ)π(θ)p(xθ)π(θ)dθ\pi(\theta|x)=\frac{h(x,\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int p(x|\theta)\pi(\theta)d\theta}
    π(θx)dθ=1\int \pi(\theta|x)d\theta=1

2. 位置參數的無信息先驗

<<貝葉斯分析>>P49P_{49}
位置參數族:平移變換下的不變性
π(θ)=1\pi(\theta)=1

例1
在這裏插入圖片描述例2

在這裏插入圖片描述

3.尺度參數的無信息先驗

尺度參數族舉例:

  • p(xσ)=12πσ2ex22σ2p(x|\sigma)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{x^2}{2\sigma^2}}
  • p(xβ)=1πβ11+(xβ)2p(x|\beta)=\frac{1}{\pi \beta}\frac{1}{1+(\frac{x}{\beta})^2}
  • p(xλ)=1λexλ,x&gt;0p(x|\lambda)=\frac{1}{\lambda}e^{\frac{x}{\lambda}},x \gt 0

尺度參數族:尺度變換下的不變性<<貝葉斯分析>>P51P_{51}

{f(x,θ)1θf(xθ),θR+}\{f(x,\theta) \to \frac{1}{\theta}f(\frac{x}{\theta}), \theta \in \Bbb R^+ \}

π(σ)=1σ\pi(\sigma)=\frac{1}{\sigma}:

Y=cX,(cR+)Y=cX,(c \in \Bbb R^+)
fY(y)=1cθf(ycθ)f_Y(y)=\frac{1}{c\theta}f(\frac{y}{c\theta})
η=cθ\eta = c\theta
fY(y)=1ηf(yη)f_Y(y)=\frac{1}{\eta}f(\frac{y}{\eta})

ση.:\sigma的無信息先驗與\eta的無信息先驗應當相同.有:
(3.1)π(τ)=π(τ)\pi(\tau) = \pi^*(\tau)\tag{3.1}
其中π(τ)η\pi^*(\tau)爲\eta的先驗分佈,另一方面,由變換η=cσ,η\eta=c\sigma,可知\eta的無信息先驗爲:
(3.2)π(η)=π(σ)σ=ηcdσdη=1cπ(ηc)\pi^*(\eta)=\pi(\sigma)|_{\sigma=\frac{\eta}{c}}\cdot|\frac{d\sigma}{d\eta}|=\frac{1}{c}\pi(\frac{\eta}{c})\tag{3.2}
比較(3.1)和(3.2)得:
π(η)=π(η)=1cπ(ηc)\pi(\eta)=\pi^*(\eta)=\frac{1}{c}\pi(\frac{\eta}{c})
η=c,:\eta=c,有:
π(c)=1cπ(1)\pi(c)=\frac{1}{c}\pi(1)
爲方便計算, 令π(1)=1\pi(1)=1,由c的任意性,可得σ\sigma的無信息先驗爲:
π(σ)=1σ,(σ&gt;0)\pi(\sigma)=\frac{1}{\sigma},(\sigma \gt 0)

在這裏插入圖片描述在這裏插入圖片描述

4.一般情況:Jeffreys無信息先驗

π(θ)=I(θ)1/2\pi(\theta)=|I(\theta)|^{1/2}"| |"表示行列式
在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述

七.共軛先驗分佈

1.共軛先驗分佈

Fθπ(θ),πF,π(θx)F,F.設\mathscr F表示\theta的先驗分佈\pi(\theta)構成的分佈族,如果取的\pi \in \mathscr F,後驗分佈\pi(\theta|x)\in \mathscr F,那麼稱\mathscr F是一個共軛先驗分佈.(先驗分佈和後驗分佈同一個分佈族)

  • 二項分佈,其參數的共軛分佈族是貝塔分佈.

在這裏插入圖片描述

  • 方差已知的正態分佈,均值的共軛分佈族是正態分佈族.
    在這裏插入圖片描述
  • 泊松分佈, 參數的共軛分佈族是伽馬分佈.
    在這裏插入圖片描述

2.求共軛先驗分佈

  • 指數分佈,參數的共軛分佈族是伽馬分佈.
    在這裏插入圖片描述

  • -均值已知的正態分佈, 方差的共軛分佈族是逆伽馬分佈.
    在這裏插入圖片描述

八.多層先驗分佈

當先驗分佈中的超參數無法確定時,可以對超參數再給出一個先驗
分佈,這個給出的第二個先驗就是超先驗。
設參數 θ\theta 的先驗分佈是 π1(θλ)\pi_1(\theta|\lambda) ,其中 λ\lambda 是超參數給出超參數λ\lambda的超先驗分佈π2(λ)\pi_2(\lambda)則有 θ\thetaλ\lambda 的聯合分佈式是:
π1(θλ)π2(λ)\pi_1(\theta|\lambda)\pi_2(\lambda)
參數 θ\theta 的先驗分佈是:
π(θ)=π1(θλ)π2(λ)dλ\pi(\theta)=\int \pi_1(\theta| \lambda)\pi_2(\lambda)d\lambda
以此類推,可以得到三層以致多層先驗.

在這裏插入圖片描述

後驗分佈與充分性

  • 定義:設總體 X 的分佈函數爲 F(x,θ)F ( x , \theta ) , 樣本: X1,X2,...,XnX_1 , X_2 ,..., X_n,統計量 T(X1,X2,...,Xn)T ( X_1 , X_2 ,..., X_n ). 若給定 T 後,  X1,X2,...,XnX_1 , X_2 ,..., X_n 的條件分佈與參數 θ\theta 無關, 則稱統計量 T(X1,X2,...,Xn)T ( X_1 , X_2 ,..., X_n )θ\theta充分統計量.

  • 因子分解定理:
    T=T(x1,x2,&ThinSpace;,xn)T=T(x_1,x_2,\cdots,x_n)是一個充分統計量的充要條件是對任一的θ\theta,存在兩個函數g(t,θ)g(t,\theta)h(x1,x2,&ThinSpace;,xn)h(x_1,x_2,\cdots,x_n),有:
    p(x1,x2,&ThinSpace;,xn,θ)=g(T(x1,x2,&ThinSpace;,xn),θ)h(x1,x2,&ThinSpace;,xn)p(x_1,x_2,\cdots,x_n,\theta)=g\left( T(x_1,x_2,\cdots,x_n),\theta \right)h(x_1,x_2,\cdots,x_n)

  • 後驗分佈引理
    Γ\Gamma 是未知參數 θ\theta 的先驗分佈類 π(θ)Γ\pi(\theta) \in \Gamma , 若 Γ\Gammaθ\theta 的充分統計量,則對 πΓ\forall \pi \in \Gamma ,有:
    π(θx)=π~(θt)\pi(\theta|x)=\tilde \pi(\theta|t)
    證明:
    設 T 的概率函數爲: q(tθ)q(t|\theta),
    由充分統計量的定義: pXT(xt)=p(xθ)q(tθ)=C(x)p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x)
    p(xθ)=q(tθ)C(x)p(x|\theta)=q(t|\theta)C(x)
    由因子分解定理有:p(xθ)=g(t,θ)h(x),q(tθ)g(tθ)p(x|\theta)=g(t,\theta)h(x), q(t|\theta) \propto g(t|\theta)

π(θx)=h(x,θ)m(x)=π(θ)p(xθ)π(θ)p(xθ)dθ=π(θ)q(tθ)C(x)π(θ)q(tθ)C(x)dθ=π(θ)q(tθ)π(θ)q(tθ)dθ=π~(θt) \begin{aligned} \pi(\theta|x) &amp; =\frac{h(x,\theta)}{m(x)}\\ &amp; =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta} \\ &amp;=\frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ &amp; =\frac{\pi(\theta)q(t|\theta)}{\int \pi(\theta)q(t|\theta)d\theta}\\ &amp; =\tilde \pi(\theta|t) \end{aligned}
在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述

回顧充分統計量

因子分解定理

後驗分佈引理

Γ\Gamma 是未知參數 θ\theta 的先驗分佈類 π(θ)Γ\pi(\theta)\in \Gamma , 若 T 是 θ\theta的充分統計量,則對 πΓ\forall \pi \in \Gamma , 有:
π(θx)=π~(θt)\pi(\theta|x)=\tilde \pi(\theta|t)
證明:
設T的概率函數爲q(tθ)q(t|\theta),
由充分統計量 pXT(xt)=p(xθ)q(tθ)=C(x)p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x)
由因子分解定理 p(xθ)=g(tθ)h(x),q(tθ)g(tθ)p(x|\theta)=g(t|\theta)h(x),q(t|\theta) \propto g(t|\theta)
p(xθ)=q(tθ)C(x)p(x|\theta)=q(t|\theta)C(x)
π(θx)=h(x,θ)m(x)=π(θ)p(xθ)π(θ)p(xθ)dθ=π(θ)q(tθ)C(x)π(θ)q(tθ)C(x)dθ=π(θ)q(tθ)π(θ)q(tθ)dθ=π~(θt)\begin{aligned} \pi(\theta|x)=\frac{h(x,\theta)}{m(x)} &amp; =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta}\\ &amp; = \frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ &amp; = \frac{\pi(\theta)q(t|\theta)}{\int \pi (\theta) q(t|\theta )d\theta}\\ &amp; = \tilde \pi(\theta|t) \end{aligned}

Reference先驗

KL散度定義:

設兩個概率分佈P(x),q(x),KL距離(散度)爲,
KL(p(x),q(x))=ln(p(x)q(x))p(x)dx=Ep(ln(p(x)q(x)))KL(p(x),q(x))=\int ln(\frac{p(x)}{q(x)})p(x)dx=E_p(ln(\frac{p(x)}{q(x)}))
即連續型隨機變量相對熵.

顯然:

  • 1).KL(p(x),q(x)) !=KL(q(x),p(x))KL(p(x),q(x)) \ != KL(q(x),p(x))
  • 2).KL(p(x),q(x))0KL(p(x),q(x))\ge 0

Ep(lnp(x)q(x))=Ep(lnq(x)p(x))lnEp(q(x)p(x))E_p(-ln\frac{p(x)}{q(x)})=E_p(ln\frac{q(x)}{p(x)}) \le lnE_p(\frac{q(x)}{p(x)})
lnEp(q(x)p(x))=ln(q(x)p(x))p(x)dx=0lnE_p(\frac{q(x)}{p(x)})=ln\int(\frac{q(x)}{p(x)})p(x)dx=0

Reference先驗

Iπ(θ)(θ,x)=Xp(x)[Θπ(θx)lnπ(θx)π(θ)dθ]dx=EX(KL(π(θ,x),π(θ)))\begin{aligned} I_{\pi(\theta)}(\theta,x) &amp; =\int_Xp(x)[\int_\Theta\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}d\theta]dx \\ &amp; = E_X(KL(\pi(\theta,x),\pi(\theta))) \end{aligned}
其中p(x)爲樣本X的邊緣分佈.若π(θ)\pi^*(\theta)滿足:
Iπ(θ)(θ,x)=maxπ(θ){Iπ(θ)(θ,x)}I_{\pi^*(\theta)}(\theta,x)=\max_{\pi(\theta)} \{ I_{\pi(\theta)}(\theta,x) \}
則稱π(θ)=argmaxπ(θ){Iπ(θ)(θ,x)}θReference\pi^*(\theta)=arg\max_{\pi(\theta)}\{ I_{\pi(\theta)}(\theta,x) \}爲參數\theta的Reference先驗

積分換序:
Iπ(θ)(θ,x)=Θ[Xp(x)π(θx)lnπ(θx)π(θ)dx]dθ=Θπ(θ)[Xp(xθ)(lnπ(θx)ln(π(θ)))dx]dθ=Θπ(θ)[Xp(xθ)(lnπ(θx)dxXp(xθ)ln(π(θ))dx]dθ \begin{aligned} I_{\pi(\theta)}(\theta,x) &amp;=\int_\Theta[\int_Xp(x)\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}dx]d\theta \\ &amp;=\int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)-ln(\pi(\theta)))dx]d\theta \\ &amp; = \int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)dx-\int _X p(x|\theta)ln(\pi(\theta))dx]d\theta \end{aligned}
Iπ(θ)(θ,x)=Θπ(θ)[Xp(xθ)(lnπ(θx)dxXp(xθ)ln(π(θ))dx]dθI_{\pi(\theta)}(\theta,x) = \int_\Theta \pi(\theta)[\underbrace{\int_X p(x|\theta)(ln\pi(\theta|x)dx}-\int _X p(x|\theta)ln(\pi(\theta))dx]d\theta
lnfn(θ)=Xp(xθ)lnπ(θx)dxlnf_n(\theta)=\int_X p(x|\theta)ln\pi(\theta|x)dx
Iπ(θ)(θ,x)=Θπ(θ)lnfn(θ)π(θ)dθI_{\pi(\theta)}(\theta,x)=\int_\Theta \pi(\theta)ln\frac{f_n(\theta)}{\pi(\theta)}d\theta
π(θ)=limnfn(θ)fn(θ0)\pi^*(\theta)=\lim_{n\to \infty}\frac{f_n(\theta)}{f_n(\theta_0)}
其中θ0\theta_0是參數空間Θ\Theta的一個內點.
參考<<貝葉斯分析P65>>

Reference先驗計算

二維參數爲例子:分佈族 p(xθ,λ)p(x|\theta,\lambda) ,樣本爲X1,X2,&ThinSpace;,XnX_1,X_2,\cdots,X_n
參數信息陣:
I(θ,λ)=[I11(θ,λ)  I12(θ,λ)I21(θ,λ)  I22(θ,λ)]I(\theta,\lambda)=\begin{bmatrix} I_{11}(\theta,\lambda) \ \ I_{12}(\theta,\lambda) \\ I_{21}(\theta, \lambda) \ \ I_{22}(\theta, \lambda) \end{bmatrix}

  • 1).固定θ\theta,獲得先驗分佈:π(λθ)=I221/2(θ,λ)\pi(\lambda|\theta) = I^{1/2}_{22}(\theta,\lambda)
  • 2).如果π(λθ),\pi(\lambda|\theta)是正常先驗分佈,直接消參數:
    p(xθ)Xp(xθ,λ)π(λθ)dλp(x|\theta)\int_X p(x|\theta,\lambda)\pi(\lambda|\theta)d\lambda
  • 3).根據p(xθ),θπ(θ)p(x|\theta),確定\theta的先驗分佈\pi(\theta)
  • 4).獲得聯合先驗分佈:
    π(θ,λ)=π(θ)π(λθ)\pi(\theta,\lambda)=\pi(\theta)\pi(\lambda|\theta)
    如果π(λθ)\pi(\lambda|\theta)是非正常先驗分佈集:
  • (1.劃分出λ\lambda的逼近閉參數空間
    Θ1Θ2Θk&ThinSpace;,kΘk=Θ\Theta_1 \subset \Theta_2 \subset \cdots \subset \Theta_k \cdots, \cup_k \Theta_k = \Theta
  • (2.在Θ,πk(λθ),πk(λθ)=Ak(θ)π(λθ),Ak(θ)=1Θkπ(λθ)dλ\Theta上,確定\pi_k(\lambda|\theta)是正常先驗分佈,\pi_k(\lambda|\theta)=A_k(\theta)\pi(\lambda|\theta),A_k(\theta)=\frac{1}{\int_{\Theta_k}\pi(\lambda|\theta)d\lambda}按照前面步驟二,確定πk(θ)\pi_k(\theta)
    πk(θ)=exp{12Θkπk(λθ)lnI(λ,θ)I22(λ,θ)dλ}\pi_k(\theta)=exp\{ \frac{1}{2} \int_{\Theta_k} \pi_k(\lambda|\theta) ln\frac{|I(\lambda,\theta)|}{|I_{22}(\lambda,\theta)|} d\lambda\}
  • (3. π(θ,λ)=limkAk(θ)πk(θ)Ak(θ0)πk(θ0)π(θλ)\pi(\theta,\lambda)=lim_{k \to \infty}\frac{A_k(\theta)\pi_k(\theta)}{A_k(\theta_0)\pi_k(\theta_0)}\pi(\theta|\lambda)
    如果參數維數多於二維 ,類似二維多次循環進行
    π(θ1,θ2,&ThinSpace;,θk)=π(θ1)π(θ2θ1)π(θkθ1,θ2,&ThinSpace;,θk1)\pi(\theta_1,\theta_2,\cdots,\theta_k)=\pi(\theta_1)\pi(\theta_2|\theta_1)\pi(\theta_k|\theta_1,\theta_2,\cdots,\theta_{k-1})

在這裏插入圖片描述在這裏插入圖片描述

最大熵先驗

定義1: 設θ\theta爲離散型隨機變量 , 分佈律爲:p(θ=θi)=pi,i=1,2,p(\theta=\theta_i)=p_i,i=1,2,\cdots
則稱 E(p)=ipilnpiE(p)=-\sum_ip_ilnp_i
爲隨機變量的熵函數.
H(x,y)=H(x)+H(y)H(x,y)=H(x)+H(y)
P(x,y)=P(x)P(y)P(x,y) = P(x)P(y)
H(x)=lnp(x)H(x)=-lnp(x)

  • 1).p0p1,plnp0p\to 0或p\to1是,有-plnp \to 0
  • 2).i=1npi=1,p1=p2==pni=1npilnpi.\sum^n_{i=1}p_i=1時,當p_1=p_2=\cdots=p_n有-\sum^n_{i=1}p_ilnp_i最大.

連續性:
E(π)=π(θ)lnπ(θ)π0(θ)dθE(\pi)=-\int \pi(\theta)ln\frac{\pi(\theta)}{\pi_0(\theta)}d\theta
π0(θ)\pi_0(\theta)是不變的無信息先驗

定理1(離散型):

θ,θi,i=1,2,&ThinSpace;,滿:設\theta爲離散型隨機變量, \theta_i,i=1,2,\cdots,滿足條件:
Eπ(gk(θ))=igk(θi)π(θi)=μk,k=1,2,&ThinSpace;,mE^\pi(g_k(\theta))=\sum_ig_k(\theta_i)\pi(\theta_i)=\mu_k,k=1,2,\cdots,m
gk(),μk(k=1,&ThinSpace;,m).iπ(θi)=1.其中g_k(\cdot),\mu_k(k=1,\cdots,m)分別表示已知的函數和已知的常數.同時還有隱藏條件\sum_i \pi(\theta_i)=1.
則滿足條件的最大熵先驗爲:
πˉ(θi)=exp{k=1mλkgk(θi)}iexp{k=1mλkgk(θi)}\bar \pi(\theta_i)=\frac{exp\{ \sum^m_{k=1} \lambda_kg_k(\theta_i) \}}{\sum_iexp\{ \sum^m_{k=1} \lambda_k g_k(\theta_i) \}}
λkπˉ(θ)滿.其中\lambda_k是保證\bar \pi(\theta)滿足約束條件的常數.

在這裏插入圖片描述

定理2(連續型):

θ,θi,i=1,2,&ThinSpace;,滿:設\theta爲連續型隨機變量, \theta_i,i=1,2,\cdots,滿足條件:
Eπ(gk(θ))=igk(θ)π(θ)dθ=μk,k=1,2,&ThinSpace;,mE^\pi(g_k(\theta))=\int_i g_k(\theta)\pi(\theta)d\theta=\mu_k,k=1,2,\cdots,m
gk(),μk(k=1,&ThinSpace;,m).iπ(θi)=1.其中g_k(\cdot),\mu_k(k=1,\cdots,m)分別表示已知的函數和已知的常數.同時還有隱藏條件\sum_i \pi(\theta_i)=1.
則滿足條件的最大熵先驗爲:
πˉ(θi)=π0(θ)exp{k=1mλkgk(θ)}Θπ0(θ)exp{k=1mλkgk(θ)}dθ\bar \pi(\theta_i)=\frac{\pi_0(\theta) exp\{ \sum^m_{k=1} \lambda_kg_k(\theta) \}}{\int_{\Theta} \pi_0(\theta)exp\{ \sum^m_{k=1} \lambda_k g_k(\theta) \}d\theta}
λkπˉ(θ)滿.其中\lambda_k是保證\bar \pi(\theta)滿足約束條件的常數.

在這裏插入圖片描述

第三章:貝葉斯統計推斷

點估計

已知總體X參數的後驗分佈:π(θx1,&ThinSpace;,xn)\pi(\theta|x_1,\cdots,x_n)

1).最大後驗估計:

也稱後驗衆數估計,後驗極大似然估計:
π(θx1,x2,&ThinSpace;,xn)\pi(\theta|x_1,x_2,\cdots,x_n)

最大值點θ^MD\hat \theta_{MD}.

即,將後驗分佈求其似然函數的最大值(MLE).

2).後驗中位數估計:θ^ME\hat \theta_{ME}

P(θ&gt;θ^x1,x2,&ThinSpace;,xn)=P(θ&lt;θ^x1,x2,&ThinSpace;,xn)P(\theta &gt; \hat \theta|x_1,x_2,\cdots,x_n)=P(\theta&lt;\hat \theta|x_1,x_2,\cdots,x_n)

3).後驗期望估計:

θ^=E(θx1,x2,&ThinSpace;,xn)=θ^E\hat \theta=E(\theta|x_1,x_2,\cdots,x_n)=\hat \theta_E

點估計的誤差估計

  • 後驗分佈:π(θx1,&ThinSpace;,xn).:θ^=δ(x1,&ThinSpace;,xn)\pi(\theta|x_1,\cdots,x_n).貝葉斯估計:\hat \theta =\delta(x_1,\cdots,x_n)
  • 後驗均方誤差:
    PMSE(δ(x))=Eθx(θδ(x1,x2,&ThinSpace;,xn))2PMSE(\delta(x))=E_{\theta|x}(\theta-\delta(x_1,x_2,\cdots,x_n))^2
    該值越小越好
    θ^=θ^E,θ^=Eθx(θ)當\hat \theta=\hat \theta_E,即\hat \theta=E_{\theta|x}(\theta)
    PMSE(θ^E)=Eθx(θθ^E)2=Dθx(θ)=V(x)PMSE(\hat \theta_E)=E_{\theta|x}{(\theta-\hat \theta_E)}^2=D_{\theta|x}(\theta)=V(x)
    後驗均值估計使得後驗均方誤差達到最小.

區間估計

θπ(θx),xx1α,θ^1(x),θ^2(x),已知 \theta 的後驗分佈 \pi ( \theta | x ), 對於給定的樣本x和x 和概率 1-\alpha,若存在兩個統計量\hat \theta_1( x ), \hat \theta_2 ( x ) ,有
P(θ^1(x))θθ^2(x)x)1αP(\hat \theta_1(x)) \le \theta \le \hat \theta_2(x)|x) \ge 1-\alpha

則稱置信水平爲1-\alpah的可信區間: [θ^1(x),θ^2(x)],[\hat \theta_1(x), \hat \theta_2(x)],
P(θ^L(x)θx)1αP(\hat\theta_L(x)\le\theta|x)\ge1-\alpha:
則稱置信下限爲:θ^L(x)\hat\theta_L(x)
P(θθ^U(x)x)1αP(\theta\le\hat\theta_U(x)|x)\ge 1-\alpha
則稱可信上仙爲:θ^U(x)\hat\theta_U(x)

最大後驗密度可信區間(HPD)

1.定義(最大後驗密度可信集):

X~f(xθ)f(x|\theta),樣本:X1,X2,&ThinSpace;,Xn,θπ(θx),1α,(0&lt;α&lt;1),C滿:X_1,X_2,\cdots,X_n,\theta的後驗分佈\pi(\theta|x),給定概率1-\alpha,(0&lt;\alpha&lt;1),集合C滿足如下條件:

  • P(θC)=1αP(\theta\in C)=1-\alpha
  • θ1C,θ2C,π(θ1x)&gt;π(θ2x)Cθ1α.對任意的\theta_1\in C,\theta_2 \notin C,總有\pi(\theta_1|x)&gt;\pi(\theta_2|x)則稱C爲\theta的置信水平爲1-\alpha最大後驗密度可信集.

2.大樣本方法

X~f(xθ),:X1,X2,&ThinSpace;,Xn,θπn(θx),μπ(x)=E(θx),Vπ(x),n,:f(x|\theta),樣本:X_1,X_2,\cdots,X_n,\theta的後驗分佈\pi_n(\theta|x),\mu^\pi(x)=E(\theta|x),V^\pi(x),當n比較大時,近似的有:

  • 1).θμπ(x)\theta-\mu^\pi(x)~N(0,Vπ(x))N(0,V^\pi(x))
    (θμπ(x))T(Vπ(x))1(θμπ(x))\to (\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x))~χ2(p)\chi^2(p)
  • 2).θ{θ(θμπ(x))T(Vπ(x))1(θμπ(x))χα2(p)}\theta \to \{ \theta|(\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x)) \le \chi^2_\alpha(p) \}

預測推斷

1.問題提出

  • 1).X~ f(xθ),:X1,X2,&ThinSpace;,Xn,f(x|\theta),樣本:X_1,X_2,\cdots,X_n,Z~g(zθ),g(z|\theta),推斷未觀察值Z0Z_0
    Z ~ g(zθ)g(z|\theta)~g(zθ,x)g(z|\theta,x)

  • 2).XX~f(xθ),:X1,X2,&ThinSpace;,Xn,X0f(x|\theta), 樣本:X_1,X_2,\cdots,X_n,推斷未觀測值X_0

2.定義

設X~f(xθ),:X1,X2,&ThinSpace;,Xn,θπ(θ),θπ(θx),Zf(x|\theta), 樣本:X_1,X_2,\cdots,X_n, \theta的先驗分佈\pi(\theta),\theta的後驗分佈\pi(\theta|x),Z ~ g(zθ),Z0g(z|\theta),定義Z_0的後驗預測密度爲:
P(z0x1,&ThinSpace;,xn)=g(z0θ)π(θx1,&ThinSpace;,xn)dθP(z_0|x_1,\cdots,x_n)=\int g(z_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\theta

特例情況
P(x0x1,&ThinSpace;,xn)=f(x0θ)π(θx1,&ThinSpace;,xn)dθP(x_0|x_1,\cdots,x_n)=\int f(x_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\theta

Z0[a,b]滿:Z_0的預報區間[a,b]滿足:
P(az0bx1,&ThinSpace;,xn)=abp(z0x1,&ThinSpace;,xn)dz0=1αP(a\le z_0\le b|x_1,\cdots,x_n)=\int^b_a p(z_0|x_1,\cdots,x_n)dz_0=1-\alpha

x0[a,b]滿:x_0的預測區間[a,b]滿足:
P(ax0bx1,&ThinSpace;,xn)=abp(x0x1,&ThinSpace;,xn)dz0=1αP(a\le x_0\le b|x_1,\cdots,x_n)=\int^b_a p(x_0|x_1,\cdots,x_n)dz_0=1-\alpha

假設檢驗:

H0:θΘ0  vs  H1:θΘ1H_0:\theta \in \Theta_0\ \ vs\ \ H_1:\theta\in \Theta_1
計算後驗概率:P(θΘ0x1,&ThinSpace;,xn), P(θΘ1x1,&ThinSpace;,xn)P(\theta \in \Theta_0|x_1,\cdots,x_n),\ P(\theta\in \Theta_1|x_1,\cdots,x_n)
P(θΘ0x1,&ThinSpace;,xn)&gt;P(θΘ1x1,&ThinSpace;,xn),H0P(\theta \in \Theta_0|x_1,\cdots,x_n) \gt P(\theta \in \Theta_1| x_1,\cdots,x_n),接受H_0
Hi:θΘi(i=1,2,&ThinSpace;,k)H_i:\theta \in \Theta_i(i=1,2,\cdots,k)

αi=P(θΘix),αl,Hl\alpha_i=P(\theta \in \Theta_i|x),若\alpha_l最大,則接受H_l

貝葉斯因子

Θ0Θ1π0π1,α0α1,π0π1H0H1,α0α1H0H1,設兩個假設\Theta_0和\Theta_1的先驗概率分別爲\pi_0和\pi_1,後驗概率分別爲\alpha_0和\alpha_1,比率\frac{\pi_0}{\pi_1}稱爲H_0對H_1先驗機會比,\frac{\alpha_0}{\alpha_1}稱爲H_0對H_1後驗機會比,且稱
Bπ(x)=α0α1π0π1=α0π1α1π0=α0/π0α1/π1B^\pi(x)=\frac{\frac{\alpha_0}{\alpha_1}}{\frac{\pi_0}{\pi_1}}=\frac{\alpha_0\pi_1}{\alpha_1\pi_0}=\frac{\alpha_0/\pi_0}{\alpha_1/\pi_1}

爲支持H0H_0的貝葉斯因子.
Bπ(x)xH0.Bπ(x),H0.貝葉斯因子B^\pi(x)反應數據x支持H_0的程度.B^\pi(x)取值越大,對H_0的支持程度越高.
拒絕域:α0α1&lt;1\frac{\alpha_0}{\alpha_1}&lt;1等價於:
Bπ(x)&lt;π1π0&ThickSpace;&ThickSpace;1Bπ(x)&gt;π0π1B^\pi(x)&lt;\frac{\pi_1}{\pi_0} \iff \frac{1}{B^\pi(x)}&gt;\frac{\pi_0}{\pi_1}

簡單vs簡單檢驗

H0:Θ0=θ0  vs  H1:Θ1=θ1H_0:\Theta_0={\theta_0}\ \ vs \ \ H_1:\Theta_1=\theta_1

α0=P(θΘ0x)=P(θ0,x)m(x)=π0P(xθ0)π0P(xθ0)+π1P(xθ1)\alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\theta_0,x)}{m(x)}=\frac{\pi_0P(x|\theta_0)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)}

α1=P(θΘ1x)=π1P(xθ1)π0P(xθ0)+π1P(xθ1)\alpha_1=P(\theta \in \Theta_1| x)=\frac{\pi_1P(x|\theta_1)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)}

α0α1=π0P(xθ0)π1P(xθ1)\frac{\alpha_0}{\alpha_1}=\frac{\pi_0P(x|\theta_0)}{\pi_1P(x|\theta_1)}

&ThickSpace;&ThickSpace;Bπ(x)=α0/α1π0/π1=P(xθ0)P(xθ1)\implies B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{P(x|\theta_0)}{P(x|\theta_1)}

拒絕域:α0α1&lt;1\frac{\alpha_0}{\alpha_1}&lt;1等價於:
P(xθ0)P(xθ1)&gt;π1π0\frac{P(x|\theta_0)}{P(x|\theta_1)}&gt;\frac{\pi_1}{\pi_0}
例題:
在這裏插入圖片描述

複雜-複雜檢驗

H0:Θ0()  vs  H1:Θ1=Θ0Θ1()H_0:\Theta_0(非空複合集) \ \ vs \ \ H_1:\Theta_1=\Theta_0-\Theta_1(非空複合集)

α0=P(θΘ0x)=P(Θ0,x)m(x)=Θ0π(θ)P(xθ)dθΘ0π(θ)P(xθ)dθ+Θ1π(θ)P(xθ)dθ\alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\Theta_0,x)}{m(x)}=\frac{\int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}

α1=P(θΘ0x)=P(Θ1,x)m(x)=Θ1π(θ)P(xθ)dθΘ0π(θ)P(xθ)dθ+Θ1π(θ)P(xθ)dθ\alpha_1=P(\theta \in \Theta_0|x)=\frac{P(\Theta_1,x)}{m(x)}=\frac{\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}

α0α1=Θ0π(θ)P(xθ)dθΘ1π(θ)P(xθ)dθ則\frac{\alpha_0}{\alpha_1}=\frac{ \int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta }{ \int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta }
π0=Θ0π(θ)dθ, π1=Θ1π(θ)dθ令\pi_0 = \int_{\Theta_0} \pi(\theta)d\theta,\ \pi_1=\int_{\Theta_1}\pi(\theta)d\theta
Bπ(x)=α0/α1π0/π1=Θ0π(θ)π0P(xθ)dθΘ1π(θ)π1P(xθ)dθ=m0(x)m1(x)B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{ \int_{\Theta_0} \frac{\pi(\theta)}{\pi_0}P(x|\theta)d\theta }{ \int_{\Theta_1} \frac{\pi(\theta)}{\pi_1}P(x|\theta)d\theta }=\frac{m_0(x)}{m_1(x)}

拒絕域:α0α1&lt;1\frac{\alpha_0}{\alpha_1}&lt;1等價於:
m0(x)m1(x)&gt;π1π0\frac{m_0(x)}{m_1(x)}&gt;\frac{\pi_1}{\pi_0}

例題:
在這裏插入圖片描述

簡單-複雜檢驗

第四章:貝葉斯統計決策

一.概念

1.樣本空間和樣本分佈族

XR,p(xθ),θΘ隨機變量 X 取值於樣本空間 \Bbb R ,分佈族爲 { p( x | \theta ), \theta \in \Theta }

2.決策空間: 統計決策問題可能採取的行動構成的非空集合.

,δ(x)定義在樣本空間,取值 於決策空間中函數 \delta (x ) 稱爲決策函數

3.損失函數

Θ×R,L(θ,δ(x))定義在 \Theta \times \Bbb R 的非負可測函數,記L( \theta , \delta ( x ))

4.統計決策三要素

Xp(xθ),ΘL(θ,δ(x)).隨機變量 X 的分佈族爲 p ( x | \theta ) , 決策空間 \Theta 和損失函數L(\theta,\delta(x)).

5.風險函數

δ(x)\delta (x ) 是一個決策函數,平均
損失:
R(θ,δ)=EXθ[L(θ,δ(x))]=L(θ,δ(x))p(xθ)dxR(\theta,\delta)=E_{X|\theta}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))p(x|\theta)dx
δ(x)\delta(x)的風險函數.
θ,θ對每一個 \theta 的平均損失, \theta 的函數
風險函數就是損失函數關於p(xθ)p(x|\theta)的期望
.
.
決策函數就類似於機器學習中的y^\hat y
δ(x),δ(x),滿:設\delta(x)是任意一個決策函數,如果存在一個決策函數\delta^*(x),滿足:
R(θ,δ)R(θ,δ)R(\theta,\delta^*) \le R(\theta,\delta)
則稱δ(x)\delta^*(x)爲一致最優決策函數

6.貝葉斯風險

R(θ,δ),π(θ)θ,:設R(\theta,\delta)爲風險函數,\pi(\theta)爲\theta的先驗分佈,則稱:
Rπ(δ)=Eθ[R(θ,δ)]=R(θ,δ)π(θ)dδR_\pi( \delta )=E_\theta[R(\theta,\delta)]=\int R(\theta,\delta) \pi(\theta)d\delta
σ(x)\sigma(x)的貝葉斯風險.
δ(x),δ(x),滿:如果 \delta( x ) 是任意一個決策函數,如果存在一個決策函數\delta^* ( x ), 滿足:
Rπ(δ)Rπ(δ)R_\pi(\delta^*) \le R_\pi(\delta)
δ(x).則稱\delta^*(x)爲統計決策的貝葉斯解.
統計決策的貝葉斯解就是貝葉斯風險的一致最有決策函數

7.後驗風險

L(θ,δ(x)),π(θx)θ,:設L(\theta,\delta(x))爲損失函數,\pi(\theta|x)爲\theta的後驗分佈,則稱:
R(δ(x)x)=Eθx[L(θ,δ(x))]=L(θ,δ(x))π(θx)dθR(\delta(x)|x)=E_{\theta|x}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta|x)d\theta
爲決策函數δ(x)\delta(x)的貝葉斯後驗風險.
在某個樣本下,損失函數LL關於後驗分佈π(θx)\pi(\theta|x)的期望(對θ\theta求積分)
δ(x),δ(x),滿:如果存在一個決策函數\delta^* ( x ), 對任意的決策函數 \delta ( x ) ,滿足:
R(δ(x)x)=minR(δ(x)x)R(\delta^*(x)|x)=minR(\delta(x)|x)
則稱δ(x)\delta^*(x)爲後驗風險最小原則下最優貝葉斯決策函數.

8.貝葉斯先驗風險

π(θ),:\pi(\theta)爲先驗分佈,稱:
R(π,δ(x))=Eθ[L(θ,δ(x))]=L(θ,δ(x))π(θ)dθR(\pi,\delta(x))=E_\theta[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta)d\theta
δ(x)θ爲\delta(x)對\theta的貝葉斯期望風險

EX(R(δ(x)x))=R(δ(x)x)m(x)dx=m(x)dxL(θ,δ(x))π(θx)dθ=dxL(θ,δ(x))p(x,θ)dθ=dxL(θ,δ(x))π(θ)p(xθ)dθ=π(θ)dθL(θ,δ(x))p(xθ)dx=R(θ,δ)π(θ)dθ=Eθ[R(θ,δ)]=Rπ(δ)=L(θ,δ(x))p(x,θ)dxdθ \begin{aligned} E_X(R(\delta(x)|x)) &amp;=\int R(\delta(x)|x)m(x)dx\\ &amp;=\int m(x)dx\int L(\theta,\delta(x))\pi(\theta|x)d\theta\\ &amp;=\int dx \int L(\theta,\delta(x))p(x,\theta)d\theta\\ &amp;=\int dx \int L(\theta,\delta(x))\pi(\theta)p(x|\theta)d\theta\\ &amp;=\int \pi(\theta)d\theta \int L(\theta,\delta(x))p(x|\theta)dx\\ &amp;=\int R(\theta,\delta)\pi(\theta)d\theta\\ &amp;=E_\theta[R(\theta,\delta)]\\ &amp;=R_\pi(\delta)\\ &amp;=\underline{\int \int L(\theta,\delta(x))p(x,\theta)dxd\theta} \end{aligned}

二.基本原理

1.後驗風險最小原則:

在這裏插入圖片描述

1).平方損失下的貝葉斯估計

在這裏插入圖片描述
在這裏插入圖片描述

2).加權平方損失下的貝葉斯估計

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述在這裏插入圖片描述

3.在絕對值損失下的貝葉斯估計

在這裏插入圖片描述
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述

4.在線性損失下的貝葉斯估計

在這裏插入圖片描述
在這裏插入圖片描述

三.最小最大準則

定理一:

在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述

定理二

在這裏插入圖片描述
在這裏插入圖片描述

四.區間估計的決策

在這裏插入圖片描述
在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述

五.假設檢驗的決策

第五章:貝葉斯計算方法

一.E-M算法

在這裏插入圖片描述
例1
在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述
例2.
在這裏插入圖片描述在這裏插入圖片描述

二.後驗分佈的相和性

在這裏插入圖片描述在這裏插入圖片描述

後驗分佈的漸近正態性

在這裏插入圖片描述在這裏插入圖片描述

第六章:貝葉斯大樣本方法

第七章:貝葉斯模型選擇

在這裏插入圖片描述

一 正常先驗下的貝葉斯因子

在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述

二 非正常先驗下的貝葉斯因子

在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述

三 貝葉斯模型評價

在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述

第八章:經驗貝葉斯

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章