第一章.緒論
一、常見隨機變量分佈
1.二項分佈:
如果隨機變量的分佈律爲
p(X=k)=Cnkpk(1−p)n−k,(k=0,1,...,n)
則稱隨機變量X服從參數爲(n,p)的二項分佈
記爲X~B(n,p),(其中n爲自然數,0<p<1爲參數)
- 1). n重伯努利實驗,關心事件發生次數的分佈律
- 2)EX=np,DX=np(1−p)
當n=1時,爲“0-1分佈”,即B(1,p)
2.Poisson分佈
如果隨機變量X的分佈律爲
PX=k=k!λke−λ,(k=0,1,….where constant λ>0)
記爲:X~p(λ)
- 1).稀有事件,事件發生次數的分佈律
- 2).EX=λ,DX=λ
3.幾何分佈
如果隨機變量X的分佈律爲
P(X=k)=(1−p)k−1p,(k=1,2,…. where constrant p∈(0,1))
則稱隨機變量X服從參數爲p 的幾何分佈.
記爲:X~G(p)
- 1).獨立重複試驗,首次成功次數的分佈律。
- 2).EX=p1,DX=p21−p
4.帕斯卡分佈(負二項分佈)
如果隨機變量X的分佈律爲
P(X=k)=Ck−1r−1(1−p)k−rpr),(k=r,r+1,r+2,…,where constant p∈(0,1))
記爲:X~NB(r,p)
- 1).獨立重複試驗,第r此成功時實驗次數的分佈律
- 2).EX=pr,DX=p2r(1−p)
*負二項分佈可以看成是r個獨立同分布的幾何分佈的Yi~G(p)疊加,則有
EX=E(Y1+Y2+⋯+Yr)=rE(Yi)=r⋅p1
DX=D(Y1+Y2+⋯+Yr)=rD(Yi)=r⋅p21−p
5.多項分佈(二項分佈的推廣)
如果隨機向量N=(N1,N2,⋯,Nm)的分佈律爲
P(N1=r1,N2=r2,⋯,Nm=rm)=r1!r2!⋯rm!n!p1r1p2r2⋯pmrm
則稱隨機變量N服從參數爲p=(p1,⋯,pm)的多項分布.
Σi=1mpi=1,Σi=1mri=n(其中n爲自然數,0<pi<1爲參數)
記作N~M(n,p)
-1).每次試驗有m個可能結果:A1,A2,…,Am
-2).P(Ak)=pk,此實驗獨立重複進行n此,記Ak發生的次數爲Nk.
N~M(n,p)可以分解成n個獨立的M(1,p)之和。
6.均勻分佈
若隨機變量X 的密度函數爲
f(x)={b−a1,0,if a≤x≤bothers
則稱隨機變量X服從區間[a,b]上的均勻分佈.
記作X~U[a,b]
F(x)=⎩⎪⎨⎪⎧0,b−ax−a,1,x<aa≤x≤bb<x
幾何概型
- 1).Pc<X<c+l=b−al
- 2)l.EX=b−a1,DX=12(b−a)2
7.指數分佈
X~e(λ)
定義:如果隨機變量X 的密度函數爲
f(x)=λe−λxI{x>0}
其中λ>0爲常數,則稱隨機變量X服從參數爲λ的指數分佈.
- 1).F(x)=1−e−λxI{x>0}
- 2).P(X>x)=1−F(x)=e−λx
- 3).EX=λ1,DX=λ21
8.正態分佈
如果連續型隨機變量的密度函數爲
f(x)=2πσ1e−2σ2(x−μ)2
(where −∞<μ<+∞,constant σ>0)
9.柯西分佈
如果連續型隨機變量的密度函數爲
f(x)=βπ11+(βx−α)21,x∈R
則稱隨機變量X服從參數爲α,β的柯西分佈
記爲:X~C(α,β)
- 若α=0,β=1,我們稱C(0,1)爲標準柯西分布.
- f(x)=π11+x21,x∈R
- EX不存在
物理學中受迫共振的微分方程的解。
10.伽馬分佈
如果隨機變量 X 的密度函數爲
f(x)=Γ(α)(βx)α−1βe−βxI{x>0},where α>0,β>0
則稱隨機變量X服從參數爲(α,β)的Γ分佈.
記爲:X~Γ(α,β)
- 當α=1時, X~e(β)
- Γ(α)=∫0∞xα−1e−xdx=(α−1)Γ(α−1)
- EX=∫0∞Γ(α)(βx)αe−βxdx=βΓ(α)Γ(α+1)=βα
- DX=EX2−(EX)2=β2α2+α−(βα)2=β2α
- 獨立的指數分部之和服從伽馬分佈。
11.逆伽馬分佈
如果隨機變量 X 的密度函數爲
f(x)=Γ(α)βαx−(α+1)e−xβI{x>0},where α>0,β>0
則稱隨機變量X服從參數爲(α,β)的逆伽馬分佈.
記爲:X~Γ−1(α,β)
- 當X~Γ(α,β)時, Y=X1~Γ−1(α,β)
- EX=∫0∞xΓ(α)βαx−(α+1)eαβdx=α−1β
- DX=(α−1)2(α−2)β2
通常用來描述誤差分佈。
12.貝塔分佈
如果隨機變量 X 的密度函數爲
f(x)=Γ(a)Γ(b)Γ(a+b)xa−1(1−x)b−1I{0<x<1},where a>0,b>0
則稱隨機變量 X 服從參數爲 ( a , b ) 的β分佈.
記爲X~Be(a,b)
- 當a=1,b=1時, X~U(0,1)
- ∫−∞∞f(x)dx=1, ∫01xa−1(1−x)b−1dx=Γ(a+b)Γ(a)Γ(b)=β(a,b)
- EX=∫0∞Γ(a)+Γ(b)Γ(a+b)xa(1−x)b−1dx=Γ(a)Γ(b)Γ(a+b)Γ(a+b+1)Γ(a+1)Γ(b)=a+ba
- DX=(a+b)2(a+b+1)ab
- beta分佈可以看作一個概率的概率分佈.
- 若X ~ Γ(α,θ),Y ~ Γ(β,θ)獨立,則X+YX ~ Be(α,β)
13.狄裏克萊分佈(貝塔分佈的多維形式)
P(x1,x2,…,xk)=Γ(α1)Γ(α2)…Γ(αk)Γ(α1+α2+⋯+αk)x1α1−1x2α2−1⋯xkαk−1,i=1∑kxi=1
則稱隨機變量 X 服從參數爲 α=(α1,⋯,αk)(αi>0) 的狄裏克萊分佈 .
記爲X ~ D(k,α)
- 當k=2時,狄裏克萊分佈爲貝塔分佈
- 可以描述一個多維概率的概率分佈.
- ∫⋯∫x1α1−1x2α2−1⋯xkαk−1dx1⋯dxk=Γ(α1+α2+⋯+αk)Γ(α1)Γ(α2)…Γ(αk)
- EXi=Γ(α1)Γ(α2)…Γ(αk)Γ(α1+α2+⋯+αk)Γ(α1+α2+⋯+αk+1)Γ(α1)Γ(α2)⋯Γ(αi+1)⋯Γ(αk)=α1+α2+⋯+αkαi
- DXi=Γ(α1+α2+⋯+αk+2)Γ(α1)Γ(α2)⋯Γ(αi+2)⋯Γ(αk)−(α1+α2+⋯+αkαi)2=(α1+α2+⋯+αk+1)(α1+α2+⋯+αk)αi(αi+1)−(α1+α2+⋯+αkαi)2
14.帕累託分佈
如果隨機變量 X 的密度函數爲
f(x)=xα+1αCαI{x>C},where C>0,α>0
則稱隨機變量 X 服從參數爲 (C,α) 的 帕雷託 分佈.
記爲X ~ Pa(C,α)
- 經濟問題 :貧與富的存在
- 通過市場交易,20%的人將佔有80%的社會財富,如果交易可以不斷進行下去,那麼,在因和果、努力和收穫之間,普遍存在着不平衡關係.
二. 聯合分佈,邊緣分佈,條件分佈
1.已知邊緣分佈和條件分佈
設隨機向量 X 的概率分佈爲PX(x),Y 在 X 下的條件分佈
爲PY∣X(y∣x),則
聯合分佈:
f(x,y)=fx(x)fY∣X(y∣X),(X連續型,Y連續型)
P(xi,yi)=PX(xi)PY∣X(yi∣xi),(X離散型,Y離散型)
P(xi,yi)=PX(xi)fY∣X(y∣xi),(Y連續型,X離散型)
P(xi,yi)=fX(x)PY∣X(yi∣x),(X連續型,Y離散型)
2.已知聯合分佈
設隨機向量 ( X , Y ) 的聯合分佈爲 P ( x , y ), 則
- 邊緣分佈:
PX(x)=∫−∞∞p(x,y)dy,(Y連續型)
PX(x)=i∑p(x,yi),(Y離散型)
- 條件分佈:
PY∣X(y∣x)=pX(x)p(x,y),(Y連續型)
PY∣X(yi∣x)=pX(x)p(x,yi),(Y離散型)
三.基本概念
1.指數族:
p(x,θ)=C(θ)exp{i=1∑kθiTi(x)}h(x)
標準形式:
見<<高等數理統計shaojun>>
2.充分統計量:
有分佈族{p(x,θ),θ∈Θ},
若在已知統計量 T 的條件下 , 樣本 X 的條件分佈與 θ 無關,則稱 T 爲參數 θ 的充分統計量.
3.因子分解定理:
有分佈族{p(x,θ),θ∈Θ}, 以及統計量:T=T(x)
若 p(x,θ) 能夠分解成
p(x,θ)=g(T(x),θ)h(x)
則 T 爲參數 θ 的充分統計量。
4.完備統計量:
有分佈族{p(x,θ),θ∈Θ}, 以及統計量:T=T(x),
若對∀φ( T(x) )滿足, Eθ(φ( (T(x) )=0,都有
Pθ(φ(T(X))=0)=1
5.完全統計量判定:
若樣本 X=(X1,X2,⋯,Xn) 的分佈族:{p(x,θ),θ∈Θ},
P(x,θ)=C(θ)exp{i=1∑kθiTi(x)}h(x)
統計量: T=( T1(x),T2(x),⋯,Tk(x) ), 且參數空間 Θ有內點,則T爲參數θ的完全統計量
看<<高等數理統計 shaojun>><<參數統計教程韋博成>>
6.UMVUE:
樣本X=(X1,X2,⋯,Xn),
分佈族:{p(x,θ),θ∈Θ},
可估函數:g(θ),
設g^∗(X)是g(θ)的一個無偏估計量,若對g(θ)的任意無偏估計g^(X)都有:
Dg^∗(X)≤Dg^(X)
則稱g^∗(X)是g(θ)的UMVUE
7.L-S定理:
樣本X=(X1,X2,⋯,Xn),
分佈族:{p(x,θ),θ∈Θ},
可估函數:g(θ),
統計量 T (X ) 是一個充分完備統計量.
g^(T(X))是 g ( \theta ) 的 一個無偏估計量,
則 g^(T(X)) 是g(θ)唯一的UMVUE
8.C-R不等式:
樣本X=(X1,X2,⋯,Xn),
分佈族:{p(x,θ),θ∈Θ},
可估函數:g(θ),
g^(T(X))是 g(θ) 的 一個無偏估計量,
假設 p(x,θ)滿足正則性條件:
- 1). {x∣p(x,θ)>0}與θ無關
- 2). p(x,θ)關於θ可導
- 3). 有關p(x,θ)關於θ求導和積分可換序
則有Varθ(g^(X))≥nI(θ)(g‘(θ))2(=n(g‘(θ)I−1(θ)(g‘(θ)T)
稱I(θ)=E(∂θ∂lnp(x,θ))2爲參數θ的信息量
如果 DT=nI(θ)(g‘(θ))2,(當q(θ)=θ時,DT=nI(θ)1)則稱T(X1,X2,⋯,Xn)爲g(θ)的有效估計量]
9.N-P引理
10.N-P引理推廣
第二章.先驗分佈的選取
一.古典學派和貝葉斯學派
-
古典統計學派: 堅持概率的頻率解釋, 把未知參數看成一個固定的未知量!
統計推斷的信息量: 總體信息和樣本信息
缺點: 需要大量重複試驗
-
貝葉斯學派: 堅持先給定先驗概率, 把未知參數用一個概率分佈描述!
統計推斷的信息量: 總體信息,樣本信息及先驗信息
缺點: 先驗信息主觀性比較強
二.貝葉斯統計的基本概念
設總體 X 的概率函數爲 p(x∣θ)( 分佈律或密度函數 ) ,
樣本: X1,X2,...,Xn, θ 是未知參數。
1).參數的先驗分佈: π(θ)
- θ 是離散型隨機變量時:
π(θi)=P(θ=θi)
- θ 是連續型隨機變量時:
π(θ)表示參數θ概率密度函數
2).參數的後驗分佈:π(θ∣x1,x2,⋯,xn)
在給定X1=x1,⋯,Xn=xn條件下,
θ的條件分布π(θ∣x1,x2,⋯,xn)
三.後驗分佈的計算
p(x1,x2,⋯,xn∣θ)=i=1∏np(xi∣θ)
h(x1,x2,⋯,xn,θ)=π(θ)p(x1,x2,⋯,xn∣θ)
m(x1,x2,⋯,xn)=∫Θh(x1,x2,⋯,xn,θ)dθ
則有後驗分佈:
1).連續型
π(θ∣x1,x2,⋯,xn)=m(x1,x2,⋯,xn)h(x1,x2,⋯,xn∣θ)=∫Θπ(θ)p(x1,x2,⋯,xn∣θ)dθπ(θ)p(x1,x2,⋯,xn∣θ)
2).離散型
π(θ∣x1,x2,⋯,xn)=∑iπ(θi)p(x1,x2,⋯,xn∣θi)π(θk)p(x1,x2,⋯,xn∣θk)
四.先驗分佈函數形式的確定
1.專家意見
2.歷史資料
3.相對似然法
4.直方圖法
5.定分度法和變分度法
6.樣本邊緣分佈最大似然先驗
- 例題1
X~e(θ) 樣本X1,X2,⋯,Xn,θ~ e(λ)
解:
π(θ)=λe−λθ
p(x1,⋯,xn∣θ)=θ−ne−θ∑i=1nxi
p(x1,⋯,xn,θ∣λ)=λθne−θ(λ+∑i=1nxi)
p(x1,⋯,xn∣λ)=∫p(x1,⋯,xn)p(θ)dθ=∫λθnexp(−θ(λ+i=1∑nxi))dθ=λ(λ+∑i=1nxi)n+1n!
lnp(x1,⋯,xn∣λ)=lnλ+lnn!−(n+1)ln(λ+i=1∑nxi)
令dλdlnp(x1,⋯,xn∣λ)=λ1−(n+1λ+∑i=1nxi1)=0
求出極大似然估計 λ^=Xˉ
五.超參數的確定
若先驗分佈的形式確定,但分佈中含有未知參數(超參數)
1.先驗分佈具有明確的意義或信息
例子1 θ~N(μ,σ2)
2.利用邊緣分佈確定超參數(矩估計和MLE)
已知總體X~P(x|θ) , θ ~ π(θ∣λ) λ是超參數
六.無信息先驗分佈
1.貝葉斯假設
- 離散均勻分佈:θ可能取值有限,θ1,⋯,θn,P(θ=θi)=n1
- 有限區間上的均勻分佈:θ~U[a,b]
- 廣義先驗分佈:θ∈(−∞,∞),θ的先驗分布滿足:
- 1.π(θ)≥0,∫−∞∞π(θ)dθ=∞
- 2.π(θ∣x)是正常的密度函數
. 若π(θ)是廣義先驗,則cπ(θ)也是廣義先驗
π(θ∣x)=m(x)h(x,θ)=∫p(x∣θ)π(θ)dθp(x∣θ)π(θ)
∫π(θ∣x)dθ=1
2. 位置參數的無信息先驗
<<貝葉斯分析>>P49
位置參數族:平移變換下的不變性
π(θ)=1
例1
例2
3.尺度參數的無信息先驗
尺度參數族舉例:
- p(x∣σ)=2πσ21e−2σ2x2
- p(x∣β)=πβ11+(βx)21
- p(x∣λ)=λ1eλx,x>0
尺度參數族:尺度變換下的不變性<<貝葉斯分析>>P51
{f(x,θ)→θ1f(θx),θ∈R+}
證 π(σ)=σ1:
令 Y=cX,(c∈R+)
fY(y)=cθ1f(cθy)
令 η=cθ
fY(y)=η1f(ηy)
σ的無信息先驗與η的無信息先驗應當相同.有:
π(τ)=π∗(τ)(3.1)
其中π∗(τ)爲η的先驗分佈,另一方面,由變換η=cσ,可知η的無信息先驗爲:
π∗(η)=π(σ)∣σ=cη⋅∣dηdσ∣=c1π(cη)(3.2)
比較(3.1)和(3.2)得:
π(η)=π∗(η)=c1π(cη)
取η=c,有:
π(c)=c1π(1)
爲方便計算, 令π(1)=1,由c的任意性,可得σ的無信息先驗爲:
π(σ)=σ1,(σ>0)
4.一般情況:Jeffreys無信息先驗
π(θ)=∣I(θ)∣1/2"| |"表示行列式
七.共軛先驗分佈
1.共軛先驗分佈
設F表示θ的先驗分布π(θ)構成的分布族,如果取的π∈F,後驗分布π(θ∣x)∈F,那麼稱F是一個共軛先驗分布.(先驗分佈和後驗分佈同一個分佈族)
- 方差已知的正態分佈,均值的共軛分佈族是正態分佈族.
- 泊松分佈, 參數的共軛分佈族是伽馬分佈.
2.求共軛先驗分佈
八.多層先驗分佈
當先驗分佈中的超參數無法確定時,可以對超參數再給出一個先驗
分佈,這個給出的第二個先驗就是超先驗。
設參數 θ 的先驗分佈是 π1(θ∣λ) ,其中 λ 是超參數給出超參數λ的超先驗分佈π2(λ)則有 θ 和 λ 的聯合分佈式是:
π1(θ∣λ)π2(λ)
參數 θ 的先驗分佈是:
π(θ)=∫π1(θ∣λ)π2(λ)dλ
以此類推,可以得到三層以致多層先驗.
後驗分佈與充分性
-
定義:設總體 X 的分佈函數爲 F(x,θ) , 樣本: X1,X2,...,Xn,統計量 T(X1,X2,...,Xn). 若給定 T 後, X1,X2,...,Xn 的條件分佈與參數 θ 無關, 則稱統計量 T(X1,X2,...,Xn) 爲 θ 的充分統計量.
-
因子分解定理:
T=T(x1,x2,⋯,xn)是一個充分統計量的充要條件是對任一的θ,存在兩個函數g(t,θ)和h(x1,x2,⋯,xn),有:
p(x1,x2,⋯,xn,θ)=g(T(x1,x2,⋯,xn),θ)h(x1,x2,⋯,xn)
-
後驗分佈引理
設 Γ 是未知參數 θ 的先驗分佈類 π(θ)∈Γ , 若 Γ 是 θ 的充分統計量,則對 ∀π∈Γ ,有:
π(θ∣x)=π~(θ∣t)
證明:
設 T 的概率函數爲: q(t∣θ),
由充分統計量的定義: pX∣T(x∣t)=q(t∣θ)p(x∣θ)=C(x)
p(x∣θ)=q(t∣θ)C(x)
由因子分解定理有:p(x∣θ)=g(t,θ)h(x),q(t∣θ)∝g(t∣θ)
則
π(θ∣x)=m(x)h(x,θ)=∫π(θ)p(x∣θ)dθπ(θ)p(x∣θ)=∫π(θ)q(t∣θ)C(x)dθπ(θ)q(t∣θ)C(x)=∫π(θ)q(t∣θ)dθπ(θ)q(t∣θ)=π~(θ∣t)
回顧充分統計量
因子分解定理
後驗分佈引理
設 Γ 是未知參數 θ 的先驗分佈類 π(θ)∈Γ , 若 T 是 θ的充分統計量,則對 ∀π∈Γ , 有:
π(θ∣x)=π~(θ∣t)
證明:
設T的概率函數爲q(t∣θ),
由充分統計量 pX∣T(x∣t)=q(t∣θ)p(x∣θ)=C(x)
由因子分解定理 p(x∣θ)=g(t∣θ)h(x),q(t∣θ)∝g(t∣θ)
p(x∣θ)=q(t∣θ)C(x)
π(θ∣x)=m(x)h(x,θ)=∫π(θ)p(x∣θ)dθπ(θ)p(x∣θ)=∫π(θ)q(t∣θ)C(x)dθπ(θ)q(t∣θ)C(x)=∫π(θ)q(t∣θ)dθπ(θ)q(t∣θ)=π~(θ∣t)
Reference先驗
KL散度定義:
設兩個概率分佈P(x),q(x),KL距離(散度)爲,
KL(p(x),q(x))=∫ln(q(x)p(x))p(x)dx=Ep(ln(q(x)p(x)))
即連續型隨機變量相對熵.
顯然:
- 1).KL(p(x),q(x)) !=KL(q(x),p(x))
- 2).KL(p(x),q(x))≥0
Ep(−lnq(x)p(x))=Ep(lnp(x)q(x))≤lnEp(p(x)q(x))
lnEp(p(x)q(x))=ln∫(p(x)q(x))p(x)dx=0
Reference先驗
設Iπ(θ)(θ,x)=∫Xp(x)[∫Θπ(θ∣x)lnπ(θ)π(θ∣x)dθ]dx=EX(KL(π(θ,x),π(θ)))
其中p(x)爲樣本X的邊緣分佈.若π∗(θ)滿足:
Iπ∗(θ)(θ,x)=π(θ)max{Iπ(θ)(θ,x)}
則稱π∗(θ)=argmaxπ(θ){Iπ(θ)(θ,x)}爲參數θ的Reference先驗
積分換序:
Iπ(θ)(θ,x)=∫Θ[∫Xp(x)π(θ∣x)lnπ(θ)π(θ∣x)dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)−ln(π(θ)))dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx−∫Xp(x∣θ)ln(π(θ))dx]dθ
Iπ(θ)(θ,x)=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx−∫Xp(x∣θ)ln(π(θ))dx]dθ
令lnfn(θ)=∫Xp(x∣θ)lnπ(θ∣x)dx
則Iπ(θ)(θ,x)=∫Θπ(θ)lnπ(θ)fn(θ)dθ
π∗(θ)=n→∞limfn(θ0)fn(θ)
其中θ0是參數空間Θ的一個內點.
參考<<貝葉斯分析P65>>
Reference先驗計算
二維參數爲例子:分佈族 p(x∣θ,λ) ,樣本爲X1,X2,⋯,Xn
參數信息陣:
I(θ,λ)=[I11(θ,λ) I12(θ,λ)I21(θ,λ) I22(θ,λ)]
- 1).固定θ,獲得先驗分佈:π(λ∣θ)=I221/2(θ,λ)
- 2).如果π(λ∣θ)是正常先驗分布,直接消參數:
p(x∣θ)∫Xp(x∣θ,λ)π(λ∣θ)dλ
- 3).根據p(x∣θ),確定θ的先驗分布π(θ)
- 4).獲得聯合先驗分佈:
π(θ,λ)=π(θ)π(λ∣θ)
如果π(λ∣θ)是非正常先驗分布集:
- (1.劃分出λ的逼近閉參數空間
Θ1⊂Θ2⊂⋯⊂Θk⋯,∪kΘk=Θ
- (2.在Θ上,確定πk(λ∣θ)是正常先驗分布,πk(λ∣θ)=Ak(θ)π(λ∣θ),Ak(θ)=∫Θkπ(λ∣θ)dλ1按照前面步驟二,確定πk(θ)
πk(θ)=exp{21∫Θkπk(λ∣θ)ln∣I22(λ,θ)∣∣I(λ,θ)∣dλ}
- (3. π(θ,λ)=limk→∞Ak(θ0)πk(θ0)Ak(θ)πk(θ)π(θ∣λ)
如果參數維數多於二維 ,類似二維多次循環進行
π(θ1,θ2,⋯,θk)=π(θ1)π(θ2∣θ1)π(θk∣θ1,θ2,⋯,θk−1)
最大熵先驗
定義1: 設θ爲離散型隨機變量 , 分佈律爲:p(θ=θi)=pi,i=1,2,⋯
則稱 E(p)=−∑ipilnpi
爲隨機變量的熵函數.
H(x,y)=H(x)+H(y)
P(x,y)=P(x)P(y)
H(x)=−lnp(x)
- 1).p→0或p→1是,有−plnp→0
- 2).∑i=1npi=1時,當p1=p2=⋯=pn有−∑i=1npilnpi最大.
連續性:
E(π)=−∫π(θ)lnπ0(θ)π(θ)dθ
π0(θ)是不變的無信息先驗
定理1(離散型):
設θ爲離散型隨機變量,θi,i=1,2,⋯,滿足條件:
Eπ(gk(θ))=i∑gk(θi)π(θi)=μk,k=1,2,⋯,m
其中gk(⋅),μk(k=1,⋯,m)分別表示已知的函數和已知的常數.同時還有隱藏條件∑iπ(θi)=1.
則滿足條件的最大熵先驗爲:
πˉ(θi)=∑iexp{∑k=1mλkgk(θi)}exp{∑k=1mλkgk(θi)}
其中λk是保證πˉ(θ)滿足約束條件的常數.
定理2(連續型):
設θ爲連續型隨機變量,θi,i=1,2,⋯,滿足條件:
Eπ(gk(θ))=∫igk(θ)π(θ)dθ=μk,k=1,2,⋯,m
其中gk(⋅),μk(k=1,⋯,m)分別表示已知的函數和已知的常數.同時還有隱藏條件∑iπ(θi)=1.
則滿足條件的最大熵先驗爲:
πˉ(θi)=∫Θπ0(θ)exp{∑k=1mλkgk(θ)}dθπ0(θ)exp{∑k=1mλkgk(θ)}
其中λk是保證πˉ(θ)滿足約束條件的常數.
第三章:貝葉斯統計推斷
點估計
已知總體X參數的後驗分佈:π(θ∣x1,⋯,xn)
1).最大後驗估計:
也稱後驗衆數估計,後驗極大似然估計:
π(θ∣x1,x2,⋯,xn)
最大值點θ^MD.
即,將後驗分佈求其似然函數的最大值(MLE).
2).後驗中位數估計:θ^ME
P(θ>θ^∣x1,x2,⋯,xn)=P(θ<θ^∣x1,x2,⋯,xn)
3).後驗期望估計:
θ^=E(θ∣x1,x2,⋯,xn)=θ^E
點估計的誤差估計
- 後驗分佈:π(θ∣x1,⋯,xn).貝葉斯估計:θ^=δ(x1,⋯,xn)
- 後驗均方誤差:
PMSE(δ(x))=Eθ∣x(θ−δ(x1,x2,⋯,xn))2
該值越小越好
當θ^=θ^E,即θ^=Eθ∣x(θ)
PMSE(θ^E)=Eθ∣x(θ−θ^E)2=Dθ∣x(θ)=V(x)
後驗均值估計使得後驗均方誤差達到最小.
區間估計
已知θ的後驗分布π(θ∣x),對於給定的樣本x和x和概率1−α,若存在兩個統計量θ^1(x),θ^2(x),有
P(θ^1(x))≤θ≤θ^2(x)∣x)≥1−α
則稱置信水平爲1-\alpah的可信區間: [θ^1(x),θ^2(x)],
若P(θ^L(x)≤θ∣x)≥1−α:
則稱置信下限爲:θ^L(x)
若P(θ≤θ^U(x)∣x)≥1−α
則稱可信上仙爲:θ^U(x)
最大後驗密度可信區間(HPD)
1.定義(最大後驗密度可信集):
X~f(x∣θ),樣本:X1,X2,⋯,Xn,θ的後驗分布π(θ∣x),給定概率1−α,(0<α<1),集合C滿足如下條件:
- P(θ∈C)=1−α
- 對任意的θ1∈C,θ2∈/C,總有π(θ1∣x)>π(θ2∣x)則稱C爲θ的置信水平爲1−α最大後驗密度可信集.
2.大樣本方法
X~f(x∣θ),樣本:X1,X2,⋯,Xn,θ的後驗分布πn(θ∣x),μπ(x)=E(θ∣x),Vπ(x),當n比較大時,近似的有:
- 1).θ−μπ(x)~N(0,Vπ(x))
→(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))~χ2(p)
- 2).θ→{θ∣(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))≤χα2(p)}
預測推斷
1.問題提出
-
1).X~ f(x∣θ),樣本:X1,X2,⋯,Xn,Z~g(z∣θ),推斷未觀察值Z0
Z ~ g(z∣θ)~g(z∣θ,x)
-
2).X~f(x∣θ),樣本:X1,X2,⋯,Xn,推斷未觀測值X0
2.定義
設X~f(x∣θ),樣本:X1,X2,⋯,Xn,θ的先驗分布π(θ),θ的後驗分布π(θ∣x),Z ~ g(z∣θ),定義Z0的後驗預測密度爲:
P(z0∣x1,⋯,xn)=∫g(z0∣θ)π(θ∣x1,⋯,xn)dθ
特例情況
P(x0∣x1,⋯,xn)=∫f(x0∣θ)π(θ∣x1,⋯,xn)dθ
Z0的預報區間[a,b]滿足:
P(a≤z0≤b∣x1,⋯,xn)=∫abp(z0∣x1,⋯,xn)dz0=1−α
x0的預測區間[a,b]滿足:
P(a≤x0≤b∣x1,⋯,xn)=∫abp(x0∣x1,⋯,xn)dz0=1−α
假設檢驗:
H0:θ∈Θ0 vs H1:θ∈Θ1
計算後驗概率:P(θ∈Θ0∣x1,⋯,xn), P(θ∈Θ1∣x1,⋯,xn)
若P(θ∈Θ0∣x1,⋯,xn)>P(θ∈Θ1∣x1,⋯,xn),接受H0
Hi:θ∈Θi(i=1,2,⋯,k)
αi=P(θ∈Θi∣x),若αl最大,則接受Hl
貝葉斯因子
設兩個假設Θ0和Θ1的先驗概率分別爲π0和π1,後驗概率分別爲α0和α1,比率π1π0稱爲H0對H1先驗機會比,α1α0稱爲H0對H1後驗機會比,且稱
Bπ(x)=π1π0α1α0=α1π0α0π1=α1/π1α0/π0
爲支持H0的貝葉斯因子.
貝葉斯因子Bπ(x)反應數據x支持H0的程度.Bπ(x)取值越大,對H0的支持程度越高.
拒絕域:α1α0<1等價於:
Bπ(x)<π0π1⟺Bπ(x)1>π1π0
簡單vs簡單檢驗
H0:Θ0=θ0 vs H1:Θ1=θ1
α0=P(θ∈Θ0∣x)=m(x)P(θ0,x)=π0P(x∣θ0)+π1P(x∣θ1)π0P(x∣θ0)
α1=P(θ∈Θ1∣x)=π0P(x∣θ0)+π1P(x∣θ1)π1P(x∣θ1)
α1α0=π1P(x∣θ1)π0P(x∣θ0)
⟹Bπ(x)=π0/π1α0/α1=P(x∣θ1)P(x∣θ0)
拒絕域:α1α0<1等價於:
P(x∣θ1)P(x∣θ0)>π0π1
例題:
複雜-複雜檢驗
H0:Θ0(非空復合集) vs H1:Θ1=Θ0−Θ1(非空復合集)
α0=P(θ∈Θ0∣x)=m(x)P(Θ0,x)=∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ
α1=P(θ∈Θ0∣x)=m(x)P(Θ1,x)=∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ∫Θ1π(θ)P(x∣θ)dθ
則α1α0=∫Θ1π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ
令π0=∫Θ0π(θ)dθ, π1=∫Θ1π(θ)dθ
Bπ(x)=π0/π1α0/α1=∫Θ1π1π(θ)P(x∣θ)dθ∫Θ0π0π(θ)P(x∣θ)dθ=m1(x)m0(x)
拒絕域:α1α0<1等價於:
m1(x)m0(x)>π0π1
例題:
簡單-複雜檢驗
第四章:貝葉斯統計決策
一.概念
1.樣本空間和樣本分佈族
隨機變量X取值於樣本空間R,分布族爲p(x∣θ),θ∈Θ
2.決策空間: 統計決策問題可能採取的行動構成的非空集合.
定義在樣本空間,取值於決策空間中函數δ(x)稱爲決策函數
3.損失函數
定義在Θ×R的非負可測函數,記L(θ,δ(x))
4.統計決策三要素
隨機變量X的分布族爲p(x∣θ),決策空間Θ和損失函數L(θ,δ(x)).
5.風險函數
設 δ(x) 是一個決策函數,平均
損失:
R(θ,δ)=EX∣θ[L(θ,δ(x))]=∫L(θ,δ(x))p(x∣θ)dx
爲δ(x)的風險函數.
對每一個θ的平均損失,θ的函數
風險函數就是損失函數關於p(x∣θ)的期望
.
.
決策函數就類似於機器學習中的y^
設δ(x)是任意一個決策函數,如果存在一個決策函數δ∗(x),滿足:
R(θ,δ∗)≤R(θ,δ)
則稱δ∗(x)爲一致最優決策函數
6.貝葉斯風險
設R(θ,δ)爲風險函數,π(θ)爲θ的先驗分布,則稱:
Rπ(δ)=Eθ[R(θ,δ)]=∫R(θ,δ)π(θ)dδ
爲σ(x)的貝葉斯風險.
如果δ(x)是任意一個決策函數,如果存在一個決策函數δ∗(x),滿足:
Rπ(δ∗)≤Rπ(δ)
則稱δ∗(x)爲統計決策的貝葉斯解.
統計決策的貝葉斯解就是貝葉斯風險的一致最有決策函數
7.後驗風險
設L(θ,δ(x))爲損失函數,π(θ∣x)爲θ的後驗分布,則稱:
R(δ(x)∣x)=Eθ∣x[L(θ,δ(x))]=∫L(θ,δ(x))π(θ∣x)dθ
爲決策函數δ(x)的貝葉斯後驗風險.
在某個樣本下,損失函數L關於後驗分佈π(θ∣x)的期望(對θ求積分)
如果存在一個決策函數δ∗(x),對任意的決策函數δ(x),滿足:
R(δ∗(x)∣x)=minR(δ(x)∣x)
則稱δ∗(x)爲後驗風險最小原則下最優貝葉斯決策函數.
8.貝葉斯先驗風險
設π(θ)爲先驗分布,稱:
R(π,δ(x))=Eθ[L(θ,δ(x))]=∫L(θ,δ(x))π(θ)dθ
爲δ(x)對θ的貝葉斯期望風險
EX(R(δ(x)∣x))=∫R(δ(x)∣x)m(x)dx=∫m(x)dx∫L(θ,δ(x))π(θ∣x)dθ=∫dx∫L(θ,δ(x))p(x,θ)dθ=∫dx∫L(θ,δ(x))π(θ)p(x∣θ)dθ=∫π(θ)dθ∫L(θ,δ(x))p(x∣θ)dx=∫R(θ,δ)π(θ)dθ=Eθ[R(θ,δ)]=Rπ(δ)=∫∫L(θ,δ(x))p(x,θ)dxdθ
二.基本原理
1.後驗風險最小原則:
1).平方損失下的貝葉斯估計
2).加權平方損失下的貝葉斯估計
3.在絕對值損失下的貝葉斯估計
4.在線性損失下的貝葉斯估計
三.最小最大準則
定理一:
定理二
四.區間估計的決策
五.假設檢驗的決策
第五章:貝葉斯計算方法
一.E-M算法
例1
例2.
二.後驗分佈的相和性
後驗分佈的漸近正態性
第六章:貝葉斯大樣本方法
第七章:貝葉斯模型選擇
一 正常先驗下的貝葉斯因子
二 非正常先驗下的貝葉斯因子
三 貝葉斯模型評價
第八章:經驗貝葉斯