高斯信道

正態分佈

正態分佈的微分熵

\(\newcommand{\d}{\text{ d}}\)\(\newcommand{\E}{\mathbb{E}}\)\(X\)滿足正態分佈\(N(\mu,\sigma^2)\)時,\(f(x)=\dfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)。我們以\(e\)爲底數計算\(h(X)=-\displaystyle\int_S f(x)\ln f(x)\d x\),那麼\(h(X)=-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\d x\)\(=-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}\d x-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln e^{-\frac{(x-\mu)^2}{2\sigma^2}}\d x\)\(=-\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}\displaystyle\int_{-\infty}^{+\infty}f(x)\d x+\displaystyle\int_{-\infty}^{+\infty}f(x)\cdot \frac{(x-\mu)^2}{2\sigma^2}\d x\),第一項根據概率密度函數的定義\(\displaystyle\int_{-\infty}^{+\infty}f(x)\d x=1\),第二項中根據方差的定義\(\displaystyle\int_{-\infty}^{+\infty}f(x)\cdot {(x-\mu)^2}\d x=\E[(X-\E[X])^2]=\text{Var}(X)=\sigma^2\),於是\(h(X)=\dfrac{1}{2}\ln(2\pi\sigma^2)+\dfrac{1}{2}=\dfrac{1}{2}\ln(2\pi e\sigma^2)\)

高維正態分佈

\(\newcommand{\Cov}{\text{Cov}}\newcommand{\Var}{\text{Var}}\)對於\(n\)維隨機向量\(X=(X_1,\cdots,X_n)\),定義隨機向量的期望\(\E[X]=(\E[X_1],\cdots,\E[X_n])\)。相應的,隨機矩陣的期望也定義爲每一項的期望形成的矩陣。那麼,定義隨機向量\(X\)的協方差(Covariance)矩陣爲\(\Cov(X)=\E[(X-\E[X])(X-\E[X])^\top]\)。對於\(i,j\in[n]\)\(\Cov(X)_{ij}=\E[(X_i-\E[X_i])(X_j-\E[X_j])]\)就稱爲\(X_i,X_j\)的協方差。注意到,\(\Cov(X)_{ii}=\E[(X_i-\E[X_i])^2=\Var[X_i]\),方差是一個隨機變量與自己的協方差。如果\(X_i,X_j\)獨立,那麼\(\Cov(X)_{ij}\)\(=\E[X_iX_j]-2\E[X_i]\E[X_j]\)\(+\E[X_i]\E[X_j]=0\),也即獨立隨機變量的協方差爲0。顯然,協方差矩陣是對稱的。同時,我們證明協方差矩陣是半正定的:\(\forall x\in \R^n\)\(x^\top \Cov(X)x=x^\top\E[(X-\E[X])(X-\E[X])^\top]x\)\(=\E[x^\top(X-\E[X])(X-\E[X])^\top x]=\E[((X-\E[x])^\top x)^2]\geq 0\)

如果存在一個\(n\times n\)的矩陣\(A\)以及一個\(n\)維向量\(\mu\)滿足\(X=A\xi+\mu\),其中\(\xi=(\xi_1,\cdots,\xi_n)\)\(\xi_i\sim N(0,1)\)且相互獨立,就稱\(X\)滿足高維正態分佈。下面我們計算一個滿足高維正態分佈的隨機向量\(X\)的協方差矩陣:\(\Cov(X)=\Cov(A\xi+\mu)\)\(=\E[(A\xi+\mu-\E[A\xi+\mu])(A\xi+\mu-\E[A\xi+\mu])^\top]\)\(=\E[(A\xi-\E[A\xi])(A\xi-\E[A\xi])^\top]\),而\(\E[\xi]=0\),那麼\(\Cov(X)=\E[(A\xi)(A\xi)^\top]=A\E[\xi\xi^\top]A^\top\)\(\forall i\neq j\)\(\E[\xi_i\xi_j]=\E[\xi_i]\E[\xi_j]=0\)\(\E[\xi_i^2]=\E[\xi_i^2]-\E[\xi_i]^2=\Var[\xi_i]=0\),因此\(\E[\xi\xi^\top]=I\),因此\(\Cov(X)=AA^\top\)。可見,高維正態分佈的協方差矩陣由\(A\)描述,我們把\(AA^\top\)記爲\(K\)

在概率論中我們證明了高維正態分佈有density \(f(x)=\dfrac{1}{(2\pi)^{\frac{n}{2}}|K|^\frac{1}{2}}e^{-\frac{1}{2}(x-\mu)^\top K^{-1}(x-\mu)}\)(見雷神筆記 Lecture17),可見\(n\)維正態分佈只與\(\mu,K\)有關,記爲\(X\sim \mathcal{N}(\mu,K)\)。此時可以計算化簡得到\(h(f)=-\displaystyle\int_{\R^n}f(x)\ln f(x)\d x=\dfrac{1}{2}\ln [(2\pi e)^n\cdot |K|]\)

正態分佈的最大熵性質

正態分佈是一種如此特殊的分佈:當滿足隨機變量給定期望和方差時,當且僅當它滿足正態分佈時微分熵最大。在中心極限定理中我們也能隱約感受到這一點,因爲任何分佈重複累加後都會趨向正態分佈,這說明正態分佈總能對應所有的可能性,也就是最大的不確定性。嚴格地,我們要證明對於任意隨機變量\(X\),若\(\E[X]=\mu,\Var[X]=\sigma^2\),則\(h(X)\leq \dfrac{1}{2}\ln(2\pi e\sigma^2)\),當且僅當\(X\sim N(\mu,\sigma^2)\)時取到等號。

我們用相對熵的非負性來證明這一點。對任意滿足要求的\(X\),取\(X_G\sim N(\mu,\sigma^2)\)。那麼成立\(D(f_X||f_{X_g})\geq 0\),也即\(\displaystyle\int_{\R}f_X(x)\ln \dfrac{f_X(x)}{f_{X_g}(x)}\d x\geq 0\)。那麼\(\displaystyle\int_{\R}f_X(x)\ln f_X(x)\d x\geq \displaystyle\int_{\R}f_X(x)\ln f_{X_g}(x)\),代入得到\(-h(f)\geq \displaystyle\int_{\R}f_X(x)\ln \left(\dfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\right)\d x\)\(=\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}-\displaystyle\int_{\R}f_X(x)\cdot \frac{(x-\mu)^2}{2\sigma^2}\d x\)\(=-\dfrac{1}{2}\ln(2\pi\sigma^2)-\dfrac{1}{2}\)。整理得\(h(f)\leq \dfrac{1}{2}\ln(2\pi e\sigma^2)\)。注意到\(f_X=f_{X_g}\)時取到等號,也即\(X\sim N(\mu,\sigma^2)\)

高斯信道(Gaussian Channel)

應用最廣泛的連續信道是高斯信道。在這裏,輸入信息允許被編碼成連續的隨機變量\(X\)。在這個模型下,我們假定\(X\)以“疊加”的方式受到一個噪聲\(Z\)\(Z\)滿足正態分佈\(\mathcal{N}(0,N)\),輸出\(Y=X+Z\)。其中,\(X\)\(Z\)獨立。

由於\(Z\)的分佈隨指數遞減,大部分的density都集中在\(0\)附近。所以如果我們能夠任意選擇\(X\)的編碼方式,我們完全可以把所有信息都編碼在原理\(0\)的位置,這樣噪聲就幾乎不能對信源造成影響。但在實際中\(X\)的編碼是有代價的,\(X\)的編碼越偏離\(0\)點所需的代價越高。因此在信息論中,我們定義高斯信道的能量限制(Energy Constraint):我們規定\(X\)的二階矩不能超過常數\(P\),也即添加額外限制\(\E[X^2]\leq P\)。那麼高斯信道的容量寫作\(C=\max\limits_{f(x):\E[X^2]\leq P}I(X;Y)\)

高斯信道的容量可以化簡爲只關於方差\(N\)與能量限制\(P\)的表達式。注意到由於\(Y\)是由\(X+Z\)定義的,\(I(X;Y)=h(Y)-h(Y\mid X)=h(Y)-h(X+Z\mid X)\)\(=h(Y)-h(Z\mid X)=h(Y)-h(Z)\),其中\(h(Z)\)已知等於\(\dfrac{1}{2}\ln(2\pi eN)\)。而\(\Var[Y]=\E[Y^2]-\E[Y]^2\leq \E[Y^2]=\E[(X+Z)^2]\)\(=\E[X^2]+2\E[X]\E[Z]+\E[Z^2]\)\(=\E[X^2]+0+\Var[Z]=\E[X^2]+N\leq P+N\)。根據最大熵原則,\(h(Y)\leq \dfrac{1}{2}\ln(2\pi e\Var[Y])\leq \dfrac{1}{2}\ln(2\pi e(P+N))\)。綜上,\(I(X;Y)\leq \dfrac{1}{2}\ln(2\pi e(P+N))-\dfrac{1}{2}\ln(2\pi eN)=\dfrac{1}{2}\ln\left(1+\dfrac{P}{N}\right)\)。而當\(X\sim \mathcal{N}(0,P)\)時等號成立,因此\(C=\dfrac{1}{2}\ln\left(1+\dfrac{P}{N}\right)\)。這就是高斯信道容量的一般表達式。

爲什麼我們總是假設噪聲滿足正態分佈呢?Shannon證明了,在所有以疊加方式產生干擾的噪聲\(Z\)中,如果方差給定,那麼正態分佈一定是使得信道容量最小的噪聲——正態分佈產生的干擾是最強的。嚴格地,可以證明\(\min\limits_{\E[Z^2]\leq N}\max\limits_{\E[X^2]\leq P}I(X;X+Z)=\max\limits_{\E[X^2]\leq P}I(X;X+Z),Z\sim \mathcal N(0,N)\)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章