算法工程師的數學基礎｜概率論

【算法工程師的數學基礎】系列將會從線性代數、微積分、數值優化、概率論、信息論五個方面進行介紹，感興趣的歡迎關注【搜索與推薦Wiki】公衆號，獲得最新文章。

《算法工程師的數學基礎》已更新：

概率論主要研究的是大量隨機現象中的數學規律，應用十分廣泛，比如貝葉斯、多分類等。

樣本空間

樣本空間是一個隨機實驗所有可能結果的集合。比如在拋硬幣實驗中，樣本空間爲：{正面，反面}；擲骰子實驗中，樣本空間爲：{1,2,3,4,5,6}。隨機實驗中的每個可能結果都稱爲樣本點。

有些實驗可能包含兩個或者多個樣本空間。比如在撲克牌的抽取實驗中，樣本空間可以是數字A到K，也可以是花色（紅黑方梅）。此時，如果需要完整的描述一張撲克牌，需要花色+數字，這時樣本空間可以通過構建上述兩個樣本的笛卡爾積來得到。

樣本空間中的樣本涉及 總體方差和樣本方差分母爲 $N、N-1$ 以及無偏估計問題，這裏我們簡單進行說明。

總體方差（variance）：總體中變量離其平均值距離的平均。比如一組數據 $x_1, x_2, ..., x_n$ ，則其方差表達式爲：
$\sigma ^2 = \frac{ \sum_{i=1}^{n} (x_i - \mu)^2 }{ n }$
樣本方差（variance）：樣本中變量離其平均值距離的平均。比如一組樣本數據爲 $x_1, x_2, ..., x_n$ ，則其方差表達式爲：
$S ^2 = \frac{ \sum_{i=1}^{n} (x_i - \bar {x})^2 }{ n -1}$

到這你可能會想：爲什麼樣本方差中分母是n-1而不是n？直接的原因是：樣本方差已經利用到n個數，在求方差時，只有 $n-1$ 個數和均值信息是不相關的，即第 $n$ 個數可以有其餘的 $n-1$ 個數和均值來唯一確定，實際上並沒有什麼信息量。所以在計算方差時，分母是 $n-1$ 。

下面從公式上解釋一下，這裏假設樣本方差 $S^2$ 的分母爲 $n$ 。
$\begin{aligned} S^2 & = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar x)^2 \\ & = \frac{1}{n} \sum_{i=1}^{n} ((x_i - \mu ) - ( \bar x - \mu ))^2 \\ & = \frac{1}{n} \sum_{i=1}^{n} ((x_i - \mu )^2- 2(x_i - \mu )( \bar x - \mu ) + ( \bar x - \mu )^2) \\ & = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu )^2 + \frac {2}{n} ( \bar x - \mu ) *( \sum_{i=1}^{n} x_i - n \mu ) + ( \bar x - \mu )^2 \\ & = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu )^2 - \frac {2}{n} ( \bar x - \mu ) * n * ( \frac{1}{n} \sum_{i=1}^{n} x_i - \mu ) + ( \bar x - \mu )^2 \\ & = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu )^2 - \frac {2}{n} ( \bar x - \mu ) * n * ( \bar x - \mu ) + ( \bar x - \mu )^2 \\ & = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu) ^ 2 - (\bar x - \mu)^2 \\ & = \sigma ^ 2 - \frac{1}{n}(\sum_{i=1}^{n} x_i - n \mu) ^2 \\ & = \sigma ^ 2 - \frac{1}{n} * \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu) ^2 \\ & = \sigma ^ 2 - \frac{1}{n} \sigma ^ 2 \\ & = \frac {n-1}{n} \sigma ^ 2 < \sigma ^ 2 \end{aligned}$
從公式推理上可以看出，如果分母是 $n$ 的話得到的方差會比總體的方差小那麼一點。接下來進行一個修正，上述公式兩邊同時乘上 $\frac{n}{n-1}$ 得：
$\frac{n}{n-1} S^2 = \frac{n}{n-1} \frac{n-1}{n} \sigma ^2 = \sigma ^2$
進行轉化如下：
$\begin{aligned} \frac{n}{n-1} S^2 & =\sigma ^2 \\ \frac{n}{n-1} \frac{1}{n} \sum_{i=1}^{n}(x_i - \bar x) &= \sigma ^2 \\ \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar x) &= \sigma ^2 \end{aligned}$
所以 $\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar x)$ 是總體方差得無偏估計量，而不能使用 $\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar x)$

事件和概率

隨機事件（或簡稱事件）指的是一個被賦予概率的事物集合，也就是樣本空間中的一個子集。概率表示一個隨機事件發生可能性的大小，爲0到1之間的一個非負實數。比如0.5表示一個事件有50%的可能性發生。

對於一個機會均等的拋硬幣事件來講，其樣本空間爲正面或者負面，我們可以定義各個隨機事件，並計算其概率。比如：

{正面}：概率爲0.5
{負面}：概率爲0.5
空集：即不是正面，也不是負面，概率爲0
{正面 | 負面}：正面或者負面，概率爲1

隨機變量

在隨機實驗中，實驗的結果可以用一個數X表示，這個數X是隨着實驗結果的不同而變化的，是樣本點的一個函數，我們把這種數稱爲隨機變量。例如隨機投擲一枚骰子，得到的點數就可以看作是一個隨機變量X，X的取值爲 $\{1,2,3,4,5,6\}$ 。

如果投擲兩枚骰子，整個事件空間 $\Omega$ 可以由36個元素組成：
$\Omega = \{(i,j) | i=1,2,3,4,5,6; j=1,2,3,4,5,6\}$
一個隨機事件也可以定義多個隨機變量。比如在擲兩個骰子的隨機實驗中，可以定義隨機變量 $X$ 爲獲得的兩個骰子的點數和，也可以定義隨機變量 $Y$ 爲獲得的兩個骰子的點數差。隨機變量 $X$ 可以有11個整數值，而隨機變量Y只有6個。

離散型隨機變量

如果隨機變量 $X$ 所有可能取的值爲有限可列舉的，有n個有限取值： $\{x_1,...,x_n\}$ ，則稱 $X$ 爲離散型隨機變量。

要了解 $X$ 的統計規律，就必須要知道他取每種可能取值的 $x_i$ 的概率，即：
$P(X=x_i)=p(x_i) , \forall i \in [1,n]$

$p(x_1),...,p(x_n)$ 稱爲離散型隨機變量 $X$ 的概率分佈（Probability Distributuin）或分佈，並且滿足：
$\begin{matrix} \sum_{i=1}^{n} p(x_i) &=1 & \\ p(x_i) & \geq 0 &,\forall i \in [0,1] \end{matrix}$

常見的離散型隨機變量概率分佈有：

伯努利分佈
二項分佈

伯努利分佈
在一次實驗中，事件 $A$ 出現的概率爲 $\mu$ ，不出現的概率爲 $1- \mu$ ，若用變量 $X$ 表示事件 $A$ 出現的次數，則 $X$ 的取值爲0或1，其相應的分佈爲：
$p(x) = \mu^x (1-\mu)^{1-x}$

這個分佈稱爲伯努利分佈（Bernoulli Distribution），又名兩點分佈或者0-1分佈。

二項分佈
在 $n$ 項伯努利分佈中，若以變量 $X$ 表示事件 $A$ 出現的次數，則 $X$ 的取值爲： $\{0,1,2,3,...,n\}$ ，其相應的分佈爲二項分佈（Binomial Distribution）。
$P(X=k)=\binom{n}{k} \mu^k(1-\mu)^{n-k}, k=1,2,....,n$
其中 $\binom{n}{k}$ 爲二項式係數（這就是二項式分佈的名稱的由來），表示從 $n$ 個元素中取出 $k$ 個元素而不考慮其順序的組合的總數。

連續型隨機變量

與離散型隨機變量不同，一些隨機變量 $X$ 的取值是不可列舉的，由全部實數或者由一部分區間組成，比如：
$X=\{x | a \leq x \leq b\}, -\infty < a < b < \infty$
則稱 $X$ 爲連續隨機變量，連續隨機變量的值是不可數或者無窮盡的。

對於連續型隨機變量 $X$ ，他取一個具體值 $x_i$ 的概率爲0，這和離散隨機變量截然不同，因此用列舉連續隨機變量取某個值的概率來描述這種隨機變量不但做不到，也毫無意義。

連續隨機變量 $X$ 的概率分佈一般用概率密度函數（probability density function，PDF） $p(x)$ 來描述， $p(x)$ 爲可積函數，並滿足：
$\begin{matrix} \int_{-\infty }^{\infty} p(x) d(x) & =1 \\ p(x) & \geq 0 \end{matrix}$
給定概率密度函數 $p(x)$ ，便可以計算出隨機變量落入某一區間的概率，而 $p(x)$ 本身反映了隨機變量取值落入 $x$ 的非常小的鄰近區間中的概率大小。

常見的連續隨機變量的概率分佈有：

均勻分佈
正態分佈

均勻分佈

若 $a,b$ 爲有限數，則 $[a,b]$ 上的均勻分佈（uniform distribution）概率密度函數定義爲：
$p(x) = \left\{\begin{matrix} \frac{1}{b-a} &, a \leq x \leq b \\ 0 &, x >a \, or \, x < b \end{matrix}\right.$
正態分佈
正態分佈（Normal Distribution），又名高斯分佈（Guassian Distribution），是最常見的一種分佈，並且具有很多良好的性質，其概率密度函數爲：
$p(x) = \frac{1}{ \sigma \sqrt{2\pi} } exp(- \frac{(x-\mu)^2}{\sigma^2})$
其中 $\sigma>0$ ， $\mu,\sigma$ 均爲常數。若隨機變量 $X$ 服從一個參數爲 $\sigma$ 和 $\mu$ 的概率分佈，簡記爲： $X~N(\mu, \sigma^2)$ ，其中 $\mu$ 爲均值， $\sigma^2$ 爲方差。

當 $\mu=0, \sigma=1$ 稱爲標準正態分佈（Standard Normal Distribution）。

均勻分佈和正態分佈的圖像如下圖所示：

累積分佈函數

對於一個隨機變量 $X$ ，其累積分佈函數（Cumulative Distribution Function，CDF）是隨機變量 $X$ 的取值小於等於 $x$ 的概率。
$cdf(x) = P(X\leq x)$
以隨機變量 $X$ 爲例，累積分佈函數定義爲：
$cdf(x) = \int_{a}^{b} p(t)d(t)$
其中 $p(x)$ 爲概率密度函數，下圖給出了標準正態分佈的累積分佈函數：

隨機向量

隨機向量是指一組隨機變量構成的向量，如果 $[x_1,x_2,...,x_n]$ 爲 $n$ 個隨機變量，那麼稱 $[x_1,x_2,...,x_n]$ 爲一個 $n$ 維隨機向量，一維隨機向量稱爲隨機變量。

隨機向量也分爲離散隨機向量和連續隨機向量。

離散隨機向量

離散隨機變量的聯合概率分佈（Joint Probability Distribution）爲：
$P(X_1 = x_1, X_2 = x_2, ..., X_n = x_n) = p(x_1, x_2, ..., x_n)$
其中 $x_i \in w_i$ 爲變量 $X_i$ 的取值， $w_i$ 爲變量 $X_i$ 的樣本空間。

和離散隨機變量類似，離散隨機向量的概率分佈滿足：
$p(x_1, x_2, ..., x_n) \geq 0, \forall x_1 \in w_1,x_2 \in w_2, ..., x_n \in w_n \\ \sum_{x_1 \in w_1}\sum_{x_2 \in w_2}...\sum_{x_n \in w_n} p(x_1, x_2, ..., x_n) \geq 0$

多項分佈
一個常見的離散隨機向量概率分佈爲多項分佈（Multinomial Distribution），多項分佈是二項分佈在隨機向量的推廣。假設一個袋子中裝了很多球，總共有 $K$ 個不同顏色，我們從袋子中取出 $n$ 個球，每次取出一個球時，就在袋子中放入一個同樣顏色的球，這樣保證同一顏色的球在不同實驗中被取出的概率是相等的。

令 $X$ 爲一個 $K$ 維隨機向量，每個元素 $X_k（k=1,2,3,...,K）$ 爲取出的 $K$ 個球中顏色爲 $k$ 的球的數量，則 $X$ 服從多項分佈，其概率分佈爲：
$p(x_1,x_2,...,x_K|\mu) = \frac{n!}{ x_1! ... x_K!} \mu_1^{x_1},...,\mu_K^{x_K}$
其中 $\mu=[\mu_1, ..., \mu_K]^T$ 分別爲每次抽取的球的顏色爲1,…, $K$ 的概率， $x_1,...,x_K$ 爲非負整數，並且滿足 $\sum_{k=1}^{K}x_k=n$ 。

多項分佈的概率分佈也可以用gamma函數表示：
$p(x_1,x_2,...,x_K|\mu) = \frac{ \Gamma (\sum_{k} x_k + 1) }{ \Pi _k \Gamma(x_k+1) } \Pi _{k=1}^{K} \mu_k ^{x_k}$
其中$\Gamma(z) = \int_{0}^{{\infty}\frac{t}{z-1}}{exp(t)}d(t) $爲gamma函數，這種表示形式和Dirichlet分佈類似，而Derichlet分佈可以作爲多項分佈的共軛先驗。

連續隨機向量

連續隨機向量的聯合概率密度函數（Joint Probability Density Function）滿足：
$\begin{matrix} p(x) =p(x_1, ...,x_n) & \geq 0 \\ \int_{-\infty}^{\infty} ... \int_{-\infty}^{\infty} p(x_1,...,x_n)dx_1...dx_n & =1 \end{matrix}$

多元正態分佈
一個常見的連續隨機向量分佈爲多元正態分佈（Multivariate Normal Distribution），也稱爲多元高斯分佈（Multivariate Gaussian Distribution）。若 $n$ 維隨機向量 $X=[X_1, ..., X_n]^T$ 服從 $n$ 元正態分佈，其密度函數爲：
$p(x) = \frac{1}{ (2\pi)^{n/2} |\Sigma| ^{1/2} } exp( -\frac{1}{2} (x-\mu)^T \Sigma^{-1}(x-\mu) )$
其中 $\mu$ 爲多元正態分佈的均值向量， $\Sigma$ 爲多元正態分佈的協方差矩陣， $|\Sigma|$ 表示 $\Sigma$ 的行列式。

各項同性高斯分佈

如果一個多元高斯分佈的協方差矩陣簡化爲 $\Sigma=\sigma^2 I$ ，即每一維隨機變量都獨立並且方差相同，那麼這個多元高斯分佈稱爲各項同性高斯分佈（Isotropic Guassian Distribution）

Dirichlet分佈

一個 $n$ 維隨機向量 $X$ 的Dirichlet分佈爲：
$p(x|a) = \frac{ \Sigma(a_0) }{ \Sigma(a_1) ... \Sigma(a_n) } \Pi_{i=1}^{n} x_i ^{a_i-1}$
其中 $a=[a_1, ..., a_K]^T$ 爲Dirichlet分佈的參數。

邊際分佈

對於二維離散隨機向量 $(X,Y)$ ，假設 $X$ 取值空間爲 $\Omega_x$ ， $Y$ 取值空間爲 $\Omega_y$ ，其聯合概率分佈滿足
$p(x,y) >0, \sum_{x \in \Omega_x} \sum_{y \in \Omega_y} p(x_i, y_j)=1$

對於聯合概率分佈 $p(x,y)$ ，我們可以分別對 $x$ 和 $y$ 進行求和。

（1）對於固定的 $x$ ： $\sum_{y \in \Omega_y} p(x,y)=P(X=x)=p(x)$

（2）對於固定的 $y$ ： $\sum_{x \in \Omega_x} p(x,y)=P(Y=y)=p(y)$

由離散隨機向量 $(X,Y)$ 的聯合概率分佈，對 $Y$ 的所有取值進行求和得到 $X$ 的概率分佈，而對 $X$ 的所有取值進行求和得到 $Y$ 的概率分佈。這裏 $p(x),p(y)$ 就稱爲 $p(x,y)$ 的邊際分佈（Marginal Distribution）。

對於二維連續隨機向量 $(X,Y)$ ，其邊際分佈爲：
$\begin{matrix} p(x) & = \int_{-\infty}^{ \infty}p(x,y) dy \\ p(y) & = \int_{-\infty}^{ \infty}p(x,y) dx \end{matrix}$
一個二元正態分佈的邊際分佈仍爲正態分佈。

條件概率分佈

對於離散隨機向量 $(X,Y)$ ，已知 $X=x$ 的條件下，隨機變量 $Y=y$ 的條件概率（Conditional Probability）爲：
$p(y|x) = P(Y=y|X=x) = \frac{p(x,y)}{p(x)}$
這個公式定義了隨機變量 $Y$ 關於隨機變量 $X$ 的條件概率分佈（Conditional Probability Distribution），簡稱條件分佈。

對於二維連續隨機向量 $(X,Y)$ ，已知 $X=x$ 的條件下，隨機變量 $Y=y$ 的條件概率密度函數（Contidional Probability Density Function）爲：
$p(y|x) = \frac{p(x,y)}{p(x)}$
同理，已知 $Y=y$ 的條件下，隨機變量 $X=x$ 的條件概率密度函數爲：
$p(x|y) = \frac{p(x,y)}{p(y)}$
通過上邊的兩個公式，我們可以得到兩個條件概率 $p(y|x)$ 和 $p(x|y)$ 之間的關係。
$p(y|x) = \frac{p(x|y) p(y)}{p(x)}$
這個公式稱爲貝葉斯定理（Bayes’ theirem）或者貝葉斯公式。

獨立與條件獨立

對於兩個離散（或連續）隨機變量 $X,Y$ ，如果其聯合概率（或聯合概率密度函數） $p(x,y)$ 滿足：
$p(x,y)=p(x)p(y)$
則稱 $X,Y$ 相互獨立（independence），記爲 $X \perp Y$

期望和方差

期望

對於離散變量 $X$ ，其概率分佈爲 $p(x_1), ..., p(x_n)$ ， $X$ 的期望（expection）或均值定義爲：
$E[X]=\sum_{i=1}^{n}x_i p(x_i)$
對於連續隨機變量 $X$ ，概率密度函數爲 $p(x)$ ，其期望定義爲：
$E[X]=\int_{R} xp(x)dx$

方差
隨機變量 $X$ 的方差（variance）用來定義他的概率分佈的離散程度，定義爲：
$var(X) = E[(X-E[X])^2]$
隨機變量 $X$ 的方差也稱爲他的二階距。 $\sqrt{var(X)}$ 稱爲 $X$ 的根方差或標準差。

協方差

兩個連續隨機變量 $X,Y$ 的協方差（covariance）用來衡量兩個隨機變量的分佈之間的總體變化性，定義爲：
$cov(X,Y) = E[(X-E[X])(Y-E[Y])]$

協方差經常也用來衡量兩個隨機變量之間的線性相關性。如果兩個隨機變量的協方差爲0，那麼稱這兩個隨機變量是線性不相關。兩個隨機變量之間沒有線性相關性，並非表示它們之間獨立的，可能存在某種非線性的函數關係。反之，如果 $X,Y$ 是統計獨立的，那麼它們之間的協方差一定爲0。

協方差矩陣

兩個 $m$ 和 $n$ 維連續隨機向量 $X$ 和 $Y$ ，它們的協方差（covariance）爲 $m*n$ 的矩陣，定義爲：
$cov(X,Y) = e[(X-E[X])(Y-E[Y])^T]$
協方差矩陣 $cov(X,Y)$ 的第 $(i,j)$ 個元素等於隨機變量 $X_i$ 和 $Y_j$ 的協方差。兩個向量變量的協方差 $cov(X,Y)$ 與 $cov(Y,X)$ 互爲轉置關係。

如果兩個隨機向量的協方差矩陣爲對角陣，那麼稱這兩個隨機向量時無關的。

單個隨機向量 $X$ 的協方差矩陣定義爲：
$cov(X)=cov(X,X)$

隨機過程

隨機過程（Stochastic Process）是一組隨機變量 $X_t$ 的集合，其中 $t$ 屬於一個索引（index）集合 $\tau$ 。索引集合 $\tau$ 可以定義在時間域或者空間域，但一般爲時間域，以實數或正數表示。當 $t$ 爲實數時，隨機過程爲連續隨機過程；當 $t$ 爲整數時，爲離散隨機過程。

日常生活中的很多例子包括股票的波動、語音信號、身高的變化等都可以看作是隨機過程。常見的和時間相關的隨機過程模型包括：伯努利分佈過程、隨機遊走、馬爾可夫過程等。和空間相關的隨機過程常稱爲隨機場（Random Field）。比如一張二維的照片，每個像素點（變量）通過空間的位置進行索引，這些像素就組成了一個隨機過程。

馬爾可夫過程

馬爾科夫性質

在隨機過程中，馬爾科夫性質（Markov Property）是指一個隨機過程在給定現在狀態及所有過去狀態情況下，其未來狀態的條件概率分佈僅依賴於當前狀態。

以離散隨機過程爲例，假設隨機變量 $X_0,X_1,...,X_T$ 構成一個隨機過程。這些隨機變量的所有可能取值的集合被稱爲狀態空間（State Space）。如果 $X_{t+1}$ 對於過去狀態的條件概率分佈僅是 $X_t$ 的一個函數，則：
$P(X_{t+1} = x_{t+1}|X_{0:t} = x_{0:t}) = P(X_{t+1} = x_{t+1}|X_t=x_t)$
其中 $X_0:t$ 表示變量集合 $X_0, X_1, ..., X_t$ ， $x_{0:t}$ 爲狀態空間中的狀態序列。

馬爾可夫性質也可以描述爲給定當前狀態時，將來的狀態與過去狀態是條件獨立的。

馬爾可夫鏈
離散時間的馬爾可夫過程也稱爲馬爾可夫鏈（Markov Chain）。如果一個馬爾可夫鏈的條件概率爲：
$P(X_{t+1} = s_i | X_t=s_j) = T(s_i, s_j)$
在不同時間都是不變的，即和時間 $t$ 無關，則稱爲時間同質的馬爾可夫鏈（Time Homogeneous Markov Chain）。如果狀態空間是有限的， $T(s_i, s_j)$ 也可以用一個矩陣 $T$ 表示，稱爲狀態轉移矩陣（Transition Matrix），其中元素 $t_{ij}$ 表示狀態 $s_i$ 轉移到狀態 $s_j$ 的概率。

平穩分佈假設狀態空間大小爲 $M$ ，向量 $\pi = [\pi_1, ..., \pi_M]^T$ 爲狀態空間中的一個分佈，滿足 $0 \geq \pi_i \geq 1$ 和 $\sum_{i=1}^{M}\pi_i = 1$ 。

對於狀態轉移矩陣爲 $T$ 的時間同質的馬爾可夫鏈，如果存在一個分佈 $\pi$ 滿足：
$\pi = T\pi$
即分佈 $\pi$ 就稱爲該馬爾可夫鏈的平穩分佈（Stationary Distribution）。根據特徵向量的定義可知， $\pi$ 爲矩陣 $T$ 的（歸一化）的對應特徵值爲1的特徵向量。

如果一個馬爾可夫鏈的狀態轉移矩陣 $T$ 滿足所有狀態可遍歷性以及非週期性，那麼對於任意一個初始狀態分佈 $\pi^{(0)}$ ，將經過一定時間的狀態轉移之後，都會收斂到平穩分佈，即：
$\pi = \lim_{N \rightarrow \infty} T^N\pi^{(0)}$

細緻平穩條件（Detailed Balance Condition） 如果一個馬爾可夫鏈滿足：
$\pi_i t_{ij} = \pi_j t_{ji}$
則一定會收斂到平穩分佈 $\pi$ 。

細緻平穩條件保證了從狀態 $i$ 轉移到狀態 $j$ 的數量和從狀態 $j$ 轉移到狀態 $i$ 的數量相一致，相互抵消，所以數量不發生改變。

細緻平穩條件只是馬爾可夫鏈收斂的充分條件，不是必要條件。

高斯過程

高斯過程（Gaussian Process）

高斯過程也是一種應用廣泛的隨機過程模型。假設有一組連續隨機變量 $X_0, X_1,...,X_T$ ，如果由這組隨機變量構成的任一有限集合：
$X_{t_1,...,t_k} = [X_{t_1}, ...,X_{t_n}]^T$
都服從一個多元正態分佈，那麼這組隨機變量爲一個隨機過程。高斯過程也可以定義爲：如果 $X_{t_1,...,t_k}$ 的任一線性組合都服從一元正態分佈，那麼這組隨機變量爲一個隨機過程。

高斯過程迴歸
高斯過程迴歸（Gaussion Process Regression）是利用高斯過程來對一個函數分佈進行建模。和機器學習中參數化建模（比如貝葉斯線性迴歸）相比，高斯過程是一種非參數模型，可以擬合一個黑盒函數，並給出擬合結果的置信度。

假設一個未知函數 $f(x)$ 服從高斯過程，且爲平滑函數。如果兩個樣本 $x_1,x_2$ 比較接近，那麼對應的 $f(x_1), f(x_2)$ 也比較接近。假設從函數 $f(x)$ 中採樣有限個樣本 $X=[x_1, x_2, ..., x_N]$ ，這 $N$ 個點服從一個多元正態分佈，記作：
$[f(x_1), f(x_2), ..., f(x_N)]^T \sim N(\mu(X), K(X,X))$
其中 $\mu(X)=[\mu(x_1), \mu(x_2), ..., \mu(x_N)]^T$ 是均值向量， $K(X,X)=[k(x_i, x_j)]_{N*N}$ 是協方差矩陣， $k(x_i, x_j)$ 爲核函數，可以衡量兩個樣本的相似度。

在高斯過程迴歸，一個常用的核函數是平方指數（Squard Exponential）函數：
$k(x_i, x_j) = exp(\frac{- ||x_i - x_j||^2}{2l^2})$
其中 $l$ 爲超參數。當 $x_i$ 和 $x_j$ 越接近，其核函數的值越大，表明 $f(x_i)$ 和 $f(x_j)$ 越相關。

假設 $f(x)$ 的一組帶噪聲的觀測值爲 $\{ (x_n, y_n)\}_{n=1}^{N}$ ，其中 $y_n \sim N(f(x_n), \sigma^2)$ 爲正態分佈， $\sigma$ 爲噪聲方差。

對於一個新的樣本點 $x^*$ ，我們希望預測函數 $y^*=f(x^*)$ 。令 $y=[y_1, y_2,...,y_n]$ 爲已有的觀測值，根據高斯過程的假設， $[y; y^*]$ 滿足：
$\begin{bmatrix} y \\ y^* \end{bmatrix} \sim N( \begin{bmatrix} \mu(X) \\ \mu(x^*) \end{bmatrix}, \begin{bmatrix} K(X,X)+\sigma^2 I & K(x^*, X)^T\\ K(x^*, X) & k(x^*, x^*) \end{bmatrix} )$
其中 $K(x^*, X)=[k(x^*, x_1), ..., k(x^*, x_n)]$ 。

根據上面的聯合分佈， $y^*$ 的後驗分佈爲：
$p(y^* |X, y) = N(\tilde {\mu}, \tilde{\sigma}^2)$

其中均值 $\tilde {\mu}$ 和方差 $\tilde{\sigma}$ 爲：
$\tilde{\mu} = K(x^*, X)(K(X,X) + \sigma^2 I)^{-1}(y-\mu(X)) + \mu(x^*) \\ \tilde{\sigma}^2 = k(x^*, x^*) - K(x^*, X)(K(X,X) + \sigma^2 I)^{-1} K(x^*, X)^T$
從上面的公式可以看出，均值函數 $\mu(x)$ 可以近似地互相抵消。在實際應用中，一般假設 $\mu(x)=0$ ，均值 $\tilde{\mu}$ 可以化簡爲：
$\tilde {\mu} = K(x^*, X)( K(X,X) + \sigma^2 I )^{-1} y$
高斯過程迴歸可以認爲是一種有效的貝葉斯優化方法，廣泛地應用於機器學習中。

【技術服務】，詳情點擊查看： https://mp.weixin.qq.com/s/PtX9ukKRBmazAWARprGIAg

掃一掃關注微信公衆號！號主專注於搜索和推薦系統，嘗試使用算法去更好的服務於用戶，包括但不侷限於機器學習，深度學習，強化學習，自然語言理解，知識圖譜，還不定時分享技術，資料，思考等文章！

算法工程師的數學基礎｜概率論

樣本空間

事件和概率

隨機變量

離散型隨機變量

連續型隨機變量

累積分佈函數

隨機向量

離散隨機向量

連續隨機向量

邊際分佈

條件概率分佈

獨立與條件獨立

期望和方差

隨機過程

馬爾可夫過程

高斯過程

獨孤九劍：算法模型訓練的一般流程

傳統機器學習和前沿深度學習推薦模型演化關係介紹

TensorFlow的邏輯迴歸實現

論文｜LinUCB論文的思想解讀、場景應用與痛點說明

常見的五種神經網絡(4)-深度信念網絡（下）篇之深度信念網絡的原理解讀、參數學習

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結