【算法工程師的數學基礎】系列將會從線性代數、微積分、數值優化、概率論、信息論五個方面進行介紹,感興趣的歡迎關注【搜索與推薦Wiki】公衆號,獲得最新文章。
《算法工程師的數學基礎》已更新:
概率論主要研究的是大量隨機現象中的數學規律,應用十分廣泛,比如貝葉斯、多分類等。
樣本空間
樣本空間是一個隨機實驗所有可能結果的集合。比如在拋硬幣實驗中,樣本空間爲:{正面,反面};擲骰子實驗中,樣本空間爲:{1,2,3,4,5,6}。隨機實驗中的每個可能結果都稱爲樣本點。
有些實驗可能包含兩個或者多個樣本空間。比如在撲克牌的抽取實驗中,樣本空間可以是數字A到K,也可以是花色(紅黑方梅)。此時,如果需要完整的描述一張撲克牌,需要花色+數字,這時樣本空間可以通過構建上述兩個樣本的笛卡爾積來得到。
樣本空間中的樣本涉及 總體方差和樣本方差分母爲N 、 N − 1 N、N-1 N 、 N − 1 以及 無偏估計 問題,這裏我們簡單進行說明。
總體方差(variance):總體中變量離其平均值距離的平均。比如一組數據x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x 1 , x 2 , . . . , x n ,則其方差表達式爲:
σ 2 = ∑ i = 1 n ( x i − μ ) 2 n
\sigma ^2 = \frac{ \sum_{i=1}^{n} (x_i - \mu)^2 }{ n }
σ 2 = n ∑ i = 1 n ( x i − μ ) 2
樣本方差(variance):樣本中變量離其平均值距離的平均。比如一組樣本數據爲x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x 1 , x 2 , . . . , x n ,則其方差表達式爲:
S 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1
S ^2 = \frac{ \sum_{i=1}^{n} (x_i - \bar {x})^2 }{ n -1}
S 2 = n − 1 ∑ i = 1 n ( x i − x ˉ ) 2
到這你可能會想:爲什麼樣本方差中分母是n-1而不是n?直接的原因是:樣本方差已經利用到n個數,在求方差時,只有n − 1 n-1 n − 1 個數和均值信息是不相關的,即第n n n 個數可以有其餘的n − 1 n-1 n − 1 個數和均值來唯一確定,實際上並沒有什麼信息量。所以在計算方差時,分母是n − 1 n-1 n − 1 。
下面從公式上解釋一下,這裏假設樣本方差S 2 S^2 S 2 的分母爲n n n 。
S 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 = 1 n ∑ i = 1 n ( ( x i − μ ) − ( x ˉ − μ ) ) 2 = 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( x i − μ ) ( x ˉ − μ ) + ( x ˉ − μ ) 2 ) = 1 n ∑ i = 1 n ( x i − μ ) 2 + 2 n ( x ˉ − μ ) ∗ ( ∑ i = 1 n x i − n μ ) + ( x ˉ − μ ) 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ( x ˉ − μ ) ∗ n ∗ ( 1 n ∑ i = 1 n x i − μ ) + ( x ˉ − μ ) 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ( x ˉ − μ ) ∗ n ∗ ( x ˉ − μ ) + ( x ˉ − μ ) 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 − ( x ˉ − μ ) 2 = σ 2 − 1 n ( ∑ i = 1 n x i − n μ ) 2 = σ 2 − 1 n ∗ 1 n ∑ i = 1 n ( x i − μ ) 2 = σ 2 − 1 n σ 2 = n − 1 n σ 2 < σ 2
\begin{aligned}
S^2 & = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar x)^2 \\
& = \frac{1}{n} \sum_{i=1}^{n} ((x_i - \mu ) - ( \bar x - \mu ))^2 \\
& = \frac{1}{n} \sum_{i=1}^{n} ((x_i - \mu )^2- 2(x_i - \mu )( \bar x - \mu ) + ( \bar x - \mu )^2) \\
& = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu )^2 + \frac {2}{n} ( \bar x - \mu ) *( \sum_{i=1}^{n} x_i - n \mu ) + ( \bar x - \mu )^2 \\
& = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu )^2 - \frac {2}{n} ( \bar x - \mu ) * n * ( \frac{1}{n} \sum_{i=1}^{n} x_i - \mu ) + ( \bar x - \mu )^2 \\
& = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu )^2 - \frac {2}{n} ( \bar x - \mu ) * n * ( \bar x - \mu ) + ( \bar x - \mu )^2 \\
& = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu) ^ 2 - (\bar x - \mu)^2 \\
& = \sigma ^ 2 - \frac{1}{n}(\sum_{i=1}^{n} x_i - n \mu) ^2 \\
& = \sigma ^ 2 - \frac{1}{n} * \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu) ^2 \\
& = \sigma ^ 2 - \frac{1}{n} \sigma ^ 2 \\
& = \frac {n-1}{n} \sigma ^ 2 < \sigma ^ 2
\end{aligned}
S 2 = n 1 i = 1 ∑ n ( x i − x ˉ ) 2 = n 1 i = 1 ∑ n ( ( x i − μ ) − ( x ˉ − μ ) ) 2 = n 1 i = 1 ∑ n ( ( x i − μ ) 2 − 2 ( x i − μ ) ( x ˉ − μ ) + ( x ˉ − μ ) 2 ) = n 1 i = 1 ∑ n ( x i − μ ) 2 + n 2 ( x ˉ − μ ) ∗ ( i = 1 ∑ n x i − n μ ) + ( x ˉ − μ ) 2 = n 1 i = 1 ∑ n ( x i − μ ) 2 − n 2 ( x ˉ − μ ) ∗ n ∗ ( n 1 i = 1 ∑ n x i − μ ) + ( x ˉ − μ ) 2 = n 1 i = 1 ∑ n ( x i − μ ) 2 − n 2 ( x ˉ − μ ) ∗ n ∗ ( x ˉ − μ ) + ( x ˉ − μ ) 2 = n 1 i = 1 ∑ n ( x i − μ ) 2 − ( x ˉ − μ ) 2 = σ 2 − n 1 ( i = 1 ∑ n x i − n μ ) 2 = σ 2 − n 1 ∗ n 1 i = 1 ∑ n ( x i − μ ) 2 = σ 2 − n 1 σ 2 = n n − 1 σ 2 < σ 2
從公式推理上可以看出,如果分母是n n n 的話得到的方差會比總體的方差小那麼一點。接下來進行一個修正,上述公式兩邊同時乘上n n − 1 \frac{n}{n-1} n − 1 n 得:
n n − 1 S 2 = n n − 1 n − 1 n σ 2 = σ 2
\frac{n}{n-1} S^2 = \frac{n}{n-1} \frac{n-1}{n} \sigma ^2 = \sigma ^2
n − 1 n S 2 = n − 1 n n n − 1 σ 2 = σ 2
進行轉化如下:
n n − 1 S 2 = σ 2 n n − 1 1 n ∑ i = 1 n ( x i − x ˉ ) = σ 2 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) = σ 2
\begin{aligned}
\frac{n}{n-1} S^2 & =\sigma ^2 \\
\frac{n}{n-1} \frac{1}{n} \sum_{i=1}^{n}(x_i - \bar x) &= \sigma ^2 \\
\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar x) &= \sigma ^2
\end{aligned}
n − 1 n S 2 n − 1 n n 1 i = 1 ∑ n ( x i − x ˉ ) n − 1 1 i = 1 ∑ n ( x i − x ˉ ) = σ 2 = σ 2 = σ 2
所以1 n − 1 ∑ i = 1 n ( x i − x ˉ ) \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar x) n − 1 1 ∑ i = 1 n ( x i − x ˉ ) 是總體方差得無偏估計量,而不能使用1 n ∑ i = 1 n ( x i − x ˉ ) \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar x) n 1 ∑ i = 1 n ( x i − x ˉ )
事件和概率
隨機事件(或簡稱事件)指的是一個被賦予概率的事物集合,也就是樣本空間中的一個子集。概率表示一個隨機事件發生可能性的大小,爲0到1之間的一個非負實數。比如0.5表示一個事件有50%的可能性發生。
對於一個機會均等的拋硬幣事件來講,其樣本空間爲正面或者負面,我們可以定義各個隨機事件,並計算其概率。比如:
{正面}:概率爲0.5
{負面}:概率爲0.5
空集:即不是正面,也不是負面,概率爲0
{正面 | 負面}:正面或者負面,概率爲1
隨機變量
在隨機實驗中,實驗的結果可以用一個數X表示,這個數X是隨着實驗結果的不同而變化的,是樣本點的一個函數,我們把這種數稱爲隨機變量。例如隨機投擲一枚骰子,得到的點數就可以看作是一個隨機變量X,X的取值爲{ 1 , 2 , 3 , 4 , 5 , 6 } \{1,2,3,4,5,6\} { 1 , 2 , 3 , 4 , 5 , 6 } 。
如果投擲兩枚骰子,整個事件空間Ω \Omega Ω 可以由36個元素組成:
Ω = { ( i , j ) ∣ i = 1 , 2 , 3 , 4 , 5 , 6 ; j = 1 , 2 , 3 , 4 , 5 , 6 }
\Omega = \{(i,j) | i=1,2,3,4,5,6; j=1,2,3,4,5,6\}
Ω = { ( i , j ) ∣ i = 1 , 2 , 3 , 4 , 5 , 6 ; j = 1 , 2 , 3 , 4 , 5 , 6 }
一個隨機事件也可以定義多個隨機變量。比如在擲兩個骰子的隨機實驗中,可以定義隨機變量X X X 爲獲得的兩個骰子的點數和,也可以定義隨機變量Y Y Y 爲獲得的兩個骰子的點數差。隨機變量X X X 可以有11個整數值,而隨機變量Y只有6個。
離散型隨機變量
如果隨機變量X X X 所有可能取的值爲有限可列舉的,有n個有限取值:{ x 1 , . . . , x n } \{x_1,...,x_n\} { x 1 , . . . , x n } ,則稱X X X 爲離散型隨機變量。
要了解X X X 的統計規律,就必須要知道他取每種可能取值的x i x_i x i 的概率,即:
P ( X = x i ) = p ( x i ) , ∀ i ∈ [ 1 , n ]
P(X=x_i)=p(x_i) , \forall i \in [1,n]
P ( X = x i ) = p ( x i ) , ∀ i ∈ [ 1 , n ]
p ( x 1 ) , . . . , p ( x n ) p(x_1),...,p(x_n) p ( x 1 ) , . . . , p ( x n ) 稱爲離散型隨機變量X X X 的概率分佈(Probability Distributuin)或分佈,並且滿足:
∑ i = 1 n p ( x i ) = 1 p ( x i ) ≥ 0 , ∀ i ∈ [ 0 , 1 ]
\begin{matrix}
\sum_{i=1}^{n} p(x_i) &=1 & \\
p(x_i) & \geq 0 &,\forall i \in [0,1]
\end{matrix}
∑ i = 1 n p ( x i ) p ( x i ) = 1 ≥ 0 , ∀ i ∈ [ 0 , 1 ]
常見的離散型隨機變量概率分佈有:
伯努利分佈
在一次實驗中,事件A A A 出現的概率爲μ \mu μ ,不出現的概率爲1 − μ 1- \mu 1 − μ ,若用變量X X X 表示事件A A A 出現的次數,則X X X 的取值爲0或1,其相應的分佈爲:
p ( x ) = μ x ( 1 − μ ) 1 − x
p(x) = \mu^x (1-\mu)^{1-x}
p ( x ) = μ x ( 1 − μ ) 1 − x
這個分佈稱爲伯努利分佈(Bernoulli Distribution),又名兩點分佈或者0-1分佈。
二項分佈
在n n n 項伯努利分佈中,若以變量X X X 表示事件A A A 出現的次數,則X X X 的取值爲:{ 0 , 1 , 2 , 3 , . . . , n } \{0,1,2,3,...,n\} { 0 , 1 , 2 , 3 , . . . , n } ,其相應的分佈爲二項分佈(Binomial Distribution)。
P ( X = k ) = ( n k ) μ k ( 1 − μ ) n − k , k = 1 , 2 , . . . . , n
P(X=k)=\binom{n}{k} \mu^k(1-\mu)^{n-k}, k=1,2,....,n
P ( X = k ) = ( k n ) μ k ( 1 − μ ) n − k , k = 1 , 2 , . . . . , n
其中( n k ) \binom{n}{k} ( k n ) 爲二項式係數(這就是二項式分佈的名稱的由來),表示從n n n 個元素中取出k k k 個元素而不考慮其順序的組合的總數。
連續型隨機變量
與離散型隨機變量不同,一些隨機變量X X X 的取值是不可列舉的,由全部實數或者由一部分區間組成,比如:
X = { x ∣ a ≤ x ≤ b } , − ∞ < a < b < ∞
X=\{x | a \leq x \leq b\}, -\infty < a < b < \infty
X = { x ∣ a ≤ x ≤ b } , − ∞ < a < b < ∞
則稱X X X 爲連續隨機變量,連續隨機變量的值是不可數或者無窮盡的。
對於連續型隨機變量X X X ,他取一個具體值x i x_i x i 的概率爲0,這和離散隨機變量截然不同,因此用列舉連續隨機變量取某個值的概率來描述這種隨機變量不但做不到,也毫無意義。
連續隨機變量X X X 的概率分佈一般用概率密度函數(probability density function,PDF) p ( x ) p(x) p ( x ) 來描述,p ( x ) p(x) p ( x ) 爲可積函數,並滿足:
∫ − ∞ ∞ p ( x ) d ( x ) = 1 p ( x ) ≥ 0
\begin{matrix}
\int_{-\infty }^{\infty} p(x) d(x) & =1 \\
p(x) & \geq 0
\end{matrix}
∫ − ∞ ∞ p ( x ) d ( x ) p ( x ) = 1 ≥ 0
給定概率密度函數p ( x ) p(x) p ( x ) ,便可以計算出隨機變量落入某一區間的概率,而p ( x ) p(x) p ( x ) 本身反映了隨機變量取值落入x x x 的非常小的鄰近區間中的概率大小。
常見的連續隨機變量的概率分佈有:
均勻分佈
若a , b a,b a , b 爲有限數,則[ a , b ] [a,b] [ a , b ] 上的均勻分佈(uniform distribution)概率密度函數定義爲:
p ( x ) = { 1 b − a , a ≤ x ≤ b 0 , x > a o r x < b
p(x) = \left\{\begin{matrix}
\frac{1}{b-a} &, a \leq x \leq b \\
0 &, x >a \, or \, x < b
\end{matrix}\right.
p ( x ) = { b − a 1 0 , a ≤ x ≤ b , x > a o r x < b
正態分佈
正態分佈(Normal Distribution),又名高斯分佈(Guassian Distribution),是最常見的一種分佈,並且具有很多良好的性質,其概率密度函數爲:
p ( x ) = 1 σ 2 π e x p ( − ( x − μ ) 2 σ 2 )
p(x) = \frac{1}{ \sigma \sqrt{2\pi} } exp(- \frac{(x-\mu)^2}{\sigma^2})
p ( x ) = σ 2 π 1 e x p ( − σ 2 ( x − μ ) 2 )
其中σ > 0 \sigma>0 σ > 0 ,μ , σ \mu,\sigma μ , σ 均爲常數。若隨機變量X X X 服從一個參數爲σ \sigma σ 和μ \mu μ 的概率分佈,簡記爲:X N ( μ , σ 2 ) X~N(\mu, \sigma^2) X N ( μ , σ 2 ) ,其中μ \mu μ 爲均值,σ 2 \sigma^2 σ 2 爲方差。
當μ = 0 , σ = 1 \mu=0, \sigma=1 μ = 0 , σ = 1 稱爲標準正態分佈(Standard Normal Distribution)。
均勻分佈和正態分佈的圖像如下圖所示:
累積分佈函數
對於一個隨機變量X X X ,其累積分佈函數(Cumulative Distribution Function,CDF)是隨機變量X X X 的取值小於等於x x x 的概率。
c d f ( x ) = P ( X ≤ x )
cdf(x) = P(X\leq x)
c d f ( x ) = P ( X ≤ x )
以隨機變量X X X 爲例,累積分佈函數定義爲:
c d f ( x ) = ∫ a b p ( t ) d ( t )
cdf(x) = \int_{a}^{b} p(t)d(t)
c d f ( x ) = ∫ a b p ( t ) d ( t )
其中p ( x ) p(x) p ( x ) 爲概率密度函數,下圖給出了標準正態分佈的累積分佈函數:
隨機向量
隨機向量是指一組隨機變量構成的向量,如果[ x 1 , x 2 , . . . , x n ] [x_1,x_2,...,x_n] [ x 1 , x 2 , . . . , x n ] 爲n n n 個隨機變量,那麼稱[ x 1 , x 2 , . . . , x n ] [x_1,x_2,...,x_n] [ x 1 , x 2 , . . . , x n ] 爲一個n n n 維隨機向量,一維隨機向量稱爲隨機變量。
隨機向量也分爲離散隨機向量和連續隨機向量。
離散隨機向量
離散隨機變量的聯合概率分佈(Joint Probability Distribution)爲:
P ( X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) = p ( x 1 , x 2 , . . . , x n )
P(X_1 = x_1, X_2 = x_2, ..., X_n = x_n) = p(x_1, x_2, ..., x_n)
P ( X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) = p ( x 1 , x 2 , . . . , x n )
其中x i ∈ w i x_i \in w_i x i ∈ w i 爲變量X i X_i X i 的取值,w i w_i w i 爲變量X i X_i X i 的樣本空間。
和離散隨機變量類似,離散隨機向量的概率分佈滿足:
p ( x 1 , x 2 , . . . , x n ) ≥ 0 , ∀ x 1 ∈ w 1 , x 2 ∈ w 2 , . . . , x n ∈ w n ∑ x 1 ∈ w 1 ∑ x 2 ∈ w 2 . . . ∑ x n ∈ w n p ( x 1 , x 2 , . . . , x n ) ≥ 0
p(x_1, x_2, ..., x_n) \geq 0, \forall x_1 \in w_1,x_2 \in w_2, ..., x_n \in w_n
\\
\sum_{x_1 \in w_1}\sum_{x_2 \in w_2}...\sum_{x_n \in w_n} p(x_1, x_2, ..., x_n) \geq 0
p ( x 1 , x 2 , . . . , x n ) ≥ 0 , ∀ x 1 ∈ w 1 , x 2 ∈ w 2 , . . . , x n ∈ w n x 1 ∈ w 1 ∑ x 2 ∈ w 2 ∑ . . . x n ∈ w n ∑ p ( x 1 , x 2 , . . . , x n ) ≥ 0
多項分佈
一個常見的離散隨機向量概率分佈爲多項分佈(Multinomial Distribution),多項分佈是二項分佈在隨機向量的推廣。假設一個袋子中裝了很多球,總共有K K K 個不同顏色,我們從袋子中取出n n n 個球,每次取出一個球時,就在袋子中放入一個同樣顏色的球,這樣保證同一顏色的球在不同實驗中被取出的概率是相等的。
令X X X 爲一個K K K 維隨機向量,每個元素X k ( k = 1 , 2 , 3 , . . . , K ) X_k(k=1,2,3,...,K) X k ( k = 1 , 2 , 3 , . . . , K ) 爲取出的K K K 個球中顏色爲k k k 的球的數量,則X X X 服從多項分佈,其概率分佈爲:
p ( x 1 , x 2 , . . . , x K ∣ μ ) = n ! x 1 ! . . . x K ! μ 1 x 1 , . . . , μ K x K
p(x_1,x_2,...,x_K|\mu) = \frac{n!}{ x_1! ... x_K!} \mu_1^{x_1},...,\mu_K^{x_K}
p ( x 1 , x 2 , . . . , x K ∣ μ ) = x 1 ! . . . x K ! n ! μ 1 x 1 , . . . , μ K x K
其中μ = [ μ 1 , . . . , μ K ] T \mu=[\mu_1, ..., \mu_K]^T μ = [ μ 1 , . . . , μ K ] T 分別爲每次抽取的球的顏色爲1,…,K K K 的概率,x 1 , . . . , x K x_1,...,x_K x 1 , . . . , x K 爲非負整數,並且滿足∑ k = 1 K x k = n \sum_{k=1}^{K}x_k=n ∑ k = 1 K x k = n 。
多項分佈的概率分佈也可以用gamma函數表示:
p ( x 1 , x 2 , . . . , x K ∣ μ ) = Γ ( ∑ k x k + 1 ) Π k Γ ( x k + 1 ) Π k = 1 K μ k x k
p(x_1,x_2,...,x_K|\mu) = \frac{ \Gamma (\sum_{k} x_k + 1) }{ \Pi _k \Gamma(x_k+1) } \Pi _{k=1}^{K} \mu_k ^{x_k}
p ( x 1 , x 2 , . . . , x K ∣ μ ) = Π k Γ ( x k + 1 ) Γ ( ∑ k x k + 1 ) Π k = 1 K μ k x k
其中$\Gamma(z) = \int_{0}{\infty}\frac{t {z-1}}{exp(t)}d(t) $爲gamma函數,這種表示形式和Dirichlet分佈類似,而Derichlet分佈可以作爲多項分佈的共軛先驗。
連續隨機向量
連續隨機向量的聯合概率密度函數(Joint Probability Density Function)滿足:
p ( x ) = p ( x 1 , . . . , x n ) ≥ 0 ∫ − ∞ ∞ . . . ∫ − ∞ ∞ p ( x 1 , . . . , x n ) d x 1 . . . d x n = 1
\begin{matrix}
p(x) =p(x_1, ...,x_n) & \geq 0 \\
\int_{-\infty}^{\infty} ... \int_{-\infty}^{\infty} p(x_1,...,x_n)dx_1...dx_n & =1
\end{matrix}
p ( x ) = p ( x 1 , . . . , x n ) ∫ − ∞ ∞ . . . ∫ − ∞ ∞ p ( x 1 , . . . , x n ) d x 1 . . . d x n ≥ 0 = 1
多元正態分佈
一個常見的連續隨機向量分佈爲多元正態分佈(Multivariate Normal Distribution),也稱爲多元高斯分佈(Multivariate Gaussian Distribution)。若n n n 維隨機向量X = [ X 1 , . . . , X n ] T X=[X_1, ..., X_n]^T X = [ X 1 , . . . , X n ] T 服從n n n 元正態分佈,其密度函數爲:
p ( x ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) )
p(x) = \frac{1}{ (2\pi)^{n/2} |\Sigma| ^{1/2} } exp( -\frac{1}{2} (x-\mu)^T \Sigma^{-1}(x-\mu) )
p ( x ) = ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 1 e x p ( − 2 1 ( x − μ ) T Σ − 1 ( x − μ ) )
其中μ \mu μ 爲多元正態分佈的均值向量,Σ \Sigma Σ 爲多元正態分佈的協方差矩陣,∣ Σ ∣ |\Sigma| ∣ Σ ∣ 表示Σ \Sigma Σ 的行列式。
各項同性高斯分佈
如果一個多元高斯分佈的協方差矩陣簡化爲Σ = σ 2 I \Sigma=\sigma^2 I Σ = σ 2 I ,即每一維隨機變量都獨立並且方差相同,那麼這個多元高斯分佈稱爲各項同性高斯分佈(Isotropic Guassian Distribution)
Dirichlet分佈
一個n n n 維隨機向量X X X 的Dirichlet分佈爲:
p ( x ∣ a ) = Σ ( a 0 ) Σ ( a 1 ) . . . Σ ( a n ) Π i = 1 n x i a i − 1
p(x|a) = \frac{ \Sigma(a_0) }{ \Sigma(a_1) ... \Sigma(a_n) } \Pi_{i=1}^{n} x_i ^{a_i-1}
p ( x ∣ a ) = Σ ( a 1 ) . . . Σ ( a n ) Σ ( a 0 ) Π i = 1 n x i a i − 1
其中a = [ a 1 , . . . , a K ] T a=[a_1, ..., a_K]^T a = [ a 1 , . . . , a K ] T 爲Dirichlet分佈的參數。
邊際分佈
對於二維離散隨機向量( X , Y ) (X,Y) ( X , Y ) ,假設X X X 取值空間爲Ω x \Omega_x Ω x ,Y Y Y 取值空間爲Ω y \Omega_y Ω y ,其聯合概率分佈滿足
p ( x , y ) > 0 , ∑ x ∈ Ω x ∑ y ∈ Ω y p ( x i , y j ) = 1
p(x,y) >0, \sum_{x \in \Omega_x} \sum_{y \in \Omega_y} p(x_i, y_j)=1
p ( x , y ) > 0 , x ∈ Ω x ∑ y ∈ Ω y ∑ p ( x i , y j ) = 1
對於聯合概率分佈p ( x , y ) p(x,y) p ( x , y ) ,我們可以分別對x x x 和y y y 進行求和。
(1)對於固定的x x x :∑ y ∈ Ω y p ( x , y ) = P ( X = x ) = p ( x ) \sum_{y \in \Omega_y} p(x,y)=P(X=x)=p(x) ∑ y ∈ Ω y p ( x , y ) = P ( X = x ) = p ( x )
(2)對於固定的y y y :∑ x ∈ Ω x p ( x , y ) = P ( Y = y ) = p ( y ) \sum_{x \in \Omega_x} p(x,y)=P(Y=y)=p(y) ∑ x ∈ Ω x p ( x , y ) = P ( Y = y ) = p ( y )
由離散隨機向量( X , Y ) (X,Y) ( X , Y ) 的聯合概率分佈,對Y Y Y 的所有取值進行求和得到X X X 的概率分佈,而對X X X 的所有取值進行求和得到Y Y Y 的概率分佈。這裏p ( x ) , p ( y ) p(x),p(y) p ( x ) , p ( y ) 就稱爲p ( x , y ) p(x,y) p ( x , y ) 的邊際分佈(Marginal Distribution)。
對於二維連續隨機向量( X , Y ) (X,Y) ( X , Y ) ,其邊際分佈爲:
p ( x ) = ∫ − ∞ ∞ p ( x , y ) d y p ( y ) = ∫ − ∞ ∞ p ( x , y ) d x
\begin{matrix}
p(x) & = \int_{-\infty}^{ \infty}p(x,y) dy \\
p(y) & = \int_{-\infty}^{ \infty}p(x,y) dx
\end{matrix}
p ( x ) p ( y ) = ∫ − ∞ ∞ p ( x , y ) d y = ∫ − ∞ ∞ p ( x , y ) d x
一個二元正態分佈的邊際分佈仍爲正態分佈。
條件概率分佈
對於離散隨機向量( X , Y ) (X,Y) ( X , Y ) ,已知X = x X=x X = x 的條件下,隨機變量Y = y Y=y Y = y 的條件概率(Conditional Probability)爲:
p ( y ∣ x ) = P ( Y = y ∣ X = x ) = p ( x , y ) p ( x )
p(y|x) = P(Y=y|X=x) = \frac{p(x,y)}{p(x)}
p ( y ∣ x ) = P ( Y = y ∣ X = x ) = p ( x ) p ( x , y )
這個公式定義了隨機變量Y Y Y 關於隨機變量X X X 的條件概率分佈(Conditional Probability Distribution),簡稱條件分佈。
對於二維連續隨機向量( X , Y ) (X,Y) ( X , Y ) ,已知X = x X=x X = x 的條件下,隨機變量Y = y Y=y Y = y 的條件概率密度函數(Contidional Probability Density Function)爲:
p ( y ∣ x ) = p ( x , y ) p ( x )
p(y|x) = \frac{p(x,y)}{p(x)}
p ( y ∣ x ) = p ( x ) p ( x , y )
同理,已知Y = y Y=y Y = y 的條件下,隨機變量X = x X=x X = x 的條件概率密度函數爲:
p ( x ∣ y ) = p ( x , y ) p ( y )
p(x|y) = \frac{p(x,y)}{p(y)}
p ( x ∣ y ) = p ( y ) p ( x , y )
通過上邊的兩個公式,我們可以得到兩個條件概率p ( y ∣ x ) p(y|x) p ( y ∣ x ) 和p ( x ∣ y ) p(x|y) p ( x ∣ y ) 之間的關係。
p ( y ∣ x ) = p ( x ∣ y ) p ( y ) p ( x )
p(y|x) = \frac{p(x|y) p(y)}{p(x)}
p ( y ∣ x ) = p ( x ) p ( x ∣ y ) p ( y )
這個公式稱爲貝葉斯定理(Bayes’ theirem)或者貝葉斯公式。
獨立與條件獨立
對於兩個離散(或連續)隨機變量X , Y X,Y X , Y ,如果其聯合概率(或聯合概率密度函數)p ( x , y ) p(x,y) p ( x , y ) 滿足:
p ( x , y ) = p ( x ) p ( y )
p(x,y)=p(x)p(y)
p ( x , y ) = p ( x ) p ( y )
則稱X , Y X,Y X , Y 相互獨立(independence),記爲X ⊥ Y X \perp Y X ⊥ Y
對於三個離散(或連續)隨機變量X , Y , Z X,Y,Z X , Y , Z ,如果條件概率(或聯合概率密度函數)p ( x , y ∣ z ) p(x,y|z) p ( x , y ∣ z ) 滿足:
p ( x , y ∣ z ) = P ( X = x , Y = y ∣ Z = z ) = p ( x ∣ z ) p ( y ∣ z )
p(x,y|z)=P(X=x,Y=y|Z=z)=p(x|z)p(y|z)
p ( x , y ∣ z ) = P ( X = x , Y = y ∣ Z = z ) = p ( x ∣ z ) p ( y ∣ z )
則稱在給定變量Z Z Z 時,X , Y X,Y X , Y 條件獨立(conditional independence)記爲:X ⊥ Y ⊥ Z X \perp Y \perp Z X ⊥ Y ⊥ Z
期望和方差
期望
對於離散變量X X X ,其概率分佈爲p ( x 1 ) , . . . , p ( x n ) p(x_1), ..., p(x_n) p ( x 1 ) , . . . , p ( x n ) ,X X X 的期望(expection)或均值定義爲:
E [ X ] = ∑ i = 1 n x i p ( x i )
E[X]=\sum_{i=1}^{n}x_i p(x_i)
E [ X ] = i = 1 ∑ n x i p ( x i )
對於連續隨機變量X X X ,概率密度函數爲p ( x ) p(x) p ( x ) ,其期望定義爲:
E [ X ] = ∫ R x p ( x ) d x
E[X]=\int_{R} xp(x)dx
E [ X ] = ∫ R x p ( x ) d x
方差
隨機變量X X X 的方差(variance)用來定義他的概率分佈的離散程度,定義爲:
v a r ( X ) = E [ ( X − E [ X ] ) 2 ]
var(X) = E[(X-E[X])^2]
v a r ( X ) = E [ ( X − E [ X ] ) 2 ]
隨機變量X X X 的方差也稱爲他的二階距。v a r ( X ) \sqrt{var(X)} v a r ( X ) 稱爲X X X 的根方差或標準差。
協方差
兩個連續隨機變量X , Y X,Y X , Y 的協方差(covariance)用來衡量兩個隨機變量的分佈之間的總體變化性,定義爲:
c o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ]
cov(X,Y) = E[(X-E[X])(Y-E[Y])]
c o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ]
協方差經常也用來衡量兩個隨機變量之間的線性相關性。如果兩個隨機變量的協方差爲0,那麼稱這兩個隨機變量是線性不相關。兩個隨機變量之間沒有線性相關性,並非表示它們之間獨立的,可能存在某種非線性的函數關係。反之,如果X , Y X,Y X , Y 是統計獨立的,那麼它們之間的協方差一定爲0。
協方差矩陣
兩個m m m 和n n n 維連續隨機向量X X X 和Y Y Y ,它們的協方差(covariance)爲m ∗ n m*n m ∗ n 的矩陣,定義爲:
c o v ( X , Y ) = e [ ( X − E [ X ] ) ( Y − E [ Y ] ) T ]
cov(X,Y) = e[(X-E[X])(Y-E[Y])^T]
c o v ( X , Y ) = e [ ( X − E [ X ] ) ( Y − E [ Y ] ) T ]
協方差矩陣c o v ( X , Y ) cov(X,Y) c o v ( X , Y ) 的第( i , j ) (i,j) ( i , j ) 個元素等於隨機變量X i X_i X i 和Y j Y_j Y j 的協方差。兩個向量變量的協方差c o v ( X , Y ) cov(X,Y) c o v ( X , Y ) 與c o v ( Y , X ) cov(Y,X) c o v ( Y , X ) 互爲轉置關係。
如果兩個隨機向量的協方差矩陣爲對角陣,那麼稱這兩個隨機向量時無關的。
單個隨機向量X X X 的協方差矩陣定義爲:
c o v ( X ) = c o v ( X , X )
cov(X)=cov(X,X)
c o v ( X ) = c o v ( X , X )
隨機過程
隨機過程(Stochastic Process)是一組隨機變量X t X_t X t 的集合,其中t t t 屬於一個索引(index)集合τ \tau τ 。索引集合τ \tau τ 可以定義在時間域或者空間域,但一般爲時間域,以實數或正數表示。當t t t 爲實數時,隨機過程爲連續隨機過程;當t t t 爲整數時,爲離散隨機過程。
日常生活中的很多例子包括股票的波動、語音信號、身高的變化等都可以看作是隨機過程。常見的和時間相關的隨機過程模型包括:伯努利分佈過程、隨機遊走、馬爾可夫過程等。和空間相關的隨機過程常稱爲隨機場(Random Field)。比如一張二維的照片,每個像素點(變量)通過空間的位置進行索引,這些像素就組成了一個隨機過程。
馬爾可夫過程
馬爾科夫性質
在隨機過程中,馬爾科夫性質(Markov Property)是指一個隨機過程在給定現在狀態及所有過去狀態情況下,其未來狀態的條件概率分佈僅依賴於當前狀態。
以離散隨機過程爲例,假設隨機變量X 0 , X 1 , . . . , X T X_0,X_1,...,X_T X 0 , X 1 , . . . , X T 構成一個隨機過程。這些隨機變量的所有可能取值的集合被稱爲狀態空間(State Space)。如果X t + 1 X_{t+1} X t + 1 對於過去狀態的條件概率分佈僅是X t X_t X t 的一個函數,則:
P ( X t + 1 = x t + 1 ∣ X 0 : t = x 0 : t ) = P ( X t + 1 = x t + 1 ∣ X t = x t )
P(X_{t+1} = x_{t+1}|X_{0:t} = x_{0:t}) = P(X_{t+1} = x_{t+1}|X_t=x_t)
P ( X t + 1 = x t + 1 ∣ X 0 : t = x 0 : t ) = P ( X t + 1 = x t + 1 ∣ X t = x t )
其中X 0 : t X_0:t X 0 : t 表示變量集合X 0 , X 1 , . . . , X t X_0, X_1, ..., X_t X 0 , X 1 , . . . , X t ,x 0 : t x_{0:t} x 0 : t 爲狀態空間中的狀態序列。
馬爾可夫性質也可以描述爲給定當前狀態時,將來的狀態與過去狀態是條件獨立的。
馬爾可夫鏈
離散時間的馬爾可夫過程也稱爲馬爾可夫鏈(Markov Chain)。如果一個馬爾可夫鏈的條件概率爲:
P ( X t + 1 = s i ∣ X t = s j ) = T ( s i , s j )
P(X_{t+1} = s_i | X_t=s_j) = T(s_i, s_j)
P ( X t + 1 = s i ∣ X t = s j ) = T ( s i , s j )
在不同時間都是不變的,即和時間t t t 無關,則稱爲時間同質的馬爾可夫鏈(Time Homogeneous Markov Chain)。如果狀態空間是有限的,T ( s i , s j ) T(s_i, s_j) T ( s i , s j ) 也可以用一個矩陣T T T 表示,稱爲狀態轉移矩陣(Transition Matrix),其中元素t i j t_{ij} t i j 表示狀態s i s_i s i 轉移到狀態s j s_j s j 的概率。
平穩分佈 假設狀態空間大小爲M M M ,向量π = [ π 1 , . . . , π M ] T \pi = [\pi_1, ..., \pi_M]^T π = [ π 1 , . . . , π M ] T 爲狀態空間中的一個分佈,滿足0 ≥ π i ≥ 1 0 \geq \pi_i \geq 1 0 ≥ π i ≥ 1 和∑ i = 1 M π i = 1 \sum_{i=1}^{M}\pi_i = 1 ∑ i = 1 M π i = 1 。
對於狀態轉移矩陣爲T T T 的時間同質的馬爾可夫鏈,如果存在一個分佈π \pi π 滿足:
π = T π
\pi = T\pi
π = T π
即分佈π \pi π 就稱爲該馬爾可夫鏈的平穩分佈(Stationary Distribution)。根據特徵向量的定義可知,π \pi π 爲矩陣T T T 的(歸一化)的對應特徵值爲1的特徵向量。
如果一個馬爾可夫鏈的狀態轉移矩陣T T T 滿足所有狀態可遍歷性以及非週期性,那麼對於任意一個初始狀態分佈π ( 0 ) \pi^{(0)} π ( 0 ) ,將經過一定時間的狀態轉移之後,都會收斂到平穩分佈,即:
π = lim N → ∞ T N π ( 0 )
\pi = \lim_{N \rightarrow \infty} T^N\pi^{(0)}
π = N → ∞ lim T N π ( 0 )
細緻平穩條件(Detailed Balance Condition) 如果一個馬爾可夫鏈滿足:
π i t i j = π j t j i
\pi_i t_{ij} = \pi_j t_{ji}
π i t i j = π j t j i
則一定會收斂到平穩分佈π \pi π 。
細緻平穩條件保證了從狀態i i i 轉移到狀態j j j 的數量和從狀態j j j 轉移到狀態i i i 的數量相一致,相互抵消,所以數量不發生改變。
細緻平穩條件只是馬爾可夫鏈收斂的充分條件,不是必要條件。
高斯過程
高斯過程(Gaussian Process)
高斯過程也是一種應用廣泛的隨機過程模型。假設有一組連續隨機變量X 0 , X 1 , . . . , X T X_0, X_1,...,X_T X 0 , X 1 , . . . , X T ,如果由這組隨機變量構成的任一有限集合:
X t 1 , . . . , t k = [ X t 1 , . . . , X t n ] T
X_{t_1,...,t_k} = [X_{t_1}, ...,X_{t_n}]^T
X t 1 , . . . , t k = [ X t 1 , . . . , X t n ] T
都服從一個多元正態分佈,那麼這組隨機變量爲一個隨機過程。高斯過程也可以定義爲:如果X t 1 , . . . , t k X_{t_1,...,t_k} X t 1 , . . . , t k 的任一線性組合都服從一元正態分佈,那麼這組隨機變量爲一個隨機過程。
高斯過程迴歸
高斯過程迴歸(Gaussion Process Regression)是利用高斯過程來對一個函數分佈進行建模。和機器學習中參數化建模(比如貝葉斯線性迴歸)相比,高斯過程是一種非參數模型,可以擬合一個黑盒函數,並給出擬合結果的置信度。
假設一個未知函數f ( x ) f(x) f ( x ) 服從高斯過程,且爲平滑函數。如果兩個樣本x 1 , x 2 x_1,x_2 x 1 , x 2 比較接近,那麼對應的f ( x 1 ) , f ( x 2 ) f(x_1), f(x_2) f ( x 1 ) , f ( x 2 ) 也比較接近。假設從函數f ( x ) f(x) f ( x ) 中採樣有限個樣本X = [ x 1 , x 2 , . . . , x N ] X=[x_1, x_2, ..., x_N] X = [ x 1 , x 2 , . . . , x N ] ,這N N N 個點服從一個多元正態分佈,記作:
[ f ( x 1 ) , f ( x 2 ) , . . . , f ( x N ) ] T ∼ N ( μ ( X ) , K ( X , X ) )
[f(x_1), f(x_2), ..., f(x_N)]^T \sim N(\mu(X), K(X,X))
[ f ( x 1 ) , f ( x 2 ) , . . . , f ( x N ) ] T ∼ N ( μ ( X ) , K ( X , X ) )
其中μ ( X ) = [ μ ( x 1 ) , μ ( x 2 ) , . . . , μ ( x N ) ] T \mu(X)=[\mu(x_1), \mu(x_2), ..., \mu(x_N)]^T μ ( X ) = [ μ ( x 1 ) , μ ( x 2 ) , . . . , μ ( x N ) ] T 是均值向量,K ( X , X ) = [ k ( x i , x j ) ] N ∗ N K(X,X)=[k(x_i, x_j)]_{N*N} K ( X , X ) = [ k ( x i , x j ) ] N ∗ N 是協方差矩陣,k ( x i , x j ) k(x_i, x_j) k ( x i , x j ) 爲核函數,可以衡量兩個樣本的相似度。
在高斯過程迴歸,一個常用的核函數是平方指數(Squard Exponential)函數:
k ( x i , x j ) = e x p ( − ∣ ∣ x i − x j ∣ ∣ 2 2 l 2 )
k(x_i, x_j) = exp(\frac{- ||x_i - x_j||^2}{2l^2})
k ( x i , x j ) = e x p ( 2 l 2 − ∣ ∣ x i − x j ∣ ∣ 2 )
其中l l l 爲超參數。當x i x_i x i 和x j x_j x j 越接近,其核函數的值越大,表明f ( x i ) f(x_i) f ( x i ) 和f ( x j ) f(x_j) f ( x j ) 越相關。
假設f ( x ) f(x) f ( x ) 的一組帶噪聲的觀測值爲{ ( x n , y n ) } n = 1 N \{ (x_n, y_n)\}_{n=1}^{N} { ( x n , y n ) } n = 1 N ,其中y n ∼ N ( f ( x n ) , σ 2 ) y_n \sim N(f(x_n), \sigma^2) y n ∼ N ( f ( x n ) , σ 2 ) 爲正態分佈,σ \sigma σ 爲噪聲方差。
對於一個新的樣本點x ∗ x^* x ∗ ,我們希望預測函數y ∗ = f ( x ∗ ) y^*=f(x^*) y ∗ = f ( x ∗ ) 。令y = [ y 1 , y 2 , . . . , y n ] y=[y_1, y_2,...,y_n] y = [ y 1 , y 2 , . . . , y n ] 爲已有的觀測值,根據高斯過程的假設,[ y ; y ∗ ] [y; y^*] [ y ; y ∗ ] 滿足:
[ y y ∗ ] ∼ N ( [ μ ( X ) μ ( x ∗ ) ] , [ K ( X , X ) + σ 2 I K ( x ∗ , X ) T K ( x ∗ , X ) k ( x ∗ , x ∗ ) ] )
\begin{bmatrix}
y \\
y^*
\end{bmatrix} \sim N( \begin{bmatrix}
\mu(X) \\
\mu(x^*)
\end{bmatrix},
\begin{bmatrix}
K(X,X)+\sigma^2 I & K(x^*, X)^T\\
K(x^*, X) & k(x^*, x^*)
\end{bmatrix}
)
[ y y ∗ ] ∼ N ( [ μ ( X ) μ ( x ∗ ) ] , [ K ( X , X ) + σ 2 I K ( x ∗ , X ) K ( x ∗ , X ) T k ( x ∗ , x ∗ ) ] )
其中K ( x ∗ , X ) = [ k ( x ∗ , x 1 ) , . . . , k ( x ∗ , x n ) ] K(x^*, X)=[k(x^*, x_1), ..., k(x^*, x_n)] K ( x ∗ , X ) = [ k ( x ∗ , x 1 ) , . . . , k ( x ∗ , x n ) ] 。
根據上面的聯合分佈,y ∗ y^* y ∗ 的後驗分佈爲:
p ( y ∗ ∣ X , y ) = N ( μ ~ , σ ~ 2 )
p(y^* |X, y) = N(\tilde {\mu}, \tilde{\sigma}^2)
p ( y ∗ ∣ X , y ) = N ( μ ~ , σ ~ 2 )
其中均值μ ~ \tilde {\mu} μ ~ 和方差σ ~ \tilde{\sigma} σ ~ 爲:
μ ~ = K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 ( y − μ ( X ) ) + μ ( x ∗ ) σ ~ 2 = k ( x ∗ , x ∗ ) − K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 K ( x ∗ , X ) T
\tilde{\mu} = K(x^*, X)(K(X,X) + \sigma^2 I)^{-1}(y-\mu(X)) + \mu(x^*)
\\
\tilde{\sigma}^2 = k(x^*, x^*) - K(x^*, X)(K(X,X) + \sigma^2 I)^{-1} K(x^*, X)^T
μ ~ = K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 ( y − μ ( X ) ) + μ ( x ∗ ) σ ~ 2 = k ( x ∗ , x ∗ ) − K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 K ( x ∗ , X ) T
從上面的公式可以看出,均值函數μ ( x ) \mu(x) μ ( x ) 可以近似地互相抵消。在實際應用中,一般假設μ ( x ) = 0 \mu(x)=0 μ ( x ) = 0 ,均值μ ~ \tilde{\mu} μ ~ 可以化簡爲:
μ ~ = K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 y
\tilde {\mu} = K(x^*, X)( K(X,X) + \sigma^2 I )^{-1} y
μ ~ = K ( x ∗ , X ) ( K ( X , X ) + σ 2 I ) − 1 y
高斯過程迴歸可以認爲是一種有效的貝葉斯優化方法,廣泛地應用於機器學習中。
【技術服務】,詳情點擊查看:
https://mp.weixin.qq.com/s/PtX9ukKRBmazAWARprGIAg
掃一掃 關注微信公衆號!號主 專注於搜索和推薦系統,嘗試使用算法去更好的服務於用戶,包括但不侷限於機器學習,深度學習,強化學習,自然語言理解,知識圖譜,還不定時分享技術,資料,思考等文章!