【算法工程師的數學基礎】系列將會從線性代數、微積分、數值優化、概率論、信息論五個方面進行介紹，感興趣的歡迎關注【搜索與推薦Wiki】公衆號，獲得最新文章。

《算法工程師的數學基礎》已更新：

信息論

信息論（information theory）是數學、物理、統計、計算機科學等多個學科的交叉領域。在機器學習相關領域，信息論也有着大量的應用。比如特徵抽取、統計推斷、自然語言處理等。

熵

自信息和熵

熵（Entropy）最早是物理學的概念，用於表示一個熱力學系統的無序程度。在信息論中，熵用來衡量一個隨機事件的不確定性。假設對一個隨機變量 $X$ （取值集合爲 $R$ ，概率分佈爲 $p(x), x\in R$ ）進行編碼，自信息 $I(x)$ 是變量 $X=x$ 時的信息量或者編碼長度，定義爲：
$I(x) = -log(p(x))$
那麼隨機變量 $X$ 的平均編碼長度，即熵定義爲：
$H(X) = E_X[I(x)] \\ = E_X[-log(p(x))] \\ = -\sum_{x \in R} p(x)log\,p(x)$
其中當 $p(x_i)=0$ 時，我們定義 $0log 0=0$ ，這與極限一致， $\underset{p \rightarrow 0+}{lim} p \, log \,p=0$

熵是一個隨機變量的平均編碼長度，即自信息的數學期望。熵越高，則隨機變量的信息越多；熵越低，則信息越少。如果變量 $X$ 當且僅當在 $x$ 時 $p(x)=1$ ，則熵爲0。也就是說，對於一個確定的信息，其熵爲0，信息量也爲0。如果其概率分佈爲一個均勻分佈，則熵越大。假設一個隨機變量 $X$ 有三種可能值 $x_1, x_2, x_3$ ，不同概率分佈對應的熵如下：

$p(x_1)$	$p(x_2)$	$p(x_3)$	熵
1	0	0	0
$\frac{1}{2}$	$\frac{1}{4}$	$\frac{1}{4}$	$\frac{3}{2}$
$\frac{1}{3}$	$\frac{1}{3}$	$\frac{1}{3}$	$log(3)$

聯合熵和條件熵

對於兩個離散隨機變量 $X,Y$ ，假設 $X$ 的取值集合爲$\chi_1 $，$ Y $的取值爲$ \chi_2 $，其聯合概率分佈滿足爲$ p(x,y)$，則：

$X$ 和 $Y$ 的聯合熵（Joint Entropy）爲：
$H(X,Y) = - \sum_{x \in \chi_1} \sum_{y \in \chi_2} p(x,y) log\,p(x,y)$
$X$ 和 $Y$ 的條件熵（Conditiona Entropy）爲：
$H(X|Y) = - \sum_{x \in \chi_1} \sum_{y \in \chi_2} p(x,y) log\,p(x|y) \\ =- \sum_{x \in \chi_1} \sum_{y \in \chi_2} p(x,y) log \frac{p(x,y)}{p(y)}$
根據其定義，條件熵也可以寫爲：
$H(X|Y)=H(X,Y)-H(Y)$

互信息

互信息（mutual information）是衡量已知一個變量時，另一個變量不確定性得減少程度。兩個離散隨機變量 $X$ 和 $Y$ 的互信息定義爲：
$I(X;Y) = \sum_{x \in \chi_1} \sum_{y \in \chi_2} p(x,y) log\, \frac{p(x,y)}{p(x), p(y)}$
互信息的一個性質爲：
$I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)$
如果 $X$ 和 $Y$ 相互獨立，即 $X$ 不對 $Y$ 提供任何信息，反之亦然，因此他們得互信息爲0。

互信息一個非常重要得用途是特徵選擇。使用互信息理論進行特徵抽取是基於如下假設:在某個特定類別出現頻率高,但在其他類別出現頻率比較低的詞條與該類的互信息比較大。

交叉熵和散度

交叉熵

對應分佈爲 $p(x)$ 的隨機變量，熵 $H(p)$ 表示最優編碼長度。交互熵（cross entropy） 是按照概率分佈 $q$ 的最優編碼對真實分佈爲 $p$ 的信息進行編碼得長度，定義爲：
$H(p,q) = E_p[-log \, q(x)] \\ =-\sum_{x} p(x) log\, q(x)$
在給定 $p$ 的情況下，如果 $q$ 和 $p$ 越接近，交叉熵越小；如果 $q$ 和 $p$ 越遠，交叉熵就越大。

KL散度

KL散度（Kullback-Leibler divergence）也叫KL距離或者相對熵（relative entropy），是用概率分佈 $q$ 來近似 $p$ 時所造成得信息損失量。KL散度是按照概率分佈 $q$ 的最優編碼對真實分佈爲 $p$ 的信息進行編碼，其平均編碼長度 $H(p,q)$ 和 $p$ 的最優編碼長度 $H(p)$ 之間得差異。對於離散概率分佈 $p$ 和 $q$ ，從 $p$ 和 $q$ 的KL散度定義爲：
$D_{KL} (p||q)=H(p,q)- H(p) \\ =\sum_{x} p(x) log\frac{p(x)}{q(x)}$
其中爲了保證連續性，定義 $0 log\frac{0}{0} = 0, 0 log\frac{0}{q} = 0$

KL散度可以是衡量兩個概率分佈之間得距離。KL散度總是非負的， $D_{KL}(p||q) \geq 0$ 。只有當 $p = q$ 時， $D_{KL}(p||q) = 0$ 。

如果兩個分佈越接近，KL散度越小；如果兩個分佈越遠，KL散度就越大。但KL散度並不是一個真正的度量或距離，一個是KL散度不滿足距離的對稱性，二是KL散度不滿足距離的三角不等式性質。

JS散度

JS散度（Jensen-Shannon divergence）是一種對稱的衡量兩個分佈相似度的度量方式，定義爲：
$D_{JS}(p||q) = \frac{1}{2} D_{KL}(p||m) + \frac{1}{2} D_{KL}(q||m)$
其中 $m=\frac{1}{2}(p+q)$

JS散度是KL散度的一種改進，但兩種散度有存在一個問題，即如果兩個分佈 $p,q$ 沒有重疊或者重疊非常少時，KL散度和JS散度都很難衡量兩個分佈的距離。

Wasserstein距離

Wasserstein距離也是用於衡量兩個分佈之間的距離。對於兩個分佈 $q_1, q_2$ ， $p^{th}-Wasserstein$ 距離定義爲：
$W_p(q_1, q_2) = (\underset{ \gamma (x,y) \in \tau (q_1, q_2)}{inf} E_{(x,y)\in \gamma (x,y)}[ d(x,y)^p ] )^{\frac{1}{p}}$
其中 $\tau(q_1, q_2)$ 是邊際分佈爲 $q_1$ 和 $q_2$ 的所有可能的聯合分佈集合， $d(x,y)$ 爲 $x$ 和 $y$ 的距離，比如 $l_p$ 距離等。

如果將兩個分佈看作是兩個土堆，聯合分佈 $\gamma(x,y)$ 看作是從土堆 $q_1$ 的位置 $x$ 到土堆 $q_2$ 的位置 $y$ 的搬運土的數量，並有：
$\sum_{x} \gamma(x,y) = q_2(y) \\ \sum_{y} \gamma(x,y) = q_1(x)$
$q_1$ 和 $q_2$ 爲 $\gamma(x,y)$ 的兩個邊際分佈。

$E_{(x,y)\in \gamma (x,y)}[ d(x,y)^p ]$ 可以理解爲聯合分佈 $\gamma(x,y)$ 下把形狀爲 $q_1$ 的土堆搬運到形狀爲 $q_2$ 的土堆所需的工作量

$E_{(x,y)\in \gamma (x,y)}[ d(x,y)^p ] = \sum_{(x,y)} \gamma(x,y) d(x,y)^p$
其實從土堆 $q_1$ 中的點 $x$ 到土堆 $q_2$ 中的點 $y$ 的移動土的數量和距離分別爲 $\gamma(x,y)$ 和 $d(x,y)^p$ 。因此，Wasserstein距離可以理解爲搬運土堆的最小工作量，也稱爲推土機距離（Earth-Mover’s Distance， EMD） 。下圖給出了兩個離散變量分佈的Wassertein距離示例。c中同顏色方塊表示分佈 $q_1$ 中爲相同位置。

Wassertein距離相對KL散度和JS散度的優勢在於：即使兩個分佈沒有重疊或者重疊非常少，Wassertein距離仍然能反應出兩個分佈的遠近。

對於 $R^n$ 空間中的兩個高斯分佈 $p=N(u_1, \sigma_1 ^2)$ 和 $q=N(u_2, \sigma_2 ^2)$ ，他們的 $2^{nd}-Wassertein$ 距離爲：
$D_W(p||q) = ||u_1 - u_2||^2 + tr( \sigma_1^2+ \sigma_1^2- 2( (\sigma_2^2)^{1/2} (\sigma_1^2) (\sigma_2^2)^{1/2}) ^{1/2})$
當兩個分佈的方差爲0時， $2^{nd}-Wassertein$ 距離等價於歐式距離。

至此完更！

【技術服務】，詳情點擊查看： https://mp.weixin.qq.com/s/PtX9ukKRBmazAWARprGIAg

掃一掃關注微信公衆號！號主專注於搜索和推薦系統，嘗試使用算法去更好的服務於用戶，包括但不侷限於機器學習，深度學習，強化學習，自然語言理解，知識圖譜，還不定時分享技術，資料，思考等文章！

算法工程師的數學基礎｜信息論

信息論

熵

自信息和熵

聯合熵和條件熵

互信息

交叉熵和散度

交叉熵

KL散度

JS散度

Wasserstein距離

獨孤九劍：算法模型訓練的一般流程

傳統機器學習和前沿深度學習推薦模型演化關係介紹

TensorFlow的邏輯迴歸實現

論文｜LinUCB論文的思想解讀、場景應用與痛點說明

常見的五種神經網絡(4)-深度信念網絡（下）篇之深度信念網絡的原理解讀、參數學習

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結