一文了解KL散度(KL Divergence)

原創

2020-06-21 06:15

在概率論和統計學中,我們經常用一個簡單的近似分佈來代替觀測數據或複雜的分佈.KL散度幫助我們衡量當我們選擇一個簡單近似的分佈來代替複雜的數據或複雜的分佈的時候有多少信息損失了.

一個例子

假設我們是太空科學家並在參觀一個遙遠的新星球,我們發現了一些蠕蟲,我們想要研究他們.我們發現這些蠕蟲都有10個牙齒,但是由於某些原因牙齒會進行脫落,從而導致每個蠕蟲最後的牙齒個數各不相同.通過收集一系列數據,我們得到了每個蠕蟲牙齒數量的經驗概率分佈:
${% asset_img 1.png %}$
現在我們需要將信息發回地球,但是這些信息量是很大,我們的花費也是巨大的.我們希望將這些數據減少到一個簡單的模型,這樣我們只需要發回1或2個參數即可.(這樣我們就不需要發送那麼多數值,只需要發回概率分佈的參數即可)

均勻分佈

我們首先使用均勻分佈來表示牙齒的分佈.
有11種可能的值,每個的概率都是 $111\frac{1}{11}$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

最近鄰搜索神器——一文讀懂局部敏感哈希LSH原理

什麼是LSH? LSH主要用來解決高維空間中點的近似最近鄰搜索問題,即Approximate Nearest Neighbor(ANN)。在實際的應用中我們所面對的數據是海量的,並且有着很高的維度。在對數據的各種操作中,查詢操作

2020-07-08 05:33:08

小白學變分推斷(1)——變分推斷概述

變分推斷變分推斷（Variational Inference, VI）是貝葉斯近似推斷方法中的一大類方法，它將後驗推斷問題巧妙地轉化爲優化問題進行求解，相比另一大類方法馬爾可夫鏈蒙特卡洛方法（Markov Chain Monte

2020-06-25 10:48:26

小白學變分推斷(2)——變分推斷

在上一篇系列文章小白學變分推斷(1)——變分推斷概述中，我們通過對ELBO引入條件概率公式，進一步化簡得到:ELBO=Eq[log p(x∣z)]−KL(q(z)∣∣p(z)) ELBO = E_q[log\ p(x|z)] -

2020-06-25 10:48:26

一文學會支持向量機(SVM)

SVM是一個二元分類算法,線性分類和非線性分類都支持,其學習策略便是間隔最大化, 最終可以轉化爲一個凸二次規劃問題求解。經過演進,現在也可以支持多元分類,同時經過擴展也能應用於迴歸問題。初探SVM 一個簡單的例子下面舉個簡單

2020-06-21 07:05:15

K-Means聚類算法詳解

聲明部分參考K-Means聚類算法原理聚類算法聚類算法是一種無監督學習算法,它主要用於將相似的樣本自動歸到一個類別中. 聚類算法與分類算法的區別:聚類算法是無監督學習,而分類是監督學習,在聚類算法中我們根據樣本之間的相似度(

2020-06-21 06:15:37

快速近似計算Gamma函數以及函數階乘

Gamma 函數 Γ(s)=∫0∞xs−1e−xdx,s>0 \begin{aligned} \Gamma(s) = \int_{0}^{\infty} x^{s - 1} e^{-x} dx, s > 0 \end{aligne

2020-06-21 06:15:37

EM(Expectation Maximum) 算法總結

EM算法，全稱爲Expectation Maximum Algorithm，是一個基礎算法，是很多機器學習領域算法的基礎（如HMM，LDA等）。EM算法是在概率模型中尋找參數最大似然估計或者最大後驗估計的算法，其中概率模型依賴於無

2020-06-21 06:15:37

深度學習——--殘差網絡(ResNet)詳解

爲什麼會有殘差網絡? 網絡越深準確率越高嗎？一說起深度學習,自然也就想到了它非常顯著的特點"深"，通過很深層次的網絡實現準確率非常高的圖像識別、語音識別等。因此,我們大家很自然就想到:深的網絡肯定比淺的網絡效果好,如果要進一步提

2020-06-21 06:15:37

關於Word2Vec的一些總結

什麼是word2vec 關於word2vec，首先需要弄清楚它並不是一個模型或者DL算法，而是描述從自然語言到詞向量轉換的技術。 Word2Vec本質上就是一個只有一個hidden layer的全連接神經網絡,它可以將所有的詞向量

2020-06-21 06:15:27

集成學習(ensemble learning)乾貨系列(2)——隨機森林(Bagging)

這裏是集成學習乾貨系列第二談，本篇文章我們來淺談隨機森林，它是一種多決策樹的bagging。其他乾貨：集成學習(ensemble learning)乾貨系列(1)——集成學習概述 Bagging Bootstrap aggreg

2020-06-21 06:15:26

集成學習(ensemble learning)乾貨系列(3)——Boosting方法詳解

集成學習(ensemble learning)乾貨系列(1)——集成學習概述集成學習(ensemble learning)乾貨系列(2)——隨機森林(Bagging) Boosting基本原理提升，Boosting是另一大類成熟

2020-06-21 06:15:26

KDD Cup 2020 Challenges for Modern E-Commerce Platform: Debiasing 簡單分享附代碼(phase 0-6 0.463+)

參賽鏈接一年一度的KDD大賽又開始了，這個比賽是真的火爆…小白也是頭一次玩這個，確實體會和學到了很多東西，這真的是從學術研究到工程實現思維的一種鍛鍊。題目：簡單總結下題目，由於自己主要是關注數據挖掘與推薦的，所以比較關注推薦

2020-06-21 06:15:26

一文詳解梯度下降法,牛頓法,擬牛頓法

最優化是一種數學方法,它是研究在給定約束之下如何尋求某些因素,以使某一些指標達到最優的一些學科的總稱.在機器學習中,大部分的機器學習算法的本質都是建立優化模型,通過最優化方法對目標函數(損失函數)進行優化,從而訓練出最好的模型.梯

2020-06-21 06:15:26

張量分解——CP分解與Tucker分解詳解

關於張量分解一些簡單的介紹,可以看我的這篇張量的CP分解模型一般而言，給定一個大小爲n1×n2×n3n_1 \times n_2 \times n_3n

2020-06-21 06:15:26

深度學習數學基礎總結

本文是對深度學習、機器學習中用到的數學基礎知識的一點總結。高等數學微分微分是對函數的局部變化的一種線性描述.微分可以近似的的描述當函數自變量的變化率取值足夠小時,函數的值是怎樣變化的(用直線代替曲線)。比如,x的變化量Δx

2020-06-21 06:15:26

24小時熱門文章

最新文章

最新評論文章