傻子都能看懂的信息熵

信息熵:

(看之前可以瞭解一下信息熵的創始人:克勞德·艾爾伍德·香農(Claude Elwood Shannon ,1916年4月30日—2001年2月24日)

先給出信息熵的公式:

                                            

其中:𝑝(𝑥𝑖)代表隨機事件𝑥𝑖的概率。 
下面逐步介紹信息熵公式來源!

首先了解一下信息量:信息量是對信息的度量,就跟時間的度量是秒一樣,當我們考慮一個離散的隨機變量 x 的時候,當我們觀察到的這個變量的一個具體值的時候,我們接收到了多少信息呢?

多少信息用信息量來衡量,我們接受到的信息量跟具體發生的事件有關。

信息的大小跟隨機事件的概率有關。越小概率的事情發生了產生的信息量越大,如湖南產生 的地震了;越大概率的事情發生了產生的信息量越小,如太陽從東邊升起來了(肯定發生嘛, 沒什麼信息量)。這很好理解!

因此一個具體事件的信息量應該是隨着其發生概率而遞減的,且不能爲負。但是這個表示信 息量函數的形式怎麼找呢?隨着概率增大而減少的函數形式太多了!不要着急,我們還有下 面這條性質。

如果我們有倆個不相關的事件 x 和 y,那麼我們觀察到的倆個事件同時發生時獲得的信息應 該等於觀察到的事件各自發生時獲得的信息之和,即: h(x,y) = h(x) + h(y)

由於 x,y 是倆個不相關的事件,那麼滿足 p(x,y) = p(x)*p(y).

根據上面推導,我們很容易看出 h(x)一定與 p(x)的對數有關(因爲只有對數形式的真數相乘 之後,能夠對應對數的相加形式,可以試試)。因此我們有信息量公式如下:

𝐡(𝐱) = −𝒍𝒐𝒈𝟐𝒑(𝒙)

(1)爲什麼有一個負號?其中,負號是爲了確保信息一定是正數或者是 0,總不能爲負數吧!

(2)爲什麼底數爲 2 這是因爲,我們只需要信息量滿足低概率事件 x 對應於高的信息量。那麼對數的選擇是任意的。我們只是遵循信息論的普遍傳統,使用 2 作爲對數的底! 


信息熵 下面正式引出信息熵:信息量度量的是一個具體事件發生了所帶來的信息,而熵則是在結果出來之前對可能產生的信息量的期望——考慮該隨機變量的所有可能取值,即所有可能發生事件所帶來的信息量的期望。即

𝐇(𝐱) = −𝒔𝒖𝒎(𝒑(𝒙)𝒍𝒐𝒈𝟐𝒑(𝒙))

轉換一下也就是: 


最終我們的公式來源推導完成了。

信息熵還可以作爲一個系統複雜程度的度量,如果系統越複雜,出現不同情況的種類越多, 那麼他的信息熵是比較大的。如果一個系統越簡單,出現情況種類很少(極端情況爲 1 種情況,那麼對應概率爲 1,那麼對應的信息熵爲 0),此時的信息熵較小。

最後附上對數函數一些性質,你畫出 𝐟(𝐱) = −𝒍𝒐𝒈𝟐𝒙 的圖像會更加明瞭。 

鏈接:https://www.zhihu.com/question/22178202/answer/161732605

來源:知乎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章