信息技術與計算科學(二)信息的度量

關與作者更多博客請訪問雲裏雲外開源社區

一、信息

信息就是不確定性的消除量 香農<美>

顯著特性:信息與概率有關

eg. 猜測2022年世界盃冠軍球隊(一共32只球隊)

  1. 二分法,1/2,1/4,1/8,1/16,1/32。一共猜五次
  2. 將奪冠概率高的四隊放入一組,其他所有球隊放入另一組。猜3次

自信息量:

隨機事件x,發生概率的對數的相反數。或者隨機事件x帶給我們的信息量。用I(x)表示,單位是bit 比特。

例如,事件x;擲骰子,六點朝上。概率P(x)=1/6。https://private.codecogs.com/gif.latex?I%28x_%7Bi%7D%29%3D-log_%7B2%7Dp%28x_%7Bi%7D%29。I(x)=2.58(bit)以2爲底,表示二進制(兩種狀態)。注意,下列計算結果均爲近似值,這裏以等號表示

事件y;小明今天吃飯了。P(x)=99.99%. I(y)=0.00015(bit)

事件z:某沿海地區發生海嘯 P(z) = 0.01% I(z)=13.288(bit)

有關係式可以得出,概率與信息量呈負相關關係。一件事發生的概率越小,其信息量越大。在現實生活中也是一樣,比如有人對你說,你們明天放長假,你肯定會想,這個信息量有點大。

信息熵:

設隨機變量X取值於\left {x _{i}|i=1,2,...,n \right },x_{i}出現的概率爲p(x_{i})\sum_{i=1}^{n}p(x_{i})=1
那麼所有可能事件x_{i},的自信息量I(x_{i})的加權平均定義爲隨機變量X的信息熵,簡稱,記爲H(X)。即:
H(X)=\sum_{i=1}{n}p(x_{i})I(x_{i})=-\sum_{i=1}{n}p(x_{i})log_{2}p(x_{i})
爲方便起見,約定p(x_{i})=0時,p(x_{i})log_{2}p(x_{i})=0

城市天氣情況信息熵
城市/天氣 晴天 陰天 雨天
太原 0.8 0.15 0.05
晉中 0.4 0.3 0.3

設事件A爲太原天氣情況的事件,事件B爲晉中天氣情況的事件。那麼其各自的信息熵是多少呢?大家動手試一試吧!答案在文末。

中英文字符的信息量(漢語纔是真正的言簡意賅呢)

我們常用的漢字有2500+,那麼每個漢字的自信息量是I(漢字出現) = ㏒2 2500 = 11.3bit。而英文字母有26個, I(英文字母) = ㏒2 26 = 4.7bit。

而相同的表達含義,總信息量相等。字數上的差異爲,字數 = 總信息量/每個字的信息量。早上好—Good morning

漢語表達比英語更加簡潔

案例答案

H(A) = 0.884

H(B) = 1.571

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章