一、信息
信息就是不確定性的消除量 香農<美>
顯著特性:信息與概率有關
eg. 猜測2022年世界盃冠軍球隊(一共32只球隊)
- 二分法,1/2,1/4,1/8,1/16,1/32。一共猜五次
- 將奪冠概率高的四隊放入一組,其他所有球隊放入另一組。猜3次
自信息量:
隨機事件x,發生概率的對數的相反數。或者隨機事件x帶給我們的信息量。用I(x)表示,單位是bit 比特。
例如,事件x;擲骰子,六點朝上。概率P(x)=1/6。。I(x)=2.58(bit)以2爲底,表示二進制(兩種狀態)。注意,下列計算結果均爲近似值,這裏以等號表示
事件y;小明今天吃飯了。P(x)=99.99%. I(y)=0.00015(bit)
事件z:某沿海地區發生海嘯 P(z) = 0.01% I(z)=13.288(bit)
有關係式可以得出,概率與信息量呈負相關關係。一件事發生的概率越小,其信息量越大。在現實生活中也是一樣,比如有人對你說,你們明天放長假,你肯定會想,這個信息量有點大。
信息熵:
設隨機變量X取值於,出現的概率爲,
那麼所有可能事件,的自信息量的加權平均定義爲隨機變量X的信息熵,簡稱熵,記爲H(X)。即:
爲方便起見,約定時,。
城市天氣情況信息熵
城市/天氣 晴天 陰天 雨天 | |||
---|---|---|---|
太原 0.8 0.15 0.05 | |||
晉中 0.4 0.3 0.3 |
設事件A爲太原天氣情況的事件,事件B爲晉中天氣情況的事件。那麼其各自的信息熵是多少呢?大家動手試一試吧!答案在文末。
中英文字符的信息量(漢語纔是真正的言簡意賅呢)
我們常用的漢字有2500+,那麼每個漢字的自信息量是I(漢字出現) = ㏒2 2500 = 11.3bit。而英文字母有26個, I(英文字母) = ㏒2 26 = 4.7bit。
而相同的表達含義,總信息量相等。字數上的差異爲,字數 = 總信息量/每個字的信息量。早上好—Good morning
漢語表達比英語更加簡潔
案例答案
H(A) = 0.884
H(B) = 1.571