簡單的理解熵的概念

原創

2020-06-20 16:07

通常我們爲了量化分類效果的好壞，會引入信息增益（ID3）、信息增益率（C4.5）、基尼係數（CART）等。一般採用熵（Entropy）來度量信息增益。

ID3算法的核心思想就是以信息增益度量屬性的選擇，選擇分裂後能夠獲得最大信息增益的屬性進行分裂。信息增益（Information Gain）是用來衡量給定的屬性區分訓練樣例的能力。先了解一下信息增益相關聯的一個名詞“熵”（entropy），熵是信息論中廣泛使用的一個名詞，刻畫任意數據集的純度。假設一個二分類的問題，正反樣例集爲S，那麼這個數據集S相對於這個二分類的熵爲：

$Entropy(S)\equiv -p_{\oplus}log_{2}p_{\oplus}-p_{\ominus}log_{2}p_{\ominus}\equiv -p_{\oplus}log_{2}p_{\oplus}-(1-p_{\oplus})log_{2}(1-p_{\oplus})$

其中 $p_{\oplus}$ 代表正樣例的先驗概率（統計概率，佔比）， $p_{\ominus}$ 代表負樣例的先驗概率，在熵的計算中任務 $0log_{2}0= 0$ 。

舉個例子對於人臉特徵區分男女的例子，樣本集S一共15個樣本，其中包括7個男生、8個女生，我們把樣本集S記爲：

$S=[7_{\oplus}, 8_{\ominus}]$ ，那麼熵爲：

$Entropy(S)=Entropy([7_{\oplus}, 8_{\ominus}]) \\\\=-\frac{7}{15}log_{2}\frac{7}{15}-\frac{8}{15}log_{2}\frac{8}{15} \\\\=-\frac{7}{15}log_{2}\frac{7}{15}-(1-\frac{7}{15})log_{2}(1-\frac{7}{15}) \\\\=0.9967$

根據上面公式可以很容易得到如下結論：

1. 如果S所有的成員都屬於一類，那麼Entrop(S)=0

2. 如果S所有成員的正負例個數相等，那麼Entrop(S)=1

3. 如果S的正反例數量不等，那麼0 < Entropy(S) < 1

可以根據上面公式的正例和entropy的關係簡單畫出示意圖。

泛化一下，如果目標屬性包含n個不同的值，那麼S相對於n個狀態的分類熵定義爲：

$Entropy(S)=\sum_{i=1}^{n}-p_{i}log_{2}p_{i}$ ，其中 $p_{i}$ 爲第i個狀態的比率（統計概率）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

簡單的理解熵的概念

Neo4j Vs JanusGraph Vs Tigergraph

Golang的 Json string和Map互相轉換

ImportError: cannot import name 'IncompleteRead'

簡單的理解熵的概念

OpenFST概覽

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結