更詳細請參考:
http://blog.sina.com.cn/s/blog_44befaf60102vznn.html
https://www.douban.com/note/352258282/
直接舉例子:
當爲二分類時(二元Logistic):
假設數據如下:
Health代表身體健康情況,1是健康,0是不健康;
Aag代表年齡組,1是青年人,2是中年人:
Health | Age |
---|---|
1 | 1 |
1 | 1 |
1 | 1 |
1 | 1 |
0 | 1 |
1 | 2 |
1 | 2 |
0 | 2 |
0 | 2 |
0 | 2 |
0 | 2 |
青年人裏,4個健康1個不健康;
中年人裏,2個健康4個不健康
相當於下表,第一行是健康,第二行是不健康
Young | Middle | |
---|---|---|
Healthy | 4 | 2 |
Unhealthy | 1 | 4 |
現在分析,健康和不健康這兩種身體狀況,哪一種更容易出現在z中年人身上
P(健康中年人的概率) = 2/6=1/3
P(不健康中年人的概率) = 4/5
對於中年人而言,
Odds(健康) = =
Odds(不健康) = = 4
Odds Ratio = Odds(健康) /Odds(不健康) = = 1/8
這裏參照種類爲2,以中年人爲參照,EXP(B)即OR爲0.125,小於1,代表相比於中年人,青年人不健康的概率要爲健康概率的0.125
也可以由OR公式的含義推導得到
當爲多分類時(多元Logistic):
Old的label編號爲3,下面爲各年齡段健康與不健康的人數
Young | Middle | Old | |
---|---|---|---|
Healthy | 4 | 2 | 1 |
Unhealthy | 1 | 4 | 5 |
由於Logistic迴歸必須要有參照,因此這次我們以老年人爲參照
P(健康老年人的概率) = 1/7
P(不健康老年人的概率) = 5/10=1/2
P(健康中年人的概率) = 2/7
P(不健康中老年人的概率) = 4/10=2/5
P(健康青年人的概率) = 4/7
P(不健康青老年人的概率) = 1/10
注意:和老年人相除,因爲是以老年人爲參照!
Odds(中年健康) = = 2
Odds(中年不健康) = = 4/5
Odds Ratio(中年) = Odds(中年不健康)/Odds(中年健康) = = 2/5
同理,
Odds(青年健康) = = 4
Odds(青年不健康) = = 1/5
Odds Ratio(青年) = Odds(青年不健康)/Odds(青年健康) = = 1/20
最後討論關於兩次Odds Ratio爲什麼公式不一樣,其實在二分類的時候,其實也可以用多分類的思路,只不過因爲二分類的時候,(1-P)就是等於青年人的概率,所以不用單獨算青年人,而到了多分類的時候,因爲有了具體的對比對象,所以不能用(1-P)的方式計算
結果是一樣的,只要理解了OR的含義,誰對比誰,哪個特徵對比哪個特徵,就可以了