應用廣泛的二分類算法——邏輯迴歸

邏輯迴歸

數學思想:

對問題劃分層次,並利用非線性變換和線性模型的組合,將未知的複雜問題分解爲已知的簡單問題

邏輯迴歸介紹:

​ 其原理是將樣本的特徵樣本發生的概率聯繫起來,即,預測的是樣本發生的概率是多少。由於概率是一個數,因此被叫做“邏輯迴歸”。

在迴歸問題上再多做一步,就可以作爲分類算法來使用了。邏輯迴歸只能解決二分類問題,如果是多分類問題,LR本身是不支持的。

總結:

​ 邏輯迴歸是解決分類問題的,本質是求概率再分類。在分類結果的背後是隱藏變量的博弈,我們認爲隱藏變量與特徵是線性相關的,因此就可以對隱藏變量之差求概率(得到隨機變量的累積分佈函數),得到probit迴歸模型。

​ 根據建模過程,我們已經得到了邏輯迴歸模型,下一步就是找到損失函數,去儘可能地擬合數據。

​ 那麼對於給定的樣本數據集X,y,我們如何找到一組參數,使得用這樣的方式,可以最大程度獲得樣本數據集X對應的分類輸出y?

邏輯迴歸本質及其損失函數的推導、求解:

​ 邏輯迴歸假設數據服從伯努利分佈,通過極大似然函數的方法,運用梯度下降來求解參數,來達到將數據二分類的目的。

找到廣義線性模型中的聯繫函數如果選擇單位階躍函數的話,它是不連續的不可微。而如果選擇sigmoid函數,它是連續的,而且能夠將z轉化爲一個接近0或1的值。

邏輯迴歸的決策邊界及多項式

​ 決策邊界是分類中非常重要的一個概念。線性決策邊界就是一條直線,而在真實數據,很少是一根直線就能分類的,通常都要加上多項式項,也就是非線性的決策邊界。這樣才能解決更復雜的問題。

​ 但是多項式項的階數越大,越容易過擬合。那麼就要進行模型的正則化。下一章就在邏輯迴歸中使用正則化,且看看sklearn中是如何使用邏輯迴歸的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章