應用廣泛的二分類算法——邏輯迴歸

原創

2020-04-20 20:40

邏輯迴歸

對問題劃分層次，並利用非線性變換和線性模型的組合，將未知的複雜問題分解爲已知的簡單問題。

其原理是將樣本的特徵和樣本發生的概率聯繫起來，即，預測的是樣本發生的概率是多少。由於概率是一個數，因此被叫做“邏輯迴歸”。

在迴歸問題上再多做一步，就可以作爲分類算法來使用了。邏輯迴歸只能解決二分類問題，如果是多分類問題，LR本身是不支持的。

總結：

邏輯迴歸是解決分類問題的，本質是求概率再分類。在分類結果的背後是隱藏變量的博弈，我們認爲隱藏變量與特徵是線性相關的，因此就可以對隱藏變量之差求概率（得到隨機變量的累積分佈函數），得到probit迴歸模型。

根據建模過程，我們已經得到了邏輯迴歸模型，下一步就是找到損失函數，去儘可能地擬合數據。

那麼對於給定的樣本數據集X，y，我們如何找到一組參數，使得用這樣的方式，可以最大程度獲得樣本數據集X對應的分類輸出y？

邏輯迴歸假設數據服從伯努利分佈，通過極大似然函數的方法，運用梯度下降來求解參數，來達到將數據二分類的目的。

找到廣義線性模型中的聯繫函數。如果選擇單位階躍函數的話，它是不連續的不可微。而如果選擇sigmoid函數，它是連續的，而且能夠將z轉化爲一個接近0或1的值。

決策邊界是分類中非常重要的一個概念。線性決策邊界就是一條直線，而在真實數據，很少是一根直線就能分類的，通常都要加上多項式項，也就是非線性的決策邊界。這樣才能解決更復雜的問題。

但是多項式項的階數越大，越容易過擬合。那麼就要進行模型的正則化。下一章就在邏輯迴歸中使用正則化，且看看sklearn中是如何使用邏輯迴歸的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.