邏輯迴歸Logistics--簡述

一、邏輯迴歸的作用

logistic迴歸又稱logistic迴歸分析,是一種廣義的線性迴歸分析模型,常用於數據挖掘,疾病自動診斷,經濟預測等領域。例如,探討引發疾病的危險因素,並根據危險因素預測疾病發生的概率等。以胃癌病情分析爲例,選擇兩組人羣,一組是胃癌組,一組是非胃癌組,兩組人羣必定具有不同的體徵與生活方式等。因此因變量(Y)就爲是否胃癌,值爲“是”或“否”,自變量(X)就可以包括很多了,如年齡、性別、飲食習慣、幽門螺桿菌感染等。自變量既可以是連續的,也可以是分類的。然後通過logistic迴歸分析,可以得到自變量的權重,從而可以大致瞭解到底哪些因素是胃癌的危險因素。同時根據該權值可以根據危險因素預測一個人患癌症的可能性。

  • 用於分類:適合做很多分類算法的基礎組件。
  • 用於預測:預測事件發生的概率(輸出)。
  • 用於分析:單一因素對某一個事件發生的影響因素分析(特徵參數值)。

二、何時使用邏輯迴歸

Logistic 迴歸通過線性邊界將你的輸入分成兩個「區域」,每個類別劃分一個區域。因此,你的數據應當是線性可分的,如下圖所示的數據點:

換句話說:當 Y 變量只有兩個值時(例如,當你面臨分類問題時),您應該考慮使用邏輯迴歸。注意,你也可以將 Logistic 迴歸用於多類別分類。

三、邏輯迴歸的優缺點

優點:

  • 形式簡單,模型的可解釋性非常好。從特徵的權重可以看到不同的特徵對最後結果的影響,某個特徵的權重值比較高,那麼這個特徵最後對結果的影響會比較大。
  • 模型效果不錯。在工程上是可以接受的(作爲baseline),如果特徵工程做的好,效果不會太差,並且特徵工程可以大家並行開發,大大加快開發的速度。
  • 訓練速度較快。分類的時候,計算量僅僅只和特徵的數目相關。並且邏輯迴歸的分佈式優化sgd發展比較成熟,訓練的速度可以通過堆機器進一步提高,這樣我們可以在短時間內迭代好幾個版本的模型。
  • 資源佔用小,尤其是內存。因爲只需要存儲各個維度的特徵值,。
  • 方便輸出結果調整。邏輯迴歸可以很方便的得到最後的分類結果,因爲輸出的是每個樣本的概率分數,我們可以很容易的對這些概率分數進行cutoff,也就是劃分閾值(大於某個閾值的是一類,小於某個閾值的是一類)。

      缺點:

  • 準確率並不是很高。因爲形式非常的簡單(非常類似線性模型),很難去擬合數據的真實分佈。
  • 很難處理數據不平衡的問題。舉個例子:如果我們對於一個正負樣本非常不平衡的問題比如正負樣本比 10000:1.我們把所有樣本都預測爲正也能使損失函數的值比較小。但是作爲一個分類器,它對正負樣本的區分能力不會很好。
  • 處理非線性數據較麻煩。邏輯迴歸在不引入其他方法的情況下,只能處理線性可分的數據,或者進一步說,處理二分類的問題 。
  • 邏輯迴歸本身無法篩選特徵。有時候,我們會用gbdt來篩選特徵,然後再上邏輯迴歸。

四:邏輯迴歸簡述 

當因變量爲二分法(二進制)時,邏輯迴歸是進行迴歸分析的合適方法。像所有迴歸分析一樣,邏輯迴歸是一種預測分析,當然還包括其他作用,但是目前用的最多的應該是預測分析。Logistic迴歸用於描述數據並解釋一個因變量二進制變量和一個或多個名義,有序,區間或比率級別的自變量之間的關係。下面這樣子圖就很生動形象,x1、x2、x3爲輸入值,θ1、θ2、θ3爲權重,happy與sad爲輸出值

五:邏輯迴歸的類型 

1.二元Logistic迴歸

類別響應只有兩個2種可能的結果。示例:是否爲垃圾郵件

2.多項邏輯迴歸

三個或更多類別,無需訂購。示例:預測哪種食物更受歡迎(蔬菜,非蔬菜,素食主義者)

3.有序邏輯迴歸

帶有訂購的三個或更多類別。示例:電影分級從1到5

六:邏輯迴歸數學推導以及操作步驟

我們分析邏輯迴歸還是從以下三個步驟着手操作:

  • 尋找Hypothesis(假設)函數,講的簡單點,就是構建邏輯迴歸;
  • 構造Loss Function(損失函數);
  • 求得Loss Function最小值,並得到迴歸參數。

有興趣的可以參考https://blog.csdn.net/ligang_csdn/article/details/53838743(理論推導)

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章