Stanford機器學習-- 邏輯迴歸和過擬合問題的解決 logistic Regression & Regularization

原創

2020-07-01 13:00

什麼是邏輯迴歸？

Logistic迴歸與多重線性迴歸實際上有很多相同之處，最大的區別就在於它們的因變量不同，其他的基本都差不多。正是因爲如此，這兩種迴歸可以歸於同一個家族，即廣義線性模型（generalizedlinear model）。

這一家族中的模型形式基本上都差不多，不同的就是因變量不同。

如果是連續的，就是多重線性迴歸；
如果是二項分佈，就是Logistic迴歸；
如果是Poisson分佈，就是Poisson迴歸；
如果是負二項分佈，就是負二項迴歸。

Logistic迴歸的因變量可以是二分類的，也可以是多分類的，但是二分類的更爲常用，也更加容易解釋。所以實際中最常用的就是二分類的Logistic迴歸。

Logistic迴歸的主要用途：

尋找危險因素：尋找某一疾病的危險因素等；
預測：根據模型，預測在不同的自變量情況下，發生某病或某種情況的概率有多大；
判別：實際上跟預測有些類似，也是根據模型，判斷某人屬於某病或屬於某種情況的概率有多大，也就是看一下這個人有多大的可能性是屬於某病。

Logistic迴歸主要在流行病學中應用較多，比較常用的情形是探索某疾病的危險因素，根據危險因素預測某疾病發生的概率，等等。例如，想探討胃癌發生的危險因素，可以選擇兩組人羣，一組是胃癌組，一組是非胃癌組，兩組人羣肯定有不同的體徵和生活方式等。這裏的因變量就是是否胃癌，即“是”或“否”，自變量就可以包括很多了，例如年齡、性別、飲食習慣、幽門螺桿菌感染等。自變量既可以是連續的，也可以是分類的。

常規步驟

Regression問題的常規步驟爲：

尋找h函數（即hypothesis）；
構造J函數（損失函數）；
想辦法使得J函數最小並求得迴歸參數（θ）

構造預測函數h

Logistic迴歸雖然名字裏帶“迴歸”，但是它實際上是一種分類方法，主要用於兩分類問題（即輸出只有兩種，分別代表兩個類別），所以利用了Logistic函數（或稱爲Sigmoid函數），函數形式爲：

Sigmoid 函數在有個很漂亮的“S”形，如下圖所示（引自維基百科）：

下面左圖是一個線性的決策邊界，右圖是非線性的決策邊界。

對於線性邊界的情況，邊界形式如下：

構造預測函數爲：

函數的值有特殊的含義，它表示結果取1的概率，因此對於輸入x分類結果爲類別1和類別0的概率分別爲：

構造損失函數J

Cost函數和J函數如下，它們是基於最大似然估計推導得到的。

下面詳細說明推導的過程：

（1）式綜合起來可以寫成：

取似然函數爲：

對數似然函數爲：

最大似然估計就是求使取最大值時的θ，其實這裏可以使用梯度上升法求解，求得的θ就是要求的最佳參數。但是，在Andrew Ng的課程中將取爲下式，即：

因爲乘了一個負的係數-1/m，所以取最小值時的θ爲要求的最佳參數。

梯度下降法求的最小值

θ更新過程：

θ更新過程可以寫成：

向量化Vectorization

Vectorization是使用矩陣計算來代替for循環，以簡化計算過程，提高效率。

如上式，Σ(...)是一個求和的過程，顯然需要一個for語句循環m次，所以根本沒有完全的實現vectorization。

下面介紹向量化的過程：

約定訓練數據的矩陣形式如下，x的每一行爲一條訓練樣本，而每一列爲不同的特稱取值：

g(A)的參數A爲一列向量，所以實現g函數時要支持列向量作爲參數，並返回列向量。由上式可知可由一次計算求得。

θ更新過程可以改爲：

綜上所述，Vectorization後θ更新的步驟如下：

（1）求；

（2）求；

（3）求。

正則化Regularization

過擬合問題

對於線性迴歸或邏輯迴歸的損失函數構成的模型，可能會有些權重很大，有些權重很小，導致過擬合（就是過分擬合了訓練數據），使得模型的複雜度提高，泛化能力較差（對未知數據的預測能力）。

下面左圖即爲欠擬合，中圖爲合適的擬合，右圖爲過擬合。

問題的主因

過擬合問題往往源自過多的特徵。

解決方法

1）減少特徵數量（減少特徵會失去一些信息，即使特徵選的很好）

可用人工選擇要保留的特徵；
模型選擇算法；

2）正則化（特徵較多時比較有效）

保留所有特徵，但減少θ的大小

正則化方法

正則化是結構風險最小化策略的實現，是在經驗風險上加一個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函數，模型越複雜，正則化項就越大。

從房價預測問題開始，這次採用的是多項式迴歸。左圖是適當擬合，右圖是過擬合。

直觀來看，如果我們想解決這個例子中的過擬合問題，最好能將的影響消除，也就是讓。假設我們對進行懲罰，並且令其很小，一個簡單的辦法就是給原有的Cost函數加上兩個略大懲罰項，例如：

這樣在最小化Cost函數的時候，。

正則項可以取不同的形式，在迴歸問題中取平方損失，就是參數的L2範數，也可以取L1範數。取平方損失時，模型的損失函數變爲：

lambda是正則項係數：

如果它的值很大，說明對模型的複雜度懲罰大，對擬合數據的損失懲罰小，這樣它就不會過分擬合數據，在訓練數據上的偏差較大，在未知數據上的方差較小，但是可能出現欠擬合的現象；
如果它的值很小，說明比較注重對訓練數據的擬合，在訓練數據上的偏差會小，但是可能會導致過擬合。

正則化後的梯度下降算法θ的更新變爲：

正則化後的線性迴歸的Normal Equation的公式爲：

其他優化算法

Conjugate gradient method(共軛梯度法)
Quasi-Newton method(擬牛頓法)
BFGS method
L-BFGS(Limited-memory BFGS)

後二者由擬牛頓法引申出來，與梯度下降算法相比，這些算法的優點是：

第一，不需要手動的選擇步長；
第二，通常比梯度下降算法快；

但是缺點是更復雜。

多類分類問題

對於多類分類問題，可以將其看做成二類分類問題：保留其中的一類，剩下的作爲另一類。

對於每一個類 i 訓練一個邏輯迴歸模型的分類器，並且預測y = i時的概率；對於一個新的輸入變量x, 分別對每一個類進行預測，取概率最大的那個類作爲分類結果：

參考鏈接

http://blog.csdn.net/dongtingzhizi/article/details/15962797

Coursera公開課筆記: 斯坦福大學機器學習第六課“邏輯迴歸(Logistic Regression)”

Coursera公開課筆記: 斯坦福大學機器學習第七課“正則化(Regularization)”

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

“MobaXterm X11 proxy: Unsupported authorisation protocol”解決方法

服務器無法顯示GUI圖片問題在解決這個問題的時候，可能很多人都搜到了用sudo的方法，但是在我們沒有管理權限的情況下，這個問題也是能解決的。報錯信息我的報錯信息： MobaXterm X11 proxy: Unsupport

大鲨鱼冲鸭

2020-07-05 12:15:34

支持向量機SVM（五）

11 SMO優化算法（Sequential minimal optimization） SMO算法由Microsoft Research的John C. Platt在1998年提出，併成爲最快的二次規劃優化算法，特別針對線性SVM和數

2020-07-01 13:00:54

支持向量機SVM（四）

9 規則化和不可分情況處理（Regularization and the non-separable case）我們之前討論的情況都是建立在樣例線性可分的假設上，當樣例線性不可分時，我們可以嘗試使用核函數來將特徵映射到高維，這樣很可

2020-07-01 13:00:53

讀Nature文章，看AlphaGo養成

博主是圍棋小白，下棋規則都記不清楚，也沒有設計過棋類AI程序。這篇文章主要是閱讀《Nature》論文及關於AlphaGo的相關文章的學習心得。本文的主要目的是增進分享，交流學習，方便初學者瞭解AlphaGo中的算法，以及一些機器學習中的常

2020-07-01 13:00:53

七步教你精通Python機器學習

開始。這是最容易令人喪失鬥志的兩個字。邁出第一步通常最艱難。當可以選擇的方向太多時，就更讓人兩腿發軟了。從哪裏開始？本文旨

2020-07-01 13:00:53

Halcon19.11（+Deep Learning模塊）在Ubuntu 系統安裝

2019-12.06日更新目錄 1.解壓 2.sudo模式下.sh命令進行程序安裝 3.deep learning模塊解壓拷貝 4.license文件拷貝 5.環境變量設置 6.重啓電腦（or source ~/.bashrc（使環

用户名已存在1

2020-06-25 02:51:48

Ubuntu16.04安裝配置編譯運行Caffe-SSD

一、安裝caffe 官網安裝步驟：http://caffe.berkeleyvision.org/install_apt.html 1.依賴環境安裝： sudo apt-get install libprotobuf-dev liblev

用户名已存在1

2020-06-25 01:47:02

ubuntu 安裝深度學習目標檢測工具箱mmdetection

目錄 1.Anaconda 安裝 2.環境配置 3.安裝Pytorch 4.安裝mmdetection 4.1安裝mmcv 5.demo測試mmdetection error: 1 . ImportError: cannot import

用户名已存在1

2020-06-25 01:46:58

經典卷積神經網絡筆記-VGG16

VGG16論文鏈接： https://arxiv.org/abs/1409.1556 收錄於ICLR2015 網絡結構和配置：作者在這篇論文中主要探討的是使用非常小的卷積核（3*3）來增加捲積神經網絡的深度對於性能有很大的提升。如Tab

2020-06-25 00:22:09

用PyCUDA訪問GPU設備屬性信息

Python提供了一個名爲PyCUDA 的封裝，通過使用Nvidia CUDA API能夠利用GPU的並行計算能力; Python 也有一個PyOpenCL模塊能夠用於任何GPU的並行計算。而PyCUDA是主要針對NVIDIA的GPU

2020-06-19 19:16:55

Tensorflow實現卷積神經網絡識別mnist數字

很久以前寫的代碼，冒個泡 from tensorflow.examples.tutorials.mnist import input_data import tensorflow as tf mnist = input_data

西江月独酌

2020-06-17 16:00:42

Caffe 版 MobileNet-Yolo配置

項目工程鏈接：MobileNet-YOLO 環境：centos7,cuda9.0,cudnn7.5,OpenCV3.3.1 安裝依賴項 1.安裝opencv的依賴項 #首先切換到root權限下： $su $ yum install

2020-06-08 03:02:43

ResNet(V2)結構以及Tensorflow實現

Tensorflow實現ResNet_V2 引言: ResNet是由Kaiming He等4名華人提出，通過使用Residual Unit成功訓練了152層的深度神經網絡，在ILSVRC 2015比賽中獲得冠軍，取得了3.57%

大鲨鱼冲鸭

2020-06-07 02:44:43

GoogleInceptionNet(V3)簡介以及Tensorflow實現

Tensorflow實現GoogleInceptionNet_V3 引言:Google Inception Net首次出現在ILSVRC 2014的比賽中，並且有非常好的性能——top-5的錯誤率6.67%，後來又逐漸提出了In

大鲨鱼冲鸭

2020-06-07 02:44:43

淺談C++類的繼承與派生的關係

一、基本概念 1、類的繼承，是新的類從已有類那裏得到已有的特性。或從已有類產生新類的過程就是類的派生。原有的類稱爲基類或父類，產生的新類稱爲派生類或子類。 2、派生類的聲明： class 派生類名：繼承方式基類名1，繼承

2020-07-01 13:00:53

24小時熱門文章

最新文章

最新評論文章