數學-機器學習-線性迴歸

三 線性迴歸

Linear Regression

3.1 思維導圖簡述

在這裏插入圖片描述

線性迴歸-思維導圖

3.2 內容

3.2.1 最小二乘法及其幾何意義

背景

最小二乘法LSM(Least Squre Method),表面意思就是讓二乘得到的結果最小,二乘又是什麼呢,二乘就是兩個數相乘,也就是平方,那麼我們就可以輕鬆的得到最小二乘法的Loss Function:
L(w)=i=1N(wTxiyi)2 L(w) = \sum\limits_{i = 1}^N { { {\left( { {w^T}{x_i} - {y_i}} \right)}^2}}

A 已知

在這裏插入圖片描述

B 求

令L(w)最小的w是多少。

C 解

最後求得的結果是w=(XTX)1XTYw=(X^{T}X)^{-1}X^{T}Y

其中,(XTX)1XT{({X^T}X)^{ - 1}}{X^T}又稱爲僞逆。

這裏存在(XTX)1(X^{T}X)^{-1}中的XTXX^{T}X不一定可逆的問題。

在這裏插入圖片描述

D 收穫

最小二乘法的幾何意義有兩個:

  1. 在下圖中,最小二乘法就是將所有的實際值-估計值誤差都累加起來.

    把誤差分成了n段

在這裏插入圖片描述

  1. 高維空間的投影

    把誤差分散在n個維度裏面

X是N*P維矩陣,按列選取p維,構成p維的子空間

在這裏插入圖片描述

ff寫成xTβx^{T}\beta的形式。然後f(w)=wTx=xTβf(w)=w^{T}x=x^{T}\beta不在p維子空間裏,因爲除非n個樣本點都在迴歸曲線上,纔可能出現f(w)f(w)在p維子空間中。

我們要求的最小二乘法從幾何意義上表述就是,向量YY在p維空間中找一條線,讓YY離這條線最近,或者說向量YY離這個平面最近,很顯然就是YY的投影。而這個投影就是x1,x2,...,xpx_1, x_2, ..., x_p的線性組合。

在這裏插入圖片描述

法向量可以表示爲(YXβ)(Y-X\beta)

法向量肯定垂直於p維空間,所以XT(YXβ)=0X^{T}(Y-X\beta)=0,求解得出β=(XTX)1XTY\beta=(X^{T}X)^{-1}X^{T}Y

3.2.2 最小二乘法-概率視角-高斯噪聲-MLE

背景

從概率角度看最小二乘法,實際上就是用概率分佈函數PDF來硬算,這個PDF要是高斯噪聲纔可以讓最大似然估計=最小二乘估計的結果。MLE=LSE

A 已知

在這裏插入圖片描述

B 求

假設p(Yxi,w)p(Y|x_i,w)的概率密度函數是一維高斯分佈函數,服從的高斯分佈均值爲wTxw^{T}x,方差爲σ2\sigma^2。求參數w的MLE。損失函數定義爲:
L(w)=logP(YXi,w) L(w) = logP(Y|{X_i},w)

C 解

P(Yxi,w)P(Y|x_i,w)服從正態分佈,纔有MLE=LSE,最小二乘法估計定義爲L(w)=i=1NwTxiy22L(w) = \sum\limits_{i = 1}^N {\left\| { {w^T}{x_i} - y} \right\|_2^2}

在這裏插入圖片描述

3.2.3 正則化-嶺迴歸-頻率角度

Regularization - Ridge Regression - Bayesians

背景

正則化是爲了解決過擬合問題而提出的。regularization,讓它正常,不要那麼不正常了,那麼這個不正常體現在那裏呢,目前[2020-5-15]來看,不就是它過擬合了,不像正常的那樣了。

過擬合是什麼呢?
過擬合從字面意義上看,就是擬合過度了,什麼才叫擬合過度呢?看下圖。一個點,有好多情況,你得到的曲線,只適合某一種樣本點,其他樣本點適應性極差。

在這裏插入圖片描述

  • 從數據角度分析:首先,XX是樣本數據陣,它是一個N*P維的矩陣,N表示的樣本的數量,P維表示的是每一個樣本的狀態數,就是N個樣本,每個樣本是p維的。然後,理論上應該樣本數N應該遠大於樣本的維數P,但是,實際中可能僅有幾個樣本,出現N<P的情況,那麼就會造成過擬合
  • 從數學角度分析:在3.2.1中得到的(XTX)1(X^{T}X)^{-1}中的XTXX^{T}X不可逆,就會直接造成過擬合。

解決過擬合的方法:

  • 增加樣本數量
  • 特徵選擇/特徵提取,實際就是降維,降低p的維數。PCA
  • 正則化,對w約束,改變w的形式,把(XTX)1(X^{T}X)^{-1}改造成一個絕對可逆的式子。

正則化分爲兩種

  1. L1 -> Lasso
  2. L2 -> Ridge

A 已知

在這裏插入圖片描述

B 求

正則化下,新的w形式

C 解

w^=(XTX+λI)1XTY \hat w = {({X^T}X + \lambda I)^{ - 1}}{X^T}Y

在這裏插入圖片描述

D 收穫

正則化:解決過擬合問題。過擬合由w^=(XTX)1XTY\hat w = {({X^T}X)^{ - 1}}{X^T}Y(XTX)1{({X^T}X)^{ - 1}}不可逆引起。正則化就是構造新Loss Function J(w),推出的w^\hat w就是可逆的,且一定可逆,將不可逆變成可逆。

3.2.4 正則化-嶺迴歸-貝葉斯角度

A 已知

在這裏插入圖片描述

B 求

參數w的最大後驗估計MAP

C 解

在這裏插入圖片描述

D 收穫

從貝葉斯角度用最大後驗概率估計進行分析,驚人的發現,在參數w先驗知識是高斯分佈的情況下,居然和正則化的最小二乘估計是一樣的

在這裏插入圖片描述

3.3 問題

3.3.1 爲什麼貝葉斯角度分析求的就是最大後驗估計MAP呢

因爲貝葉斯派設置的參數w是一個概率分佈,它是有先驗知識的,並不像是頻率派參數w是一個常數。貝葉斯派想要求出使得概率值最大的w,就需要藉助貝葉斯公式進行硬算,在硬算的過程中,需要藉助w先驗知識。最後要求得的那個概率值就是一個後驗概率,在3.2.4中,那個後驗概率是P(wy)P(w|y)

3.3.2 正則化(regularized)是什麼

將不可逆變爲可逆即爲正則化

爲什麼需要正則化,首先正則化出現的背景是最小二乘法w=(XTX)1XTYw=(X^TX)^{-1}X^TY中式子XTXX^TX可能是不可逆的,從數學角度分析就是XN*p維的矩陣,N表示樣本數,pXi的狀態向量數,在實際應用中,可能測得的樣本數很少,出現了N<P的情況,即XTXX^TX不可逆,那麼w就求不來。

這樣不可逆會導致什麼後果呢。答,會引起過擬合。因爲如果樣本數過少,那麼擬合的方法就會有很多。出現錯誤的機率就會很高。

在這裏插入圖片描述

怎麼解決這個問題提,答,引入正則化。正則化實際上就是給最小二乘法的損失函數(Loss Function)L(w)加一個框架,得到一個新的函數J(w),其中J(w)=L(w)+λP(w)J(w)=L(w)+\lambda P(w)。這樣求出的w就會絕對可逆。

3.3.3 最小二乘法的第二個幾何意義

真實空間是x1, x2, …, xn,測量值y沒有在真實空間中,y的估計值在真實空間裏最接近的那個就是它在真實空間的投影f(w)=xTβf(w)=x^{T}β,其中真實空間x與這個投影f(w)是垂直的。所以就有XT(YXβ)=0X^{T}(Y-Xβ)=0,解出β就是所求的最小二乘法得出的最優w

  • 不知道爲什麼f(w)=xTβf(w)=x^{T}β,這個β是什麼,這個β也是類似於w的參數,那條投影在真實空間中的表示就是用xTβx^{T}β來表示。要求的也是這個β。(不同的β,Xβ表示真實空間不同的對象)
  • Y-Xβ,完全是爲了等式成立才這麼寫,這個量表示的是那條垂直的虛線,垂直的虛線和真實空間垂直,所有有了XT(YXβ)=0X^{T}(Y-Xβ)=0

3.3.4 矩陣求導規則

推薦,哈工大嚴質彬,矩陣論

公式查詢: 矩陣求導法則與性質

在這裏插入圖片描述

參考文獻

[1] shuhuai008. 【機器學習】【白板推導系列】【合集 1~23】. bilibili. 2019.
https://www.bilibili.com/video/BV1aE411o7qd?p=9

[2] 3.2.4 正則化-嶺迴歸-貝葉斯角度手稿

在這裏插入圖片描述

[3] zealscott. 矩陣求導法則與性質. CSDN. 2018. https://blog.csdn.net/crazy_scott/article/details/80557814

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章