三 線性迴歸
Linear Regression
3.1 思維導圖簡述
3.2 內容
3.2.1 最小二乘法及其幾何意義
背景
最小二乘法LSM(Least Squre Method)
,表面意思就是讓二乘
得到的結果最小,二乘
又是什麼呢,二乘
就是兩個數相乘,也就是平方,那麼我們就可以輕鬆的得到最小二乘法的Loss Function:
A 已知
B 求
令L(w)最小的w是多少。
C 解
最後求得的結果是
其中,又稱爲僞逆。
這裏存在中的不一定可逆的問題。
D 收穫
最小二乘法的幾何意義有兩個:
-
在下圖中,最小二乘法就是將所有的
實際值-估計值
誤差都累加起來.把誤差分成了n段
-
高維空間的投影
把誤差分散在n個維度裏面
X是N*P
維矩陣,按列選取p維
,構成p維的子空間
把寫成的形式。然後不在p維子空間裏,因爲除非n個樣本點都在迴歸曲線上,纔可能出現在p維子空間中。
我們要求的最小二乘法從幾何意義上表述就是,向量在p維空間中找一條線,讓離這條線最近,或者說向量離這個平面最近,很顯然就是的投影。而這個投影就是的線性組合。
法向量可以表示爲
法向量肯定垂直於p維空間,所以,求解得出
3.2.2 最小二乘法-概率視角-高斯噪聲-MLE
背景
從概率角度看最小二乘法,實際上就是用概率分佈函數PDF來硬算,這個PDF要是高斯噪聲纔可以讓最大似然估計=最小二乘估計的結果。MLE=LSE
A 已知
B 求
假設的概率密度函數是一維高斯分佈函數,服從的高斯分佈均值爲,方差爲。求參數w
的MLE。損失函數定義爲:
C 解
當服從正態分佈,纔有MLE=LSE
,最小二乘法估計定義爲
3.2.3 正則化-嶺迴歸-頻率角度
Regularization - Ridge Regression - Bayesians
背景
正則化是爲了解決過擬合問題而提出的。regularization,讓它正常,不要那麼不正常了,那麼這個不正常體現在那裏呢,目前[2020-5-15]來看,不就是它過擬合了,不像正常的那樣了。
過擬合是什麼呢?
過擬合從字面意義上看,就是擬合過度了,什麼才叫擬合過度呢?看下圖。一個點,有好多情況,你得到的曲線,只適合某一種樣本點,其他樣本點適應性極差。
- 從數據角度分析:首先,是樣本數據陣,它是一個
N*P維
的矩陣,N表示的樣本的數量,P維表示的是每一個樣本的狀態數,就是N個樣本,每個樣本是p維的。然後,理論上應該樣本數N
應該遠大於
樣本的維數P
,但是,實際中可能僅有幾個樣本,出現N<P
的情況,那麼就會造成過擬合 - 從數學角度分析:在
3.2.1
中得到的中的不可逆,就會直接造成過擬合。
解決過擬合的方法:
- 增加樣本數量
- 特徵選擇/特徵提取,實際就是降維,降低p的維數。PCA
- 正則化,對w約束,改變
w的形式
,把改造成一個絕對可逆的式子。
正則化分爲兩種
- L1 -> Lasso
- L2 -> Ridge
A 已知
B 求
正則化下,新的w形式
C 解
D 收穫
正則化:解決過擬合問題。過擬合由中不可逆引起。正則化就是構造新Loss Function J(w)
,推出的就是可逆的,且一定可逆,將不可逆變成可逆。
3.2.4 正則化-嶺迴歸-貝葉斯角度
A 已知
B 求
參數w
的最大後驗估計MAP
。
C 解
D 收穫
從貝葉斯角度用最大後驗概率估計
進行分析,驚人的發現,在參數w
先驗知識是高斯分佈的情況下,居然和正則化的最小二乘估計
是一樣的
3.3 問題
3.3.1 爲什麼貝葉斯角度分析求的就是最大後驗估計MAP呢
因爲貝葉斯派設置的參數w
是一個概率分佈,它是有先驗知識
的,並不像是頻率派參數w是一個常數。貝葉斯派想要求出使得概率值最大的w
,就需要藉助貝葉斯公式
進行硬算,在硬算的過程中,需要藉助w
的先驗知識
。最後要求得的那個概率值就是一個後驗概率
,在3.2.4
中,那個後驗概率是
3.3.2 正則化(regularized)是什麼
將不可逆變爲可逆即爲正則化
爲什麼需要正則化,首先正則化出現的背景是最小二乘法中式子可能是不可逆的,從數學角度分析就是X
爲N*p
維的矩陣,N
表示樣本數,p
是Xi
的狀態向量數,在實際應用中,可能測得的樣本數很少,出現了N<P
的情況,即不可逆,那麼w就求不來。
這樣不可逆會導致什麼後果呢。答,會引起過擬合。因爲如果樣本數過少,那麼擬合的方法就會有很多。出現錯誤的機率就會很高。
怎麼解決這個問題提,答,引入正則化。正則化實際上就是給最小二乘法的損失函數(Loss Function)L(w)
加一個框架,得到一個新的函數J(w)
,其中。這樣求出的w
就會絕對可逆。
3.3.3 最小二乘法的第二個幾何意義
真實空間是x1, x2, …, xn,測量值y沒有在真實空間中,y的估計值在真實空間裏最接近的那個就是它在真實空間的投影,其中真實空間x與這個投影f(w)是垂直的。所以就有,解出β就是所求的最小二乘法得出的最優w
- 不知道爲什麼,這個β是什麼,這個β也是類似於w的參數,那條投影在真實空間中的表示就是用來表示。要求的也是這個β。(不同的β,Xβ表示真實空間不同的對象)
- Y-Xβ,完全是爲了等式成立才這麼寫,這個量表示的是那條垂直的虛線,垂直的虛線和真實空間垂直,所有有了
3.3.4 矩陣求導規則
推薦,哈工大嚴質彬,矩陣論
公式查詢: 矩陣求導法則與性質
參考文獻
[1] shuhuai008. 【機器學習】【白板推導系列】【合集 1~23】. bilibili. 2019.
https://www.bilibili.com/video/BV1aE411o7qd?p=9
[2] 3.2.4 正則化-嶺迴歸-貝葉斯角度手稿
[3] zealscott. 矩陣求導法則與性質. CSDN. 2018. https://blog.csdn.net/crazy_scott/article/details/80557814