三線性迴歸

Linear Regression

3.1 思維導圖簡述

3.2 內容

3.2.1 最小二乘法及其幾何意義

背景

最小二乘法LSM(Least Squre Method)，表面意思就是讓二乘得到的結果最小，二乘又是什麼呢，二乘就是兩個數相乘，也就是平方，那麼我們就可以輕鬆的得到最小二乘法的Loss Function：
$L(w) = \sum\limits_{i = 1}^N { { {\left( { {w^T}{x_i} - {y_i}} \right)}^2}}$

A 已知

B 求

令L(w)最小的w是多少。

C 解

最後求得的結果是 $w=(X^{T}X)^{-1}X^{T}Y$

其中， ${({X^T}X)^{ - 1}}{X^T}$ 又稱爲僞逆。

這裏存在 $(X^{T}X)^{-1}$ 中的 $X^{T}X$ 不一定可逆的問題。

D 收穫

最小二乘法的幾何意義有兩個：

在下圖中，最小二乘法就是將所有的實際值-估計值誤差都累加起來.

把誤差分成了n段

高維空間的投影

把誤差分散在n個維度裏面

X是N*P維矩陣，按列選取p維，構成p維的子空間

把 $f$ 寫成 $x^{T}\beta$ 的形式。然後 $f(w)=w^{T}x=x^{T}\beta$ 不在p維子空間裏，因爲除非n個樣本點都在迴歸曲線上，纔可能出現 $f(w)$ 在p維子空間中。

我們要求的最小二乘法從幾何意義上表述就是，向量 $Y$ 在p維空間中找一條線，讓 $Y$ 離這條線最近，或者說向量 $Y$ 離這個平面最近，很顯然就是 $Y$ 的投影。而這個投影就是 $x_1, x_2, ..., x_p$ 的線性組合。

法向量可以表示爲 $(Y-X\beta)$

法向量肯定垂直於p維空間，所以 $X^{T}(Y-X\beta)=0$ ，求解得出 $\beta=(X^{T}X)^{-1}X^{T}Y$

3.2.2 最小二乘法-概率視角-高斯噪聲-MLE

背景

從概率角度看最小二乘法，實際上就是用概率分佈函數PDF來硬算，這個PDF要是高斯噪聲纔可以讓最大似然估計=最小二乘估計的結果。MLE=LSE

A 已知

B 求

假設 $p(Y|x_i,w)$ 的概率密度函數是一維高斯分佈函數，服從的高斯分佈均值爲 $w^{T}x$ ，方差爲 $\sigma^2$ 。求參數w的MLE。損失函數定義爲：
$L(w) = logP(Y|{X_i},w)$

C 解

當 $P(Y|x_i,w)$ 服從正態分佈，纔有MLE=LSE，最小二乘法估計定義爲 $L(w) = \sum\limits_{i = 1}^N {\left\| { {w^T}{x_i} - y} \right\|_2^2}$

3.2.3 正則化-嶺迴歸-頻率角度

Regularization - Ridge Regression - Bayesians

背景

正則化是爲了解決過擬合問題而提出的。regularization，讓它正常，不要那麼不正常了，那麼這個不正常體現在那裏呢，目前[2020-5-15]來看，不就是它過擬合了，不像正常的那樣了。

過擬合是什麼呢？
過擬合從字面意義上看，就是擬合過度了，什麼才叫擬合過度呢？看下圖。一個點，有好多情況，你得到的曲線，只適合某一種樣本點，其他樣本點適應性極差。

從數據角度分析：首先， $X$ 是樣本數據陣，它是一個N*P維的矩陣，N表示的樣本的數量，P維表示的是每一個樣本的狀態數，就是N個樣本，每個樣本是p維的。然後，理論上應該樣本數N應該遠大於樣本的維數P，但是，實際中可能僅有幾個樣本，出現N<P的情況，那麼就會造成過擬合
從數學角度分析：在3.2.1中得到的 $(X^{T}X)^{-1}$ 中的 $X^{T}X$ 不可逆，就會直接造成過擬合。

解決過擬合的方法：

增加樣本數量
特徵選擇/特徵提取，實際就是降維，降低p的維數。PCA
正則化，對w約束，改變w的形式，把 $(X^{T}X)^{-1}$ 改造成一個絕對可逆的式子。

正則化分爲兩種

L1 -> Lasso
L2 -> Ridge

A 已知

B 求

正則化下，新的w形式

C 解

$\hat w = {({X^T}X + \lambda I)^{ - 1}}{X^T}Y$

D 收穫

正則化：解決過擬合問題。過擬合由 $\hat w = {({X^T}X)^{ - 1}}{X^T}Y$ 中 ${({X^T}X)^{ - 1}}$ 不可逆引起。正則化就是構造新Loss Function J(w)，推出的 $\hat w$ 就是可逆的，且一定可逆，將不可逆變成可逆。

3.2.4 正則化-嶺迴歸-貝葉斯角度

A 已知

B 求

參數w的最大後驗估計MAP。

C 解

D 收穫

從貝葉斯角度用最大後驗概率估計進行分析，驚人的發現，在參數w先驗知識是高斯分佈的情況下，居然和正則化的最小二乘估計是一樣的

3.3 問題

3.3.1 爲什麼貝葉斯角度分析求的就是最大後驗估計MAP呢

因爲貝葉斯派設置的參數w是一個概率分佈，它是有先驗知識的，並不像是頻率派參數w是一個常數。貝葉斯派想要求出使得概率值最大的w，就需要藉助貝葉斯公式進行硬算，在硬算的過程中，需要藉助w的先驗知識。最後要求得的那個概率值就是一個後驗概率，在3.2.4中，那個後驗概率是 $P(w|y)$

3.3.2 正則化(regularized)是什麼

將不可逆變爲可逆即爲正則化

爲什麼需要正則化，首先正則化出現的背景是最小二乘法 $w=(X^TX)^{-1}X^TY$ 中式子 $X^TX$ 可能是不可逆的，從數學角度分析就是X爲N*p維的矩陣，N表示樣本數，p是Xi的狀態向量數，在實際應用中，可能測得的樣本數很少，出現了N<P的情況，即 $X^TX$ 不可逆，那麼w就求不來。

這樣不可逆會導致什麼後果呢。答，會引起過擬合。因爲如果樣本數過少，那麼擬合的方法就會有很多。出現錯誤的機率就會很高。

怎麼解決這個問題提，答，引入正則化。正則化實際上就是給最小二乘法的損失函數(Loss Function)L(w)加一個框架，得到一個新的函數J(w)，其中 $J(w)=L(w)+\lambda P(w)$ 。這樣求出的w就會絕對可逆。

3.3.3 最小二乘法的第二個幾何意義

真實空間是x1, x2, …, xn，測量值y沒有在真實空間中，y的估計值在真實空間裏最接近的那個就是它在真實空間的投影 $f(w)=x^{T}β$ ，其中真實空間x與這個投影f(w)是垂直的。所以就有 $X^{T}(Y-Xβ)=0$ ，解出β就是所求的最小二乘法得出的最優w

不知道爲什麼 $f(w)=x^{T}β$ ，這個β是什麼，這個β也是類似於w的參數，那條投影在真實空間中的表示就是用 $x^{T}β$ 來表示。要求的也是這個β。（不同的β，Xβ表示真實空間不同的對象）
Y-Xβ，完全是爲了等式成立才這麼寫，這個量表示的是那條垂直的虛線，垂直的虛線和真實空間垂直，所有有了 $X^{T}(Y-Xβ)=0$

3.3.4 矩陣求導規則

參考文獻

[1] shuhuai008. 【機器學習】【白板推導系列】【合集 1～23】. bilibili. 2019.
https://www.bilibili.com/video/BV1aE411o7qd?p=9

[2] 3.2.4 正則化-嶺迴歸-貝葉斯角度手稿

[3] zealscott. 矩陣求導法則與性質. CSDN. 2018. https://blog.csdn.net/crazy_scott/article/details/80557814

數學-機器學習-線性迴歸

三線性迴歸

3.1 思維導圖簡述

3.2 內容

3.2.1 最小二乘法及其幾何意義

背景

A 已知

B 求

C 解

D 收穫

3.2.2 最小二乘法-概率視角-高斯噪聲-MLE

背景

A 已知

B 求

C 解

3.2.3 正則化-嶺迴歸-頻率角度

背景

A 已知

B 求

C 解

D 收穫

3.2.4 正則化-嶺迴歸-貝葉斯角度

A 已知

B 求

C 解

D 收穫

3.3 問題

3.3.1 爲什麼貝葉斯角度分析求的就是最大後驗估計MAP呢

3.3.2 正則化(regularized)是什麼

3.3.3 最小二乘法的第二個幾何意義

3.3.4 矩陣求導規則

參考文獻

數學-機器學習-降維

座標變換與基變換到底哪個左乘，哪個右乘??

數據結構與算法圖解比喻內在化學習

個人博客hexo+github搭建

數學-機器學習-線性分類

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

數學-機器學習-線性迴歸

三 線性迴歸

3.1 思維導圖簡述

3.2 內容

3.2.1 最小二乘法及其幾何意義

背景

A 已知

B 求

C 解

D 收穫

3.2.2 最小二乘法-概率視角-高斯噪聲-MLE

背景

A 已知

B 求

C 解

3.2.3 正則化-嶺迴歸-頻率角度

背景

A 已知

B 求

C 解

D 收穫

3.2.4 正則化-嶺迴歸-貝葉斯角度

A 已知

B 求

C 解

D 收穫

3.3 問題

3.3.1 爲什麼貝葉斯角度分析求的就是最大後驗估計MAP呢

3.3.2 正則化(regularized)是什麼

3.3.3 最小二乘法的第二個幾何意義

3.3.4 矩陣求導規則

參考文獻

三線性迴歸