1. RSS, RSE, TSS等

RSS（Residual Sum of Squares）

$RSS = e_1^2 + e_2^2 + e_3^2 + ... + e_n^2 \\ =(\hat{y_1} - \hat{\beta_0} - \hat{\beta_1}x_1) + ... + (\hat{y_n} - \hat{\beta_0} - \hat{\beta_1}x_n) \\ = \sum_{i=1}^n(y_i - \hat{y_i})^2$

RSS定義了，在進行了迴歸之後，模型未能解釋的變量。

RSE（Residual Standard Error）

$RSE = \sqrt{\frac{RSS}{n-2}} \\ =\sqrt{\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y_i})^2}$

RSE說明了，即使再好的迴歸模型也存在着RSE置信區間之內的誤差，即模型對於數據的欠擬合程度。

TSS（Total Sum of Squares）

$TSS = \sum_{i=1}^n(y_i - \overline{y})$

其中 $\overline{y} = \frac{1}{n}y_i$ 。TSS定義了 $y$ 自身的方差，即衡量了 $Y$ 中 $y$ 固有的變化程度。

$R^2$

$R^2 = \frac{TSS-RSS}{TSS} = 1-\frac{RSS}{TSS}$

$TSS$ ：衡量了 $Y$ 中 $y$ 固有的變化程度。
$RSS$ ：進行迴歸之後，模型未能解釋的變量值
$TSS-RSS$ ：固有的變化程度 - 未能解釋的變量值 = 能解釋的變量值
$\frac{TSS-RSS}{TSS}$ ：已經解釋的變量值佔所有固有變化的比例

$R^2$ 的變化區間爲 $(0, 1)$ ，與 $y$ 的尺度無關。所以，理論上 $R^2$ 越大應該越好，即大量的變量可以被迴歸所解釋。但實際場景中， $R^2$ 的值要看應用。

$F-statistic$ 用於估計 $H_0$

$F = \frac{(TSS - RSS)/p}{RSS/(n-p-1)}$

其中， $n$ 爲樣本個數， $p$ 爲多項式迴歸中的迴歸係數的個數

$TSS$ ： $y$ 固有的方差，及固有的變量
$RSS$ ：迴歸後，未能解釋的變量
$TSS - RSS$ ：迴歸後，能夠解釋的變量
$\frac{TSS-RSS}{p}$ ：迴歸後，每個 $predictor$ 所佔的解釋比例 （1）
$\frac{RSS}{n-p+1}$ ：迴歸後，每個樣本未能被解釋的比例 （2）
$\sigma=RSE=\sqrt{\frac{RSS}{n-2}}$ ：每個樣本的未能被解釋的佔比 （3）

若對於上述的 （1），（2），（3） 式

（1）=（3），意味着每個 $predictor$ 能解釋的佔比很低
（2）=（3），意味着每個樣本能比解釋的佔比很低
可以推出 $F-statistic=1$ ，即

$\beta_1 = \beta_2 = ...= \beta_n = 0$

說明各個 $predictor$ 對預測 $y$ 都是沒有幫助的。

若對於上述的 （1），（2），（3） 式

（1）>（3），意味着每個 $predictor$ 能解釋的佔比很高
（2）=（3），意味着每個樣本能比解釋的佔比很低
可以推出可以推出 $F-statistic>1$ ，可以推出

$至少有一\beta_i,i\in\{1,2,...,p\}不爲0$

$F-statistic$ ，用於檢驗部分predictors是否爲0

$F-statistic = \frac{(RSS_0 - RSS)/q}{RSS/(n-p-1)}$

$RSS_0$ ：省略了 $q$ 個 $predictors$ 的模型的 $RSS$
$RSS_0 - RSS$ ：即這 $q$ 個 $predictor$ 能夠解釋的變量
$\frac{(RSS_0 - RSS)}{q}$ ：平均每個 $q$ 能解釋的變量的比例
$\frac{RSS}{n-p-1}$ ：平均每個樣本未能被解釋的比例

如果使用個體的 $t-statistic$ 和相關的 $p-value$ 來衡量變量和響應之間的關係，很可能會得到錯誤的結論。

2. Variable selection

在一個多元迴歸式中，究竟哪些變量是和 $y$ 有關係的？將沒有關係的找出來

若是 $p=2$ ，即有兩個 $predictor$ ，那麼需要設計4個模型
- No variable
- 只包含 $X_1$
- 只包含 $X_2$
- 包含了 $X_1,X_2$
然後對每個模型，可用如下指標進行檢驗： $R^2, BIC, AIC, C_p$ 。但是當 $p$ 特別打的時候，如 $p=20$ ，那麼就需要 $2^{20}$ 個子集，這樣做效率過低。故需要其他的手段
Forward Selection

先假設一個參數爲空的模型，只有截距 $\beta_0$ 。此外，有訓練好了的 $p$ 個 $variable$ 。一個個往模型中加 $variable$ ，並保證最低的 $RSS$ 。滿足某個條件的時候停止
Backward Selection

先假設所有的 $variable$ 都要。然後，選擇 $p-value$ 最大的刪除。不斷地重複，直到滿足某條件；如設定好 $p-value$ 的閾值。
Mixed Selection

先假設一個參數爲空的模型。然後，不斷地加 $Variable$ 進去，且保證加進去的使 $p-value$ 最小，一旦超過了某個閾值，該 $variable$ 就先放在一旁。最後， $p-value$ 分成兩份，一份使得整個模型的 $p-value$ 都較小，另一份使得 $p-value$ 都較大。

3. Model Fit

兩個衡量指標： $R^2,RSE$

對於 $RSE$ 來說，具有較多變量的模型都有更大的 $RSE$ ，只要 $RSS$ 增長的幅度比 $p$ 小，如下公式：

$RSE = \sqrt{\frac{1}{n-p-1}RSS}$

4. Prediction

兩個error
- Random Error $\epsilon$ 不可控錯誤。即其他不明的錯誤未考慮進來，完美的變量是不可能被找到的，只能被估計。
- Model Bias是可控變量。可以通過不斷地做實驗，或訓練模型來減少它。
兩個interval
- Confidence interval。針對大部分城市的銷售量區間， $95\%$ 的區間內包含了真實的值。
- Prediction interval。針對某個特定城市的銷售量區間， $95\%$ 的區間包含了真實的值。
- 兩個interval擁有相同的中心，但是prediction interval的範圍比confidence interval的更加廣。

5. 兩個強假設

Predictors and Responses are additive and linear

Additive

Predictor $x_i$ 的改變，那麼 $y$ 也相應的改變 $\beta_i$ 的大小，和其他的predictors無關。即 $x_i$ 造成的影響和其他的predictors相互獨立。
Linear

Predictor $x_i$ 每次的改變 $1-unit$ 對於 $y$ 來說效果是一致的，無任何疊加的變化。

移除Additive假設，擴展線性迴歸

當爲線性迴歸的時候，

$Y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \epsilon$

此時 $x_1$ 的變化，會使得 $Y$ 的變化只和 $\beta_1x_1$ 相關，未考慮到 $x_2$ 對於 $x_1$ 的影響，可能也會對 $Y$ 造成影響。
對線性迴歸進行擴展，如下：

$Y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 + \epsilon \\ =\beta_0 + (\beta_1 + \beta_3x_2)x_1 + \beta_2x_2 + \epsilon \\ =\beta_0 + \tilde{\beta_1}x_1 + \beta_2x_2 + \epsilon$

此時， $x_1$ 的變化會有 $x_2$ 的參與， $x_1$ 和 $x_2$ 的 $interaction$ 被考慮了進來。舉個例子：流水線個數和員工人數，決定了生產量。現在增加流水線，提升了生產量；但生產量的提升，不僅僅是流水線的功勞，還有員工的功勞，即員工和流水線的相互作用 $interaction$ 。
Hierarchical Principle（層次性原則）

若是一個模型中包含了 $interaction$ ，那麼這個模型也必須包含主要的影響因子 $x_1, ~x_2$ ，即使 $x_1, ~ x_2$ 相關係數的 $p-value$ 很大。也就是說，當 $x_1, ~x_2$ 的 $interaction$ 很重要的時候， $x_1,~x_2$ 造成的影響也沒多少人感興趣了。但是它們得包含在模型中，否則會違背 $x_1,~x_2$ 相關這件事。

移除Linear假設，擴展到Non-linear Relationship

$mpg = \beta_0 + \beta_1horsepower + \beta_2horsepower^2 + \epsilon$

上述式子將 $mpg$ 與 $horsepower$ 的關係變爲了非線性，可以看出來是一個二次的曲線。但需要注意的是，這仍是一個線性表達式，可以用線性迴歸的方法求解相關係數。因爲改變的只是式子中的 $predictor$ 而已，並不是相關係數。

6. Potential Problems

Non-linearity of the response-predictor relationships

殘差 $e_i = y_i - \hat{y_i}$

殘差圖（ $Residual ~ Plot$ ）最好是橄欖球狀，否則說明response和predictors是非線性關係

Correlation of Error Terms

$Linear ~ Regression Model$ 的 $\epsilon_i, i\in\{1,2,...\}$ 應該是故不相關的。

現有計算 $regression coefficients$ 的方法都是基於 $\epsilon_i$ 互不相關的假設。即當前數據的 $\epsilon$ 不會影響到下一數據的 $\epsilon$ 。否則當前計算出的 $standard ~ error$ 將低估了正確的SD，因爲沒考慮到這種相關性，導致錯的離譜。預測的區間和真實的比將會更寬，如 $95\%$ 的置信區間其實並沒有0.95這麼高
舉個例子
- 假設將已有的 $n$ 數據複製了一份，共有 $2n$ 份數據用於訓練模型
- 雖然標準差是 $2n$ 個樣本的，但其實真實有效的數據只有 $n$ 份。兩份數據存在了相關性。
- 訓練得到的 $coefficient$ 是針對 $2n$ 份數據的，導致真實的置信區間縮小了 $\sqrt2$ 倍。
在 $time ~ series ~ data（時序序列數據）$ 中經常會出現 $correlation$ 的問題。比如說，**鄰近時間點採集的數據，都會有相關的 $\epsilon$ 。**如果存在相關性，那麼在殘差圖中就會發現追蹤現象，即臨近殘差將會有相近的值。
$Correlation$ 對於 $Linear ~ Regression$ 很重要。若是數據來自同一個家庭，一樣的喫飯習慣，都會使得數據存在相關性。若是線性迴歸中，各個樣本之間能夠獨立，將會有更大的意義。

Non-constant variance of error terms（誤差項的不恆定方差）

一般來說，線性迴歸模型滿足該假設

誤差項有恆定的方差 $var(\epsilon_i) = \sigma^2$
但如果 $response$ 的值不斷地增加，該方差就會越來越大。當面對這個問題的時候，一個可行的方法就是對 $response$ 進行 $\sqrt y$ 或者 $logY$ 。

Outliers（離羣點）

雖然離羣點對於迴歸線的影響可能不大，但對於 $RSE$ ， $R^2$ 指標都有着極大的影響，這導致對模型的分析出現嚴重的錯誤。比如說， $confidence ~ interval$ ， $p-value$ 的計算都出現問題。
可以通過

$Studenized ~ residuals = \frac{e_i}{RSS}$

來計算，如果該值大於3，則該點爲離羣點

高槓杆點

高槓杆點勢必離羣點更危險的點，因爲它容易帶偏回歸線。
對於高槓杆點的判斷可通過如下公式

$h_i = \frac{1}{n}+\frac{(x_i - \overline{x})}{\sum_{i^{'}}^n(x_{i^{'}} - \overline{x})^2} ~ \in (\frac{1}{n}, 1)$

若是 $(x_i - \overline{x})$ 越大，則 $h_i$ 越大，說明了該點更可能爲高槓杆點。通常 $h_i > \frac{P+1}{n}$ 的點都是高槓杆點。

Collinearity（共線性）

兩個 $predictors$ 過於相關了，可以通過 $VIF$ 指標來檢測

$VIF(\hat{\beta}_j) = \frac{1}{1-R^2_{X_j|X_{-j}}}$
共線性使得各個變量之間互相關。而 $Linear ~ Regression$ 假設各個邊緣之間獨立，否則對預測會造成影響。但在現實生活中，數據間往往存在着相關性，但機器學習側重於預測的準確率。若準確率很高，則不用過於關注。

7. 幾個問題總結

sales和budget之間是否存在關係？

通過多元迴歸將sale和TV，Radio，Newspaper聯繫起來
測試 $H_0,\beta_i=0,i\in\{1,2,3,...\}$ 是否成立，使用 $F-statistic$ 作爲指標， $p-value$ 越低，說明存在關係的可能性越大。

Relationship有多強？

$RSE$ 估計了標準誤差
$R^2$ 記錄了 $Response$ 中可以通過 $Predictor$ 解釋的變量佔比

哪個媒體對sales有貢獻？

檢查每個 $predictor$ 的 $t-statistic$ 相關的 $p-value$
$p-value$ 越低，說明貢獻越大

每個媒體在 $sales$ 上的影響有多大？

$\hat{\beta_j}$ 的標準差可用來構建置信區間。若置信區間內不包含 $0$ 且遠離 $0$ ，那麼說明response和該predictor佔一定關係。
此外，共線性會導致標準差變大。故需要檢測共線性是某predictor置信區間出現0的原因，通過 $VIF$ 來檢測。
若想檢驗單個變量對sale的影響，可以各自做線性迴歸。

預測能力有多強？

若使用預測區間

$Y = f(x) + \epsilon$
若使用置信區間

$Y = f(x)$

預測區間比置信區間更加廣闊，因爲預測區間加入了不可控變量 $\epsilon$ 。

是否爲線性關係？

$residual ~ plot$ 可用來檢測非線性

廣告數據存在協同性嗎？

標準的線性迴歸模型假設 $predictors$ 和 $response$ 之間存在加性關係，即各個prediction互相獨立。
每個predictor造成的影響不依賴其他的predictors

線性迴歸與K-NN Regression比較

線性迴歸是基於 $parametric$ 類方法，有很好的優點
- 僅需估計有限個 $\beta$
- 可以用統計方法進行分析
但也有缺點
- 有 $F(X)$ 的強假設，若數據和假設無關，造成準確率很低
這時候就需要 $non-parametric$ 的方法了，如 $KNN ~ Regression$ ，如下

$\hat{f(x_0)} = \frac{1}{K}\sum_{x_i \in N_0} y_i$
- 當K很大時，以 $MSE$ 爲衡量指標不會比 $Linear ~ Regression$ 差多少。但是當 $k$ 很小的時候， $K-NN ~ Regerssion$ 就很差了。
- 在現實生活中，當predictors的個數很多的時候，對於 $KNN ~ Regression$ 就會有維度災難，其 $MSE$ 很大。故大多是場合還是基於 $Linear ~ Regression$ 。

本文爲作者原創，轉載需註明出處！

Statistic Learning 1

1. RSS, RSE, TSS等

2. Variable selection

3. Model Fit

4. Prediction

5. 兩個強假設

6. Potential Problems

7. 幾個問題總結

教師-學生網絡下Self-Ensembing with GAN-based Data Augmentation for Domain Adaption in Sematic Segmentation

基於Disentangle的Image-to-Image Translation系列

Reinforcement Learning 1

Statistic Learning 1

那些堪比照片質感的PhotoRealistic Style Transfer系列

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結