示意圖

二分類問題描述

$Data=\{(x_i, y_i)\}_{i=1}^N,x_i\in\R^p,y_i\in\{-1,+1\}$
由於超平面 $\omega^Tx+b$ 有很多個，要找到最好的一個超平面，以得到最低的泛化誤差（或測試誤差、期望損失）。

hard-margin SVM判別模型，與概率無關：
$f(\omega)=sign(\omega^Tx+b)=\begin{cases}\omega^Tx+b>0,f(\omega)=1\\\omega^Tx+b<0,f(\omega)=-1\end{cases}$
目標函數：
$\begin{cases}max\space margin(\omega,b) \\ s.t.\space \begin{cases}\omega^Tx_i+b>0,y_i=1\\\omega^Tx_i+b<0,y_i=-1\end{cases}\Rightarrow y_i(\omega^Tx_i+b)>0,i=1...,N\end{cases}$
即， $\begin{cases}max\space margin(\omega,b) \\ s.t.\space y_i(\omega^Tx_i+b)>0,i=1,...,N\end{cases}$

什麼是margin？
答：一共有N個點到直線的距離，最小的那個就是margin。點到直線距離公式，
$margin(\omega,b)={min \atop \omega,b,x_i}distance(\omega,b,x_i)={min \atop \omega,b,x_i}{\frac 1 {\parallel\omega\parallel}}\mid\omega^Tx_i+b\mid$

則上式寫爲：
$\begin{cases}{max \atop \omega,b}{min \atop \omega,b,x_i}{\frac 1 {\parallel\omega\parallel}}\mid\omega^Tx_i+b\mid\space ={max \atop \omega,b}{min \atop x_i}{\frac 1 {\parallel\omega\parallel}}\mid\omega^Tx_i+b\mid={max \atop \omega,b}{\frac 1 {\parallel\omega\parallel}}{min \atop x_i}y_i(\omega^Tx_i+b)\Larr y_i\in\{-1,+1\} \\ s.t.\space y_i(\omega^Tx_i+b)>0\end{cases}$

$y_i(\omega^Tx_i+b)>0$ 可以理解爲： $\exist\space\gamma>0,s.t.\space {min \atop x_i,y_i}y_i(\omega^Tx_i+b)=\gamma$
$\gamma$ 的取值對式子（或超平面）是沒有影響的，實際上就是對 $\omega,b$ 的縮放。
因此，令 $\gamma=1$ 。
則， ${max \atop \omega,b}{\frac 1 {\parallel\omega\parallel}}{min \atop x_i}y_i(\omega^Tx_i+b)={max \atop \omega,b}{\frac 1 {\parallel\omega\parallel}}\gamma={max \atop \omega,b}{\frac 1 {\parallel\omega\parallel}}$
則，上式可寫爲：
$\begin{cases}{max \atop \omega,b}{\frac 1 {\parallel\omega\parallel}}\Rarr{min \atop \omega,b}{\parallel\omega\parallel}={min \atop \omega,b}{\frac 1 2}\omega^T\omega\space硬間隔；二次的、凸優化，可直接求解 \\s.t.\space {min\atop x_i}y_i(\omega^Tx_i+b)=1\Rarr y_i(\omega^Tx_i+b)\geqslant1,i=1,...,N\space 有N個約束 \end{cases}$

則， $(1)\begin{cases}{min \atop \omega,b}{\frac 1 2}\omega^T\omega\space \\s.t.\space y_i(\omega^Tx_i+b)\geqslant1,i=1,...,N \end{cases}$

開始求解

1. Primal problem：帶 $\omega,b$ 約束的優化

$(1)\begin{cases} {min \atop \omega,b}{\frac 1 2}\omega^T\omega \\ s.t. \space y_i(\omega^Tx_i+b)\geqslant1,for \space i=1,...,N \xLeftrightarrow{}1-y_i(\omega^Tx_i+b)\leqslant0\end{cases}$

2. 拉格朗日乘子法→對 $\omega,b$ 無約束的優化

$L(\omega,b,\lambda)={\frac 1 2}{\omega^T}\omega+\displaystyle\sum_{i=1}^N\lambda_i(1-y_i(\omega^Tx_i+b))$ , $\lambda_i\geqslant0$
$(2)\begin{cases}{min \atop \omega,b} {max \atop \lambda}L(\omega,b,\lambda) \\ s.t.\space\lambda_i\geqslant0\end{cases}$

值得注意的是： $1-y_i(\omega^Tx_i+b)\leqslant0$ 。爲什麼呢？
答：
直觀上看，
如果 $1-y_i(\omega^Tx_i+b)>0$ ,則 ${max\atop\lambda}L={\frac 1 2}{\omega^T}\omega+\infty=\infty$
如果 $1-y_i(\omega^Tx_i+b)\leqslant0$ ,則 ${max\atop\lambda}L$ 一定存在， ${max\atop\lambda}L={\frac 1 2}{\omega^T}\omega+0={\frac 1 2}{\omega^T}\omega\space(\lambda_i\rarr0)$
則， ${min \atop \omega,b} {max \atop \lambda}L(\omega,b,\lambda)={min \atop \omega,b} (\infty,{\frac 1 2}{\omega^T}\omega)={\frac 1 2}{\omega^T}\omega$
因此， $1-y_i(\omega^Tx_i+b)>0$ 被丟棄了。

3. 轉化爲強對偶問題

$(3)\begin{cases}{max \atop \lambda}{min \atop \omega,b}L(\omega,b,\lambda) \\s.t.\space \lambda_i \geqslant0\end{cases}$

什麼是強、弱對偶？
答：凸優化二次規劃問題，它的約束是線性的，目標函數是二次的，因此滿足強對偶關係。（可證）
（1）弱對偶關係爲 $min\space maxL\geqslant max\space minL$ ，對應理解爲“尾鳳 $\geqslant$ 頭雞”，即鳳尾優於雞頭、瘦死的駱駝比馬大。
（2）強對偶關係，就是把 $\geqslant$ 改爲=。

4. 求解對偶問題：解拉格朗日方程 ${min \atop \omega,b}L(\omega,b,\lambda)$

$L(\omega,b,\lambda)={\frac 1 2}{\omega^T}\omega+\displaystyle\sum_{i=1}^N\lambda_i(1-y_i(\omega^Tx_i+b))$ , $\lambda_i\geqslant0$

(1) 求 ${\frac {\partial L} {\partial b}}=0$

${\frac {\partial L} {\partial b}}={\frac {\partial }{\partial b}}[\displaystyle\sum_{i=1}^N\lambda_i-\displaystyle\sum_{i=1}^N\lambda_iy_i(\omega^Tx_i+b)]={\frac {\partial }{\partial b}}[-\displaystyle\sum_{i=1}^N\lambda_iy_ib)]\\=-\displaystyle\sum_{i=1}^N\lambda_iy_i=0$
則， $\displaystyle\sum_{i=1}^N\lambda_iy_i=0$

(2) 將 $\displaystyle\sum_{i=1}^N\lambda_iy_i=0$ 代入到 $L(\omega,b,\lambda)$ 中

$L(\omega,b,\lambda)={\frac 1 2}\omega^T\omega+\displaystyle\sum_{i=1}^N\lambda_i-\displaystyle\sum_{i=1}^N\lambda_iy_i(\omega^Tx_i+b)\\={\frac 1 2}\omega^T\omega+\displaystyle\sum_{i=1}^N\lambda_i-\displaystyle\sum_{i=1}^N\lambda_iy_i\omega^Tx_i+\displaystyle\sum_{i=1}^N\lambda_iy_ib\\={\frac 1 2}\omega^T\omega+\displaystyle\sum_{i=1}^N\lambda_i-\displaystyle\sum_{i=1}^N\lambda_iy_i\omega^Tx_i$

(3) 求 ${\frac {\partial L} {\partial \omega}}=0$

${\frac {\partial L} {\partial \omega}}={\frac 1 2}·2·\omega-\displaystyle\sum_{i=1}^N\lambda_iy_ix_i=0$
則， $\omega=\displaystyle\sum_{i=1}^N\lambda_iy_ix_i$

(4) 將 $\omega=\displaystyle\sum_{i=1}^N\lambda_iy_ix_i$ 代入到 $L(\omega,b,\lambda)$ 中

$L(\omega,b,\lambda)={\frac 1 2}(\displaystyle\sum_{i=1}^N\lambda_iy_ix_i)^T(\displaystyle\sum_{i=1}^N\lambda_iy_ix_i)+\displaystyle\sum_{i=1}^N\lambda_i-\displaystyle\sum_{i=1}^N\lambda_iy_i(\displaystyle\sum_{j=1}^N\lambda_jy_jx_j)^Tx_i$

注意：
∵ $\lambda_i\in\Reals,y_i\in\{-1,1\},x_i\in\Reals^p$
∴( $\displaystyle\sum_{i=1}^N\lambda_iy_ix_i)^T=\displaystyle\sum_{i=1}^N\lambda_iy_ix_i^T$
∴ $\omega^T\omega=(\displaystyle\sum_{i}^N\lambda_iy_ix_i^T)·(\displaystyle\sum_{j}^N\lambda_jy_jx_j)=\displaystyle\sum_{i}^N\displaystyle\sum_{j}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j$
同理， $\displaystyle\sum_{i=1}^N\lambda_iy_i(\displaystyle\sum_{j=1}^N\lambda_jy_jx_j)^Tx_i=\displaystyle\sum_{i=1}^N\lambda_iy_i\displaystyle\sum_{j=1}^N\lambda_jy_jx_j^Tx_i\\=\displaystyle\sum_{i}^N\displaystyle\sum_{j}^N\lambda_i\lambda_jy_iy_jx_j^Tx_i\\=\displaystyle\sum_{i}^N\displaystyle\sum_{j}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j\Larr x_i^Tx_j=x_j^Tx_i\in\Reals$
發現上面兩個結果一樣！因此，可以約掉啦~
$(\displaystyle\sum_{i=1}^N\lambda_iy_ix_i)^T(\displaystyle\sum_{i=1}^N\lambda_iy_ix_i)=\displaystyle\sum_{i=1}^N\lambda_iy_i(\displaystyle\sum_{j=1}^N\lambda_jy_jx_j)^Tx_i\\=\displaystyle\sum_{i}^N\displaystyle\sum_{j}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j$

$L(\omega,b,\lambda)=\displaystyle\sum_{i=1}^N\lambda_i-{\frac 1 2}\displaystyle\sum_{i}^N\displaystyle\sum_{j}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j\xRightarrow{即} {min \atop \omega,b}L(\omega,b,\lambda)$
代入式（3）即，
$(4)\begin{cases}{max \atop \lambda}\displaystyle\sum_{i=1}^N\lambda_i-{\frac 1 2}\displaystyle\sum_{i=1}^N\displaystyle\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j\Larr {max \atop \lambda}{min \atop \omega,b}L(\omega,b,\lambda) \\s.t.\space \lambda_i\geqslant0,\displaystyle\sum_{i=1}^N\lambda_iy_i=0 \end{cases}$

(5) 對偶問題的最終優化式

最優化問題常由 $min$ 表示
$(5)\begin{cases}{min \atop \lambda}{\frac 1 2}\displaystyle\sum_{i=1}^N\displaystyle\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j-\displaystyle\sum_{i=1}^N\lambda_i \\s.t.\space \lambda_i\geqslant0,\displaystyle\sum_{i=1}^N\lambda_iy_i=0 \end{cases}$

5. KKT條件求解對偶問題

定理：原問題和對偶問題具有強對偶關係 $\xLeftrightarrow{充要條件}$ 滿足KKT條件

拉格朗日方程（上面第2點）：
$L(\omega,b,\lambda)={\frac 1 2}{\omega^T}\omega+\displaystyle\sum_{i=1}^N\lambda_i(1-y_i(\omega^Tx_i+b))$ , $\lambda_i\geqslant0$

根據定理可直接得到該問題的KKT（Karush-Kuhn-Tucker）條件：
$\begin{cases}{\frac {\partial L}{\partial \omega}}=0,{\frac {\partial L}{\partial b}}=0,{\frac {\partial L}{\partial \lambda}}=0 \\\lambda_i\geqslant0\Rarr 拉格朗日乘子法的要求 \\1-y_i(\omega^Tx_i+b)\leqslant0\Rarr 上面第2點解釋了 \\\lambda_i(1-y_i(\omega^Tx_i+b))=0\Rarr此時，L(\omega,b,\lambda)={\frac 1 2}\omega^T\omega，爲最大值；鬆弛互補條件，求解b^* \end{cases}$
根據KKT條件，可求出最優的 $\omega^*,b^*$ 。
凸優化中對偶問題詳解，尤其解釋了什麼是KKT條件。

(1) 最優解 $\omega^*=\displaystyle\sum_{i=1}^N\lambda_iy_ix_i$

就是之前（3）中 ${\frac {\partial L} {\partial \omega}}=0$ 的結果。

(2) 最優解 $b^*=y_k-\displaystyle\sum_i^N\lambda_iy_ix_i^Tx_k$

假設 $\exist (x_k,y_k),\space s.t.\space 1-y_k(\omega^Tx_k+b)=0$ ,即 $(x_k,y_k)$ 爲支持向量， $\omega^Tx_k+b\in\{-1,1\}$ 。
$由y_k(\omega^Tx_k+b)=1 \\∵y_k=±1,y_k^2=1 \\∴y_k^2(\omega^Tx_k+b)=y_k \\∴\omega^Tx_k+b=y_k \\∴b^*=y_k-\omega^Tx_k=y_k-(\omega^*)^Tx_k=y_k-\displaystyle\sum_{i=1}^N\lambda_iy_ix_i^Tx_k$

(3) 根據 $w^,b^$ 得出超平面 $w^x+b^$

$f(x)=sign((w^*)^Tx+b^*)$
$w^*=\displaystyle\sum_{i=1}^N\lambda_iy_ix_i$ 可看做是 $Data=\{(x_i, y_i)\}_{i=1}^N,x_i\in\R^p,y_i\in\{-1,+1\}$ 的線性組合
$\lambda_i$ 只對支持向量纔有意義，即 $1-y_i(\omega^Tx_i+b)=0$ 上的點，此時， $\lambda_i\geqslant0$ ；對於非支持向量不起作用，此時 $\lambda_i=0$ 。

SVM:硬/最大間隔SVM（手撕原理）

目錄

示意圖

二分類問題描述

開始求解

1. Primal problem：帶 $\omega,b$ 約束的優化

2. 拉格朗日乘子法→對 $\omega,b$ 無約束的優化

3. 轉化爲強對偶問題

4. 求解對偶問題：解拉格朗日方程 ${min \atop \omega,b}L(\omega,b,\lambda)$

(1) 求 ${\frac {\partial L} {\partial b}}=0$

(2) 將 $\displaystyle\sum_{i=1}^N\lambda_iy_i=0$ 代入到 $L(\omega,b,\lambda)$ 中

(3) 求 ${\frac {\partial L} {\partial \omega}}=0$

(4) 將 $\omega=\displaystyle\sum_{i=1}^N\lambda_iy_ix_i$ 代入到 $L(\omega,b,\lambda)$ 中

(5) 對偶問題的最終優化式

5. KKT條件求解對偶問題

(1) 最優解 $\omega^*=\displaystyle\sum_{i=1}^N\lambda_iy_ix_i$

(2) 最優解 $b^*=y_k-\displaystyle\sum_i^N\lambda_iy_ix_i^Tx_k$

(3) 根據 $w^,b^$ 得出超平面 $w^x+b^$

多標籤分類算法

DrugBank數據庫Downloads詳解（版本5.1.4，2019-7-2）

SuperTarget數據庫詳解

注意力機制分類、原理、應用

【NLP面試】簡述RNN、LSTM、NLP

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

SVM:硬/最大間隔SVM（手撕原理）

目錄

示意圖

二分類問題描述

開始求解

1. Primal problem：帶ω,b\omega,bω,b約束的優化

2. 拉格朗日乘子法→對ω,b\omega,bω,b無約束的優化

3. 轉化爲強對偶問題

4. 求解對偶問題：解拉格朗日方程minω,bL(ω,b,λ){min \atop \omega,b}L(\omega,b,\lambda)ω,bmin​L(ω,b,λ)

(1) 求∂L∂b=0{\frac {\partial L} {\partial b}}=0∂b∂L​=0

(2) 將∑i=1Nλiyi=0\displaystyle\sum_{i=1}^N\lambda_iy_i=0i=1∑N​λi​yi​=0代入到L(ω,b,λ)L(\omega,b,\lambda)L(ω,b,λ)中

(3) 求∂L∂ω=0{\frac {\partial L} {\partial \omega}}=0∂ω∂L​=0

(4) 將ω=∑i=1Nλiyixi\omega=\displaystyle\sum_{i=1}^N\lambda_iy_ix_iω=i=1∑N​λi​yi​xi​代入到L(ω,b,λ)L(\omega,b,\lambda)L(ω,b,λ)中

(5) 對偶問題的最終優化式

5. KKT條件求解對偶問題

(1) 最優解ω∗=∑i=1Nλiyixi\omega^*=\displaystyle\sum_{i=1}^N\lambda_iy_ix_iω∗=i=1∑N​λi​yi​xi​

(2) 最優解b∗=yk−∑iNλiyixiTxkb^*=y_k-\displaystyle\sum_i^N\lambda_iy_ix_i^Tx_kb∗=yk​−i∑N​λi​yi​xiT​xk​

(3) 根據w∗,b∗w^*,b^*w∗,b∗得出超平面w∗x+b∗w^*x+b^*w∗x+b∗

1. Primal problem：帶 $\omega,b$ 約束的優化

2. 拉格朗日乘子法→對 $\omega,b$ 無約束的優化

4. 求解對偶問題：解拉格朗日方程 ${min \atop \omega,b}L(\omega,b,\lambda)$

(1) 求 ${\frac {\partial L} {\partial b}}=0$

(2) 將 $\displaystyle\sum_{i=1}^N\lambda_iy_i=0$ 代入到 $L(\omega,b,\lambda)$ 中

(3) 求 ${\frac {\partial L} {\partial \omega}}=0$

(4) 將 $\omega=\displaystyle\sum_{i=1}^N\lambda_iy_ix_i$ 代入到 $L(\omega,b,\lambda)$ 中

(1) 最優解 $\omega^*=\displaystyle\sum_{i=1}^N\lambda_iy_ix_i$

(2) 最優解 $b^*=y_k-\displaystyle\sum_i^N\lambda_iy_ix_i^Tx_k$

(3) 根據 $w^,b^$ 得出超平面 $w^x+b^$