機器學習數學基礎——微積分部分

1. 偏導數與方向導數

偏導數

對於一元函數來說變化率就是導數，在機器學習中多數使用的是多元函數而多元函數的變化率通常是採用偏導數進行表示。
定義：設函數 $z = f(x, y)$ 在點 $(x_0,y_0)$ 的某一鄰域內有定義，當 $y$ 固定於 $y_0$ ，而 $x$ 在 $x_0$ 處有增量 $\Delta x$ ,相應的函數有增量
$f(x_0+\Delta x, y_0)-f(x_0,y_0)$ ，如果 $\lim_{\Delta x\rightarrow0}\frac{f(x_0+\Delta x, y_0)-f(x_0,y_0)}{\Delta x}$ 存在，則稱該極限爲函數咋子 $(x_0,y_0)$ 處對x的偏導。

方向導數

對於多元函數，如果說偏導數表示的是多元函數在沿座標軸的變化率，那麼可以說方向導數是沿着任意一指定方向的變化率
方向導數表達式：
$\frac{\partial f}{\partial l}|_{(x_0,y_0)}=\lim_{t\rightarrow0^+}\frac{f(x_0+t\cos\alpha,y_0+t\cos\beta)-f(x_0,y_0}{t}$
其中，l的單位向量是 $e=(\cos\alpha,\cos\beta)$ ，而這正表示函數f沿着l方向的變化率，當e=（0，1）時，就表示f對於y的偏導數，，即沿着y軸的變化率。

方向導數的計算公式：
$\frac{\partial f}{\partial l}|_{(x_0,y_0)}=f(x_0,y_0)_x\cos\alpha+f(x_0,y_0)_y\cos\beta$
方向導數等於函數x處的偏導數與單位向量x的方向乘積加上在y處的偏導與單位向量y的方向的乘積。

2. 梯度(注意梯度是一個向量 )

函數在某點的梯度是這樣一個向量，它的方向與去的最大方向導數的方向一致，而它的模爲方向導數的最大值。
$grad f(x,y) = (f_x(x,y),f_y(x,y))$
$|gradf(x,y)|=\sqrt{(\frac{\partial f}{\partial x})^2+(\frac{\partial f}{\partial y})^2}$

對於梯度的數學定義：

設函數 $f(x,y)$ 在平面區域D內具有一階連續偏導數則對每一點 $P(x_0,y_0)\in D$ 都可以找出一個向量 $f_x(x_0,y_0)i+f_y(x_0,y_0)j$ 稱爲 $f(x,y)$ 在P點處的梯度，記作 $\nabla f(x_0,y_0)$
$grad f(x_0,y_0) = (f_x(x_0,y_0),f_y(x_0,y_0))$

梯度是向量

僅與函數和點有關

由於具有一階連續偏導數那麼意味着，函數 $f(x,y)$ 在各個方向的切線都在同一平面上，也就是其切平面，那麼就可以得知一定有且僅有一個“最陡峭”的地方

梯度與方向導數的等式關係

假設P點爲 $(x_0,y_0)$
那麼由方向導數的公式可以推到爲： $\frac{\partial f}{\partial l}|_{(P_0)}=f(P_0)_x\cos\alpha+f(P_0)_y\cos\beta$
$\frac{\partial f}{\partial l}|_{(P_0)}=(f_x(P_0),f_y(P_0))·(\cos\alpha,\cos\beta)$
$\frac{\partial f}{\partial l}|_{(P_0)}=grad f(P_0)·\vec{e_l}$
將 $(\cos\alpha,\cos\beta)記爲\vec{e_l}$
$\frac{\partial f}{\partial l}|_{(P_0)}=|grad f(P_0)|·|\vec{e_l}|\cos\theta$
其中 $\theta$ 是梯度和 $\vec{e_l}$ 的夾角，又因爲 $\vec{e_l}$ 是單位向量，因此：
$\frac{\partial f}{\partial l}|_{(P_0)}=|grad f(P_0)|·\cos\theta$

所以方向導數的大小完全取決於 $\cos\theta$ 的大小，其中 $\theta = (gradf(x,y),\vec e)$ 。

3. 雅可比矩陣（Jacobian矩陣）和海森矩陣（Hessian矩陣）

3.1雅可比矩陣&雅可比行列式

雅可比矩陣

先補充一下算子和線性算子的概念
算子：一個函數空間到另一個函數空間的映射
線性算子：設X和Y是同一線性賦範空間， $D\subset X$ ，T爲D到Y中的算子，如果 $\forall\alpha,\beta\in K$ ，有 $T(\alpha x + \beta y)=\alpha T(x) + \beta T(y)$ ，則稱T爲D上的線性算子。
梯度向量的公式： $g(x)=\nabla f(x_1,x_2,...x_n) = (\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},...,\frac{\partial f}{\partial x_2})$

雅可比矩陣：一階偏導數以一定方式排列成的矩陣，其行列式成爲雅可比行列式。其重要性在於它體現了一個微分方程與給出點的最優線性逼近.因此，也科比矩陣類似於多元函數的導數。
假設 $F$ : $R_n\rightarrow R_m$ 是一個從歐式 $n$ 維空間轉換到歐式 $m$ 維空間的函數。這個函數由 $m$ 個實函數組成： $y_1(x_1,...,x_n),...,y_m(x_1,...,x_n)$ 。這些函數的偏導數(如果存在)可以組成一個 $m$ 行 $n$ 列的矩陣，這就是所謂的雅可比矩陣：
$\left[ \begin{matrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_n} \\ \end{matrix} \right]$
$= \left[ \begin{matrix} g_1(x)^T \\ g_2(x)^T \\ \cdots \\ g_m(x)^T \end{matrix} \right]$
此矩陣表示爲： $J_F(x_1,...,x_n)$ ，或者 $\frac{\partial(y_1,...y_m)}{\partial(x_1,...,x_n)}$ 。
此矩陣的第 $i$ 行 $[\frac{\partial y_i}{\partial x_i},\frac{\partial y_i}{\partial x_2},···,\frac{\partial y_i}{\partial x_n}]$ 即爲梯度的轉置。

如果 $p$ 是 $R_n$ 中的一點， $F$ 在 $p$ 點可微，那麼在這一點的導數由 $J_F(p)$ 給出，在此情況下，由 $F(p)$ 描述的線性算子接近點 $p$ 的 $F$ 的最優線性逼近， $x$ 逼近於 $p$ :
$F(x)\approx F(p)+J_F(p)·(x-p)$ （個人理解是泰勒展開式）

雅可比行列式

如果 $m=n$ ，那麼 $F$ 是從 $n$ 維空間到 $n$ 維空間的函數，那麼它的雅可比矩陣是一個方陣。取其行列式稱爲雅可比行列式。

在某個給定點的雅可比行列式提供了在接近該點時的表現的重要信息. 例如, 如果連續可微函數 $F$ 在 $p$ 點的雅可比行列式不是零, 那麼它在該點附近具有反函數. 這稱爲反函數定理. 更進一步, 如果 $p$ 點的雅可比行列式是正數, 則 $F$ 在 $p$ 點的取向不變；如果是負數, 則 $F$ 的取向相反. 而從雅可比行列式的絕對值, 就可以知道函數 $F$ 在 $p$ 點的縮放因子；這就是爲什麼它出現在換元積分法中.

3.2海森Hessian矩陣

在數學中, 海森矩陣(Hessian matrix或Hessian)是一個自變量爲向量的實值函數的二階偏導數組成的方塊矩陣, 此函數如下：
$f(x_1,x_2,...,x_n)$
如果 $f$ 的所有二階導數都存在，那麼 $f$ 的海森矩陣即：
$H(f)_{ij}(x)=D_iD_jf(x)$
其中 $x=(x_1,x_2,...,x_n)$ ，即 $H(f)$ 爲：
$\left[ \begin{matrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\partial x_n} \\ \frac{\partial^2 f}{\partial x_2\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n\partial x_1} & \frac{\partial^2 f}{\partial x_n\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \\ \end{matrix} \right]$
(也有人把海森定義定義爲以上矩陣的行列式)海森矩陣被應用於牛頓法解決大規模優化問題。

應用

一般來說, 牛頓法主要應用在兩個方面
1、求方程的根
2、最優化
1), 求解方程

並不是所有的方程都有求根公式, 或者求根公式很複雜, 導致求解困難. 利用牛頓法, 可以迭代求解。
原理是利用泰勒公式，在 $x_0$ 處展開，且展開到一階，即 $f(x)=f(x_0)+(x-x_0)f'(x_0)$
求解方程 $f(x)=0$ 即 $f(x_0)+(x-x_0)f'(x_0)=0$ ，求解 $x=x_1=x_0-\frac{f(x_0)}{f'(x_0)}$ ，因爲這是利用泰勒公式的一節展開， $f(x)=f(x_0)+(x-x_0)f'(x_0)$ 處並不完全相等，而是近似相等，這裏求得的 $x_1$ 並不能讓 $f(x)=0$ ，只能說 $f(x_1)$ 的值比 $f(x_0)$ 更接近 $f(x)=0$ ，於是迭代求解就很自然了，可以進而推出 $x_{n+1}=x_n-\frac{f(x_n)}{f'(x_n)}$ ，通過迭代，這個式子必然在 $f(x^*)=0$ 的時候收斂。整個過程如下圖：

2), 最優化
在最優化的問題中, 線性最優化至少可以使用單純形法(或稱不動點算法)求解, 但對於非線性優化問題, 牛頓法提供了一種求解的辦法. 假設任務是優化一個目標函數 $f$ , 求函數 $f$ 的極大極小問題, 可以轉化爲求解函數 $f$ 的導數 $f′=0$ 的問題, 這樣求可以把優化問題看成方程求解問題( $f′=0$ ). 剩下的問題就和第一部分提到的牛頓法求解很相似了。
這次爲了求解 $f′=0$ 的根, 首先把 $f(x)$ 在探索點 $x_n$ 處泰勒展開, 展開到2階形式進行近似：
$f(x)=f(x_n)+f'(x_n)(x-x_n)+\frac{f''(x_n)}{2}(x-x_n)^2$
然後用 $f(x)$ 的最小點做爲新的探索點 $x_{n+1}$ ，據此，令：
$f'(x)=f'(x_n)+f''(x_n)(x-x_n)=0$
求出迭代公式：
$x_{n+1}=x_n-\frac{f'(x_n)}{f''(x_n)}$
一般認爲牛頓法可以利用到曲線本身的信息, 比梯度下降法更容易收斂（迭代更少次數）, 如下圖是一個最小化一個目標方程的例子, 紅色曲線是利用牛頓法迭代求解, 綠色曲線是利用梯度下降法求解.

在上面討論的是2維情況, 高維情況的牛頓迭代公式是：
$x_{n+1}=x_n-[Hf(x_n)]^{-1}\nabla f(x_n)，n\geq 0$
其中 $H$ 是Hessian矩陣.

高維情況依然可以用牛頓迭代求解, 但是問題是Hessian矩陣引入的複雜性, 使得牛頓迭代求解的難度大大增加, 但是已經有了解決這個問題的辦法就是Quasi-Newton method, 不再直接計算hessian矩陣, 而是每一步的時候使用梯度向量更新hessian矩陣的近似.

4.凸函數

凸函數,是數學函數的一類特徵。凸函數就是一個定義在某個向量空間的凸子集C（區間）上的實值函數。
凸集：如果集合中任意兩個元素連線上的點也在集合中，那麼這個集合就是凸集。

常見的凸集：

所有 $R^n$
所有 $R_+^n$
超平面： $C=\{x|a^Tx=b\}$ 既是仿射集又是凸集(仿射集都是凸集)
半空間： $C=\{x|a^Tx\leq b\}$ 或 $C=\{x|a^Tx\leq b\}$ 只是凸集
範數球：滿足 $||x||_p\leq1，p\geq1$ 的集合稱爲範數球。但是 $||x||_p=1，p\geq1$ 不是凸集。當 $0<p<1$ 時， $||x||_p\leq1$ 也不是凸集。
多面體：有限個半空間和超平面的交集。

凸函數的數學定義：
函數 $f$ ： $R^n\rightarrow R$ 定義域dom $f$ 是凸集，並且對於 $\forall x,y\in dom$ $f$ 和 $\forall \theta，0\leq \theta\leq 1$ 有
$f(\theta x+(1-\theta)y)\leq\theta f(x)+(1-\theta)f(y)$
則稱函數 $f$ 是凸的。

凸函數的判斷方法：

一元函數
二元函數：
多元函數
Hessian矩陣半正定，則函數是凸函數；若Hessian矩陣正定，則函數是嚴格凸函數。（參考https://blog.csdn.net/qq_39521554/article/details/78895869）

注：理解上可能會有偏差，如有錯誤歡迎指正
參考：
https://blog.csdn.net/qq_40707407/article/details/80101501
https://www.matongxue.com/madocs/222.html
【雅可比矩陣和海森矩陣轉自】http://jacoxu.com/jacobian矩陣和hessian矩陣/

機器學習數學基礎——微積分部分

1. 偏導數與方向導數

偏導數

方向導數

2. 梯度(注意梯度是一個向量 )

梯度與方向導數的等式關係

3. 雅可比矩陣（Jacobian矩陣）和海森矩陣（Hessian矩陣）

3.1雅可比矩陣&雅可比行列式

雅可比矩陣

雅可比行列式

3.2海森Hessian矩陣

應用

4.凸函數

樸素貝葉斯（待補充貝葉斯網絡）

《Random Walk based Entity Ranking on Graph for Multidimensional Recommendation》論文閱讀

機器學習筆記——緒論

洛谷[P1004]方格取數

Bellman-Ford算法（有向圖）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結