深度學習數學基礎

本文來自《動手學習深度學習》附錄

本文總結了本書中涉及的有關線性代數、微分和概率的基礎知識。

線性代數

下面分別概括了向量、矩陣、運算、範數、特徵向量和特徵值的概念。

向量

本書中的向量指的是列向量。一個 $n$ 維向量 $\boldsymbol{x}$ 的表達式可寫成

$\boldsymbol{x} = \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix},$

其中 $x_1, \ldots, x_n$ 是向量的元素。我們將各元素均爲實數的 $n$ 維向量 $\boldsymbol{x}$ 記作 $\boldsymbol{x} \in \mathbb{R}^{n}$ 或 $\boldsymbol{x} \in \mathbb{R}^{n \times 1}$ 。

矩陣

一個 $m$ 行 $n$ 列矩陣的表達式可寫成

$\boldsymbol{X} = \begin{bmatrix} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \dots & x_{mn} \end{bmatrix},$

其中 $x_{ij}$ 是矩陣 $\boldsymbol{X}$ 中第 $i$ 行第 $j$ 列的元素（ $1 \leq i \leq m, 1 \leq j \leq n$ ）。我們將各元素均爲實數的 $m$ 行 $n$ 列矩陣 $\boldsymbol{X}$ 記作 $\boldsymbol{X} \in \mathbb{R}^{m \times n}$ 。不難發現，向量是特殊的矩陣。

運算

設 $n$ 維向量 $\boldsymbol{a}$ 中的元素爲 $a_1, \ldots, a_n$ ， $n$ 維向量 $\boldsymbol{b}$ 中的元素爲 $b_1, \ldots, b_n$ 。向量 $\boldsymbol{a}$ 與 $\boldsymbol{b}$ 的點乘（內積）是一個標量：

$\boldsymbol{a} \cdot \boldsymbol{b} = a_1 b_1 + \ldots + a_n b_n.$

設兩個 $m$ 行 $n$ 列矩陣

$\boldsymbol{A} = \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mn} \end{bmatrix},\quad \boldsymbol{B} = \begin{bmatrix} b_{11} & b_{12} & \dots & b_{1n} \\ b_{21} & b_{22} & \dots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \dots & b_{mn} \end{bmatrix}.$

矩陣 $\boldsymbol{A}$ 的轉置是一個 $n$ 行 $m$ 列矩陣，它的每一行其實是原矩陣的每一列：
$\boldsymbol{A}^\top = \begin{bmatrix} a_{11} & a_{21} & \dots & a_{m1} \\ a_{12} & a_{22} & \dots & a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \dots & a_{mn} \end{bmatrix}.$

兩個相同形狀的矩陣的加法是將兩個矩陣按元素做加法：

$\boldsymbol{A} + \boldsymbol{B} = \begin{bmatrix} a_{11} + b_{11} & a_{12} + b_{12} & \dots & a_{1n} + b_{1n} \\ a_{21} + b_{21} & a_{22} + b_{22} & \dots & a_{2n} + b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} + b_{m1} & a_{m2} + b_{m2} & \dots & a_{mn} + b_{mn} \end{bmatrix}.$

我們使用符號 $\odot$ 表示兩個矩陣按元素做乘法的運算：

$\boldsymbol{A} \odot \boldsymbol{B} = \begin{bmatrix} a_{11} b_{11} & a_{12} b_{12} & \dots & a_{1n} b_{1n} \\ a_{21} b_{21} & a_{22} b_{22} & \dots & a_{2n} b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} b_{m1} & a_{m2} b_{m2} & \dots & a_{mn} b_{mn} \end{bmatrix}.$

定義一個標量 $k$ 。標量與矩陣的乘法也是按元素做乘法的運算：

$k\boldsymbol{A} = \begin{bmatrix} ka_{11} & ka_{12} & \dots & ka_{1n} \\ ka_{21} & ka_{22} & \dots & ka_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ ka_{m1} & ka_{m2} & \dots & ka_{mn} \end{bmatrix}.$

其他諸如標量與矩陣按元素相加、相除等運算與上式中的相乘運算類似。矩陣按元素開根號、取對數等運算也就是對矩陣每個元素開根號、取對數等，並得到和原矩陣形狀相同的矩陣。

矩陣乘法和按元素的乘法不同。設 $\boldsymbol{A}$ 爲 $m$ 行 $p$ 列的矩陣， $\boldsymbol{B}$ 爲 $p$ 行 $n$ 列的矩陣。兩個矩陣相乘的結果

$\boldsymbol{A} \boldsymbol{B} = \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1p} \\ a_{21} & a_{22} & \dots & a_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ a_{i1} & a_{i2} & \dots & a_{ip} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mp} \end{bmatrix} \begin{bmatrix} b_{11} & b_{12} & \dots & b_{1j} & \dots & b_{1n} \\ b_{21} & b_{22} & \dots & b_{2j} & \dots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots & \ddots & \vdots \\ b_{p1} & b_{p2} & \dots & b_{pj} & \dots & b_{pn} \end{bmatrix}$

是一個 $m$ 行 $n$ 列的矩陣，其中第 $i$ 行第 $j$ 列（ $1 \leq i \leq m, 1 \leq j \leq n$ ）的元素爲

$a_{i1}b_{1j} + a_{i2}b_{2j} + \ldots + a_{ip}b_{pj} = \sum_{k=1}^p a_{ik}b_{kj}.$

範數

設 $n$ 維向量 $\boldsymbol{x}$ 中的元素爲 $x_1, \ldots, x_n$ 。向量 $\boldsymbol{x}$ 的 $L_p$ 範數爲

$\|\boldsymbol{x}\|_p = \left(\sum_{i=1}^n \left|x_i \right|^p \right)^{1/p}.$

例如， $\boldsymbol{x}$ 的 $L_1$ 範數是該向量元素絕對值之和：

$\|\boldsymbol{x}\|_1 = \sum_{i=1}^n \left|x_i \right|.$

而 $\boldsymbol{x}$ 的 $L_2$ 範數是該向量元素平方和的平方根：

$\|\boldsymbol{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2}.$

我們通常用 $\|\boldsymbol{x}\|$ 指代 $\|\boldsymbol{x}\|_2$ 。

設 $\boldsymbol{X}$ 是一個 $m$ 行 $n$ 列矩陣。矩陣 $\boldsymbol{X}$ 的Frobenius範數爲該矩陣元素平方和的平方根：

$\|\boldsymbol{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2},$

其中 $x_{ij}$ 爲矩陣 $\boldsymbol{X}$ 在第 $i$ 行第 $j$ 列的元素。

特徵向量和特徵值

對於一個 $n$ 行 $n$ 列的矩陣 $\boldsymbol{A}$ ，假設有標量 $\lambda$ 和非零的 $n$ 維向量 $\boldsymbol{v}$ 使

$\boldsymbol{A} \boldsymbol{v} = \lambda \boldsymbol{v},$

那麼 $\boldsymbol{v}$ 是矩陣 $\boldsymbol{A}$ 的一個特徵向量，標量 $\lambda$ 是 $\boldsymbol{v}$ 對應的特徵值。

微分

我們在這裏簡要介紹微分的一些基本概念和演算。

導數和微分

假設函數 $f: \mathbb{R} \rightarrow \mathbb{R}$ 的輸入和輸出都是標量。函數 $f$ 的導數

$f'(x) = \lim_{h \rightarrow 0} \frac{f(x+h) - f(x)}{h},$

且假定該極限存在。給定 $y = f(x)$ ，其中 $x$ 和 $y$ 分別是函數 $f$ 的自變量和因變量。以下有關導數和微分的表達式等價：

$f'(x) = y' = \frac{\text{d}y}{\text{d}x} = \frac{\text{d}f}{\text{d}x} = \frac{\text{d}}{\text{d}x} f(x) = \text{D}f(x) = \text{D}_x f(x),$

其中符號 $\text{D}$ 和 $\text{d}/\text{d}x$ 也叫微分運算符。常見的微分演算有 $\text{D}C = 0$ （ $C$ 爲常數）、 $\text{D}x^n = nx^{n-1}$ （ $n$ 爲常數）、 $\text{D}e^x = e^x$ 、 $\text{D}\ln(x) = 1/x$ 等。

如果函數 $f$ 和 $g$ 都可導，設 $C$ 爲常數，那麼

$\begin{aligned} \frac{\text{d}}{\text{d}x} [Cf(x)] &= C \frac{\text{d}}{\text{d}x} f(x),\\ \frac{\text{d}}{\text{d}x} [f(x) + g(x)] &= \frac{\text{d}}{\text{d}x} f(x) + \frac{\text{d}}{\text{d}x} g(x),\\ \frac{\text{d}}{\text{d}x} [f(x)g(x)] &= f(x) \frac{\text{d}}{\text{d}x} [g(x)] + g(x) \frac{\text{d}}{\text{d}x} [f(x)],\\ \frac{\text{d}}{\text{d}x} \left[\frac{f(x)}{g(x)}\right] &= \frac{g(x) \frac{\text{d}}{\text{d}x} [f(x)] - f(x) \frac{\text{d}}{\text{d}x} [g(x)]}{[g(x)]^2}. \end{aligned}$

如果 $y=f(u)$ 和 $u=g(x)$ 都是可導函數，依據鏈式法則，

$\frac{\text{d}y}{\text{d}x} = \frac{\text{d}y}{\text{d}u} \frac{\text{d}u}{\text{d}x}.$

泰勒展開

函數 $f$ 的泰勒展開式是

$f(x) = \sum_{n=0}^\infty \frac{f^{(n)}(a)}{n!} (x-a)^n,$

其中 $f^{(n)}$ 爲函數 $f$ 的 $n$ 階導數（求 $n$ 次導數）， $n!$ 爲 $n$ 的階乘。假設 $\epsilon$ 是一個足夠小的數，如果將上式中 $x$ 和 $a$ 分別替換成 $x+\epsilon$ 和 $x$ ，可以得到

$f(x + \epsilon) \approx f(x) + f'(x) \epsilon + \mathcal{O}(\epsilon^2).$

由於 $\epsilon$ 足夠小，上式也可以簡化成

$f(x + \epsilon) \approx f(x) + f'(x) \epsilon.$

偏導數

設 $u$ 爲一個有 $n$ 個自變量的函數， $u = f(x_1, x_2, \ldots, x_n)$ ，它有關第 $i$ 個變量 $x_i$ 的偏導數爲

$\frac{\partial u}{\partial x_i} = \lim_{h \rightarrow 0} \frac{f(x_1, \ldots, x_{i-1}, x_i+h, x_{i+1}, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}.$

以下有關偏導數的表達式等價：

$\frac{\partial u}{\partial x_i} = \frac{\partial f}{\partial x_i} = f_{x_i} = f_i = \text{D}_i f = \text{D}_{x_i} f.$

爲了計算 $\partial u/\partial x_i$ ，只需將 $x_1, \ldots, x_{i-1}, x_{i+1}, \ldots, x_n$ 視爲常數並求 $u$ 有關 $x_i$ 的導數。

梯度

假設函數 $f: \mathbb{R}^n \rightarrow \mathbb{R}$ 的輸入是一個 $n$ 維向量 $\boldsymbol{x} = [x_1, x_2, \ldots, x_n]^\top$ ，輸出是標量。函數 $f(\boldsymbol{x})$ 有關 $\boldsymbol{x}$ 的梯度是一個由 $n$ 個偏導數組成的向量：

$\nabla_{\boldsymbol{x}} f(\boldsymbol{x}) = \bigg[\frac{\partial f(\boldsymbol{x})}{\partial x_1}, \frac{\partial f(\boldsymbol{x})}{\partial x_2}, \ldots, \frac{\partial f(\boldsymbol{x})}{\partial x_n}\bigg]^\top.$

爲表示簡潔，我們有時用 $\nabla f(\boldsymbol{x})$ 代替 $\nabla_{\boldsymbol{x}} f(\boldsymbol{x})$ 。

假設 $\boldsymbol{x}$ 是一個向量，常見的梯度演算包括

$\begin{aligned} \nabla_{\boldsymbol{x}} \boldsymbol{A}^\top \boldsymbol{x} &= \boldsymbol{A}, \\ \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{A} &= \boldsymbol{A}, \\ \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} &= (\boldsymbol{A} + \boldsymbol{A}^\top)\boldsymbol{x},\\ \nabla_{\boldsymbol{x}} \|\boldsymbol{x} \|^2 &= \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{x} = 2\boldsymbol{x}. \end{aligned}$

類似地，假設 $\boldsymbol{X}$ 是一個矩陣，那麼
$\nabla_{\boldsymbol{X}} \|\boldsymbol{X} \|_F^2 = 2\boldsymbol{X}.$

海森矩陣

假設函數 $f: \mathbb{R}^n \rightarrow \mathbb{R}$ 的輸入是一個 $n$ 維向量 $\boldsymbol{x} = [x_1, x_2, \ldots, x_n]^\top$ ，輸出是標量。假定函數 $f$ 所有的二階偏導數都存在， $f$ 的海森矩陣 $\boldsymbol{H}$ 是一個 $n$ 行 $n$ 列的矩陣：

$\boldsymbol{H} = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \dots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \dots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \dots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix},$