算法工程師的數學基礎｜線性代數中的矩陣

【算法工程師的數學基礎】系列將會從線性代數、微積分、數值優化、概率論、信息論五個方面進行介紹，感興趣的歡迎關注【搜索與推薦Wiki】公衆號，獲得最新文章。

《算法工程師的數學基礎》已更新：

1、算法工程師的數學基礎｜線性代數中的向量和向量空間
2、算法工程師的數學基礎｜線性代數中的矩陣

線性代數主要包含向量、向量空間（或稱線性空間）以及向量的線性變換和有限維的線性方程組。本篇文章主要介紹線性代數部分中的矩陣知識。

線性映射

線性映射（linear map）是指從線性空間 $V$ 到線性空間 $W$ 的一個映射函數： $f \rightarrow W$ ，並滿足：對於 $V$ 中任何兩個向量 $u$ 和 $v$ 以及任何標量 $c$ ，有：
$f(u+v) = f(u) + f(v) \\ f(cv) = cf(v)$
兩個有限維歐式空間的映射函數 $f: R^n \rightarrow R^m$ 可以表示爲：
$y = Ax \overset{ \Delta }{=} \begin{bmatrix} a_{11} x_1 + a_{12}x_2 + ... + a_{1n}x_n \\ a_{21} x_1 + a_{22}x_2 + ... + a_{2n}x_n \\ . \\ . \\ . \\ a_{m1} x_1 + a_{m2}x_2 + ... + a_{mn}x_n \end{bmatrix}$
其中 $A$ 定義爲 $m*n$ 的矩陣（matrix），是一個由 $m$ 行 $n$ 列元素排列成的矩形陣列。一個矩陣的第 $i$ 行，第 $j$ 列上的元素表示爲 $A_{ij}$ 。

矩陣操作

加如果 $A$ 和 $B$ 都是 $m*n$ 的矩陣，則 $A$ 和 $B$ 的加法結果也是 $m*n$ 的矩陣，其每個元素都是 $A$ 和 $B$ 對應位置元素相加。

$[A+B]_{ij} = a_{ij} + b_{ij}$

乘積假設有兩個 $A$ 和 $B$ 分別表示兩個線性映射 $g: R^m \rightarrow R^k$ 和 $f: R^n \rightarrow R^m$ ，則其複合線性映射：
$(g \circ f)(x) = g(f(x)) = g(Bx) = A(B(x)) = (AB)(x)$
其中 $AB$ 表示矩陣 $A$ 和 $B$ 的乘積，定義爲：
$[AB]_{ij} = \sum_{k=1}^{m}a_{ik}b_{kj}$
兩個矩陣的乘積僅當第一個矩陣的列數和第二個矩陣的行數相等時才能定義。如果 $A$ 爲 $k*m$ ， $B$ 爲 $m*n$ ，這 $A*B$ 的結果是一個 $k*n$ 的矩陣。

矩陣的乘法滿足結合律和分配律：

結合律： $(AB)C = A(BC)$
分配律： $(A+B)C = AC+BC, C(A+B)=CA + CB$

Hadamard積 $A$ 和 $B$ 的Hadamard積，也稱爲逐點乘積，爲 $A$ 和 $B$ 中對應的元素相乘。
$[A \odot B]_{ij} = a_{ij} b_{ij}$
一個標量 $c$ 與矩陣 $A$ 乘積爲 $A$ 的相應位置的元素與 $c$ 的乘積：
$[cA]_{ij} = ca_{ij}$

轉置 $m*n$ 矩陣 $A$ 的轉置（transposition）是一個 $n*m$ 的矩陣，記爲 $A^T$ ， $A^T$ 的第 $i$ 行第 $j$ 列的元素是原矩陣 $A$ 的第 $j$ 行第 $i$ 列的元素
$[A^T]_{ij}=[A]_{ji}$

向量化 矩陣的向量化是將矩陣表示爲一個列向量。這裏vec是向量化算子。設 $A=[a_{ij}]_{m*n}$ ，則：
$vec(A) = [a_{11}, a_{21},...,a_{m1},a_{12},a_{22},...,a_{m2},...,a_{1n},...,a{mn}]^T$

跡方塊矩陣 $A$ 的對角線元素之和稱爲它得跡（trace），記爲 $tr(A)$ 。儘管矩陣得乘法不滿足交換律，但它們得跡相同，即 $tr(AB)=tr(BA)$

相信讀者看到這裏，肯定會有疑問，這麼簡單的「跡」，有什麼特殊意義的？因爲跡是有所有矩陣特徵值的和，在求矩陣特徵值的時候特別重要。

行列式 方塊矩陣 $A$ 的行列式是一個將其映射到標量的函數，記作 $det(A)$ 或 $|A|$ 。行列式可以看做是有向面積或體積的概念在歐氏空間的推廣。在 $n$ 維歐式空間中，行列式描述的是一個線性變換對體積所造成的影響。

一個 $n*n$ 的方塊矩陣 $A$ 的行列式定義爲：
$det(A)=\sum_{\sigma \in S_n} sgn(\sigma) \prod_{i=1}^{n} a_{i,\sigma(i)}$
其中 $S_n$ 是 $\{ 1,2,...,n \}$ 的所有排列的集合， $\sigma$ 是一種一個排列， $\sigma(i)$ 是元素 $i$ 在排列 $\sigma$ 中的位置， $sgn(\sigma)$ 表示排列 $\sigma$ 的符號差，定義爲：
$(\sigma) = \left\{\begin{matrix} 1 \\ 0 \end{matrix}\right.$
當 $\sigma$ 中的逆序對有偶數個是爲1，當 $\sigma$ 中的逆序對有奇數個是0

其中逆序對的定義爲：在排列 $\sigma$ 中，如果有序數對 $(i,j)$ 滿足 $1 \leq i < j \leq n$ 但 $\sigma(i) > \sigma(j)$ ，則其爲 $\sigma$ 的一個逆序對。

秩一個矩陣 $A$ 的列秩是 $A$ 的線性無關的列向量數量，行秩是 $A$ 的線性無關的行向量數量。一個矩陣的列秩和行秩總是相等的，簡稱爲秩（rank）。

一個 $m*n$ 的矩陣的秩最大爲 $min(m,n)$ 。兩個句子的乘積 $AB$ 的秩 $rank(AB) \leq min( rank(A), rank(B))$ 。

範數矩陣的範數有很多種形式，其中常用的 $l_p$ 範數定義爲：
$||A||_p = ( \sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^p )^{1/p}$

矩陣類型

對稱矩陣（symmetric） 指其轉置等於自己的矩陣，即滿足 $A=A^T$ 。

稀疏矩陣（sparse matrix） 矩陣中分佈有大量的元素 0，即非 0 元素非常少，這類矩陣稱爲稀疏矩陣。如下：
$\begin{bmatrix} 0 & 1 & 0 \\ 0& 0 & 2 \\ 0& 1 & 0 \end{bmatrix}$

上（下）三角矩陣 一個 $m*m$ 的矩陣的對角線稱爲主對角線，如果除主對角線之外的元素全部爲0，則主對角線下的矩陣稱爲上三角矩陣，主對角線上的矩陣稱爲下三角矩陣

對角矩陣（diagonal matrix） 是一個主對角線之外的元素皆爲0的矩陣。對角線上的元素可以爲0或其他值。一個 $n*n$ 的對角矩陣 $A$ 滿足：
$[A]_{ij} = 0 \, \, if \, i\neq j, \forall i,j \in \{1,...,n\}$
對角矩陣 $A$ 也可以記爲 $diag(a)$ ， $a$ 爲一個 $n$ 維向量，並滿足：
$[A]_{ij} = a_i$
$n*n$ 的對角矩陣 $A=diag(a)$ 和 $n$ 維向量 $b$ 的乘積爲一個 $n$ 維向量
$Ab = diag(a)b = a \odot b$
其中 $\odot$ 表示點乘，即 $(a \odot b)_i = a_i b_i$

單位矩陣（identity matrix） 是一種特殊的對角矩陣，其主對角線元素爲1，其餘元素爲0。 $n$ 階單位矩陣 $I_n$ ，是一個 $n *n$ 的方塊矩陣，可以記爲 $I_n=diag(1,1,1,...)$

一個 $m*n$ 的矩陣 $A$ 和單位矩陣的乘積等於其本身
$AI_n = I_mA = A$

逆矩陣 對於一個 $n*n$ 的方塊矩陣 $A$ ，如果存在另一個方塊矩陣 $B$ 使得
$AB = BA = I_n$
爲單位矩陣，則稱 $A$ 是可逆的。矩陣 $B$ 稱爲 $A$ 的逆矩陣（inverse matrix），記爲 $A^{-1}$

一個方陣的行列式等於0當且僅當該方陣不可逆。

正定矩陣（positive-definite matrix） 對於一個 $n*n$ 的對稱矩陣 $A$ ，如果對於所有的非零向量 $x \in R^n$ ，都滿足 $x^T A_x > 0$ ，則 $A$ 爲正定矩陣。如果 $x^T A_x \geq 0$ ，則 $A$ 是半正定矩陣。

正交矩陣（orthogonal matrix） 正交矩陣 $A$ 爲一個方塊矩陣，其逆矩陣等於其轉置矩陣。

$A^T = A^{-1}$
等價於 $A^T=AA^T=I_n$

Gram矩陣 向量空間中一組向量 $v_1, v_2, ..., v_n$ 的Gram矩陣， $G$ 是內積的對稱矩陣，其元素 $G_{ij}$ 爲 $v_i^T v_j$

特徵值與特徵矢量

如果一個標量 $\lambda$ 和一個非零向量 $v$ 滿足：
$Av = \lambda v$
則 $\lambda$ 和 $v$ 分別稱爲矩陣 $A$ 的特徵值（eigenvalue）和特徵向量（eigenvector）

矩陣分解

一個矩陣通常可以用一些比較簡單的矩陣來表示，稱爲矩陣分解（matrix decomposition，matrix factorization）

奇異值分解 一個 $m*n$ 的矩陣 $A$ 的奇異值分解（Singualr Value Decomposition，SVD）定義爲：
$A = UDV^T$
其中 $U,V$ 分別爲 $m*m, n*n$ 的正交矩陣， $D$ 爲 $m*n$ 的對角矩陣，其對角線上的元素稱爲奇異值（singular value）

特徵分解 一個 $n*n$ 的方塊矩陣 $A$ 的特徵分解（Eigendecomposition）定義爲：
$A= QBQ^{-1}$
其中 $Q$ 爲 $n*n$ 的方塊矩陣，其每一列都爲 $A$ 的特徵向量， $B$ 爲對角陣，其每一個對角元素 $A$ 的特徵值。

如果 $A$ 爲對稱矩陣，則 $A$ 可以被分解爲：
$A = QBQ^T$
其中 $Q$ 爲正交陣。

好了，線性代數中的矩陣介紹和相關概念已經介紹完畢了，歡迎轉發分享，讓更多的人看到！

掃一掃關注微信公衆號！號主專注於搜索和推薦系統，嘗試使用算法去更好的服務於用戶，包括但不侷限於機器學習，深度學習，強化學習，自然語言理解，知識圖譜，還不定時分享技術，資料，思考等文章！

算法工程師的數學基礎｜線性代數中的矩陣

線性映射

矩陣操作

矩陣類型

特徵值與特徵矢量

矩陣分解

獨孤九劍：算法模型訓練的一般流程

傳統機器學習和前沿深度學習推薦模型演化關係介紹

TensorFlow的邏輯迴歸實現

論文｜LinUCB論文的思想解讀、場景應用與痛點說明

常見的五種神經網絡(4)-深度信念網絡（下）篇之深度信念網絡的原理解讀、參數學習

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結