數學-矩陣計算（4）兩種佈局

本博文來自維基上的矩陣計算：https://en.wikipedia.org/wiki/Matrix_calculus#Denominator-layout_notation

之前會發現在有的求導上最後結果需要轉置，而有的不需要，很困惑，然後才發現了這個維基上面的解釋（這纔是寫該博文的主要價值，注意到不同的佈局問題，其他部分只是爲了完整性而寫的），而且下面也有很多很不錯的參考鏈接，其中就有之前的矩陣計算（2）和矩陣計算（3）的鏈接。維基最後更新時間：17 April 2015, at 21:34.

matrix calculus

在數學上, 矩陣微積分是用來表示多變量的微積分,當然主要還是在矩陣空間上的。它覆蓋了單一函數（單元）關於多變量的偏導，多變量函數（多元函數）關於單一變量、向量和矩陣的偏導（向量、矩陣可以被視爲單一實體對待）。這種符號化的數學表示大大的簡化了很多操作，例如查找多變量函數的最大值或者最小值，以及微分方程的求解系統等等。值得注意的是：下面使用的符號是在統計和工程領域中常用的，不過張量的指數表示（tensor index notation）是來自物理學。

不過有個我們之前未注意的是，有兩派人它們使用着自己的符號約定，從而將矩陣微積分劃分成了兩個派別。這兩個派別很容易區分，只要看它們寫一個標量關於一個向量的導數是寫成列向量還是行向量。不過這兩個約定都是被大家所接受的，就算是在涉及到一般的矩陣計算的時候，將常規的向量默認視爲列向量（而不是行向量）的情況下還是成立的。在矩陣微積分中，如果採取了一個約定，那麼就使用該約定貫穿整個領域(例如：計量經濟學,統計學,評估理論（etimation theory）和機器學習)，不要混用不然會造成混亂。然而，在一個具體的領域中，不同的作者還是會使用不同的約定，因爲會有來自不同派別的作者會將他們自己的約定作爲標準。所以在沒有去仔細的驗證不同作者的資料的時候盲目的將他們的結論放在一起會有嚴重的錯誤。因而在一個完整的資料上需要確保符號的一致性。在下面的佈局約定部分會有兩種約定的定義介紹和比較。

一、範圍

矩陣微積分指的是使用矩陣和向量來表示因變量每個成分關於自變量每個成分的導數。通常來說，自變量指的是標量、向量或者矩陣，而因變量指的是由自變量得到的結果。每種不同的情況會導致有不同規則集合（或者不同的微積分操作）。我們可以用有組織的矩陣符號來方便的表示不同的導數。

第一個例子，考慮向量微積分中的梯度。對於一個有着三個因變量的標量函數來說， $f(x_1, x_2, x_3)$ ，可以通過下面的向量方程來表示梯度：

\nabla f = \frac{\partial f}{\partial x_1} \hat{x_1} + \frac{\partial f}{\partial x_2} \hat{x_2} + \frac{\partial f}{\partial x_3} \hat{x_3}

這裏 $\hat{x_i}$ 表示 $x_i$ 方向上的單元向量，其中 $1\le i \le 3$ 。該導數更廣義的表示爲：一個標量 f 關於一個向量 $\mathbf{x}$ 的導數，其結果的向量形式如下：

\nabla f = \frac{\partial f}{\partial \mathbf{x}} = \begin{bmatrix}\frac{\partial f}{\partial x_1} &\frac{\partial f}{\partial x_2} &\frac{\partial f}{\partial x_3} \\\end{bmatrix}.

^{[這不是通常的向量表示形式，通常的向量是表示成列向量]}

更多複雜的例子，例如標量函數關於矩陣的導數，被稱之爲梯度矩陣，其中每個對應位置上的元素都是關於原始矩陣每個元素的導數。在這種情況下，一個標量（個人：也就是結果矩陣中的一個元素）就是矩陣中每個因變量的一個函數。另一個例子，如果我們有一個元素爲因變量、函數、m個自變量的n維向量，我們就需要考慮因變量向量關於該自變量向量的導數。結果爲表示所有可能導數組合的一個m×n 矩陣。當然，最多也就9種形式。如果我們在自變量和因變量中有更多層次的嵌套，那麼組合數量就遠遠不止9種了。

下面表中就是以矩陣形式表示的常見的6種不同的導數形式。^[1]

矩陣導數的類型
類型	標量	向量	矩陣
標量	$\frac{\partial y}{\partial x}$	$\frac{\partial \mathbf{y}}{\partial x}$	$\frac{\partial \mathbf{Y}}{\partial x}$
向量	$\frac{\partial y}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$
矩陣	$\frac{\partial y}{\partial \mathbf{X}}$

因爲向量和標量都可以表示成簡單的矩陣形式，所以這裏我們使用“矩陣”來泛化的表示所有含義。而且，我們使用黑體字母來表示向量，而黑體大寫字母表示矩陣。

當然上面的9個格子還少了幾個組合，比如向量關於矩陣的導數等。不過，這些導數是以秩（rank）超過2的張量（tensor）表示的，所以它們不適合放在一個矩陣中。接下來的三個部分中，我們會這些導數，而且將他們與其他的數學分支聯繫起來。在下面的佈局約定部分有更詳細的表。

1.1 其他導數

矩陣導數這種符號可以很方便的用來表示微積分中的偏導數。Fréchet導數是泛函分析中求關於向量的導數的標準方式。在這種情況中，矩陣的矩陣函數是Fréchet可微分的，這兩個派別的導數在符號的解釋上是需要保持一致的。正如在一般的偏導數分析中，許多公式是在比現有的近似線性映射的導數下還弱的分析條件下擴展得到的。

1.2 用法

矩陣微積分可以用來計算最優隨機估計（optimal stochastic estimators），通常會涉及到拉格朗日乘子的使用。比如下面的幾個例子：

二、符號

該小節的向量和矩陣導數遵循矩陣符號的規則，使用單個變量來表示一個包含着大量變量的實體。在該規則中，我們需要通過字體來區分標量，向量和矩陣。M(n,m)表示n行m列的實數矩陣空間。這樣的矩陣以黑體大寫字母表示：A, X, Y, etc.M(n,1)也就是一個列向量,表示成黑體小寫字母：a, x, y, etc.M(1,1)也就是一個標量，表示成小寫斜體字母：a, t, x, etc. X^T 表示矩陣的轉置, tr(X)表示跡,而det(X)表示的是行列式。所有的函數都假設是可微分類別 C¹ 的，除非有特別說明。字母表中上半部的普通的字母(a, b, c, …)用來表示常量,下半部字母(t, x, y, …)用來表示變量.

NOTE: 正如最開始說的，在向量和矩陣中關於偏導數的表示是不唯一的，因爲沒有一個完整的標準。下面兩個介紹性的部分使用分子佈局約定來簡單的說下符號帶來的便利，主要是爲了避免過多的複雜討論。在後面的佈局約定中有更詳細的介紹。我們應該注意到：

先不說"分子佈局" 和"分母佈局",其實還有其他的符號化解釋。選擇這兩種的原因(或者在某些情況下，叫做分子佈局，混合佈局)，是因爲這樣可以獨立的解釋標量關於向量, 向量關於標量,向量關於向量,和標量關於矩陣的導數,當然，有很多作者會以各種不同的方式來混用這些佈局。
下面的介紹性部分使用分子佈局，不代表這是“正確的”或者“優先”的選擇。不同的佈局類型都有優點和缺點。粗心的將不同的局部混合使用會導致很嚴重的錯誤，而且從一個佈局轉移到另一個佈局也是需要謹慎對待的。所以，當在當前使用的公式中，最好的選擇就是先驗證使用的是什麼佈局，然後考慮遵循這個佈局，不要試圖在所有的情況下使用同一個佈局（個人：就是如果你在推導一個公式，先了解該作者用的是什麼佈局，而不要以爲所有的資料都是同一個佈局。當然最好對每個公式都先驗證下，這是爲了防止有些作者在同一份資料中混亂的使用不同的佈局）。

2.1 其他選擇

使用愛因斯坦求和約定的張量指數表示（tensor index notation）非常像矩陣微積分，只是它是一次只有一個成分。它可以很輕鬆的對任意高秩的張量進行操作，因爲秩超過2的張量不能夠很好的通過矩陣符號來處理。這裏所有的工作都可以以這種不使用單一變量的矩陣符號來完成。不過，在評估論和應用數學領域上，是需要對超多指數（indices）進行操作的，在這些領域中，矩陣微積分是很常見的。同樣的，愛因斯坦符號可以作爲通常的元素符號的替代方法，來表示這裏的identities，不過當需要顯式的求和的時候，這就變得很麻煩了。其實一個矩陣可以認爲是有着秩爲2的張量。（個人：該段的意思就是除了前兩種表示法還有個張量指數表示法，具體的這裏不介紹，可以看下面的參考文獻。）

三、有關向量的導數

主要內容: 向量微積分

因爲向量就是有着一列的矩陣。最簡單的矩陣導數就是向量導數。

這裏的符號可以用來表示一般的向量微積分操作，用歐式空間Rⁿ中n維向量表示M(n,1)，而實數空間R 實數表示M(1,1)。

NOTE:這裏使用分子佈局只是爲了教學。有些作者還是會使用不同的約定的。下面的佈局約定部分會有更詳細的解釋.

3.1 向量關於標量

向量 $\mathbf{y} =\begin{bmatrix}y_1 \\y_2 \\\vdots \\y_m \\\end{bmatrix}$ 關於標量x 的導數(以分子佈局約定)的形式如下：

\frac{\partial \mathbf{y}}{\partial x} =\begin{bmatrix}\frac{\partial y_1}{\partial x}\\\frac{\partial y_2}{\partial x}\\\vdots\\\frac{\partial y_m}{\partial x}\\\end{bmatrix}.

在向量微積中，向量y 關於標量x 的導數被稱爲向量y 的目標向量， $\frac{\partial \mathbf{y}}{\partial x}$ 。注意：y：R $\rightarrow$ R^m.

Example；例如在歐式空間中，速率向量就是位置向量的目標向量(即關係到時間的函數)。同樣，加速度也是速率的目標向量。

3.2 標量關於向量

標量y 關於向量 $\mathbf{x} =\begin{bmatrix}x_1 \\x_2 \\\vdots \\x_n \\\end{bmatrix}$ 的導數的結果如下：(以分子佈局約定)

\frac{\partial y}{\partial \mathbf{x}} =\left[\frac{\partial y}{\partial x_1} \ \ \frac{\partial y}{\partial x_2} \ \ \cdots \ \ \frac{\partial y}{\partial x_n}\right].

在物理學中，電場是電勢的向量梯度。

空間向量 x 的標量函數f(x)在單位向量 u上的方向導數定義成的梯度形式如下：

\nabla_{\bold{u}}{f}(\bold{x}) = \nabla f(\bold{x}) \cdot \bold{u}

之前，標量關於向量的導數的符號可以重寫成方向導數的形式： $\nabla_\mathbf{u} f = \frac{\partial f}{\partial \mathbf{x}}\mathbf{u}.$ 這種符號表示形式在乘積規則和鏈式規則的時候可以看起來和標量導數一樣可讀.

3.3 向量關於向量

之前的兩種情況可以被認爲是向量關於向量的導數的應用,只是其中某個向量的大小爲1罷了。同樣的，我們可以以同樣的方式從向量推廣到矩陣上。

向量函數(一個向量，其中的元素都是函數) $\mathbf{y} =\begin{bmatrix}y_1 \\y_2 \\\vdots \\y_m \\\end{bmatrix}$ 關於一個輸入向量 $\mathbf{x} =\begin{bmatrix}x_1 \\x_2 \\\vdots \\x_n \\\end{bmatrix}$ 的導數可以寫成如下形式：(分子佈局約定)

\frac{\partial \mathbf{y}}{\partial \mathbf{x}} =\begin{bmatrix}\frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n}\\\frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n}\\\vdots & \vdots & \ddots & \vdots\\\frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n}\\\end{bmatrix}.

在向量微積分中，一個向量函數y 關於一個向量x（其成分被稱之爲一個空間）的導數被稱之爲pushforward或者differential, 或者是Jacobian矩陣.

在 R^m 中，pushforward即爲向量函數f 關於向量v 的導數爲： $d\,\mathbf{f}(\mathbf{v}) = \frac{\partial \mathbf{f}}{\partial \mathbf{x}} \mathbf{v}.$

四、關於矩陣的導數

有兩種關於矩陣的導數類型，它們可以表示成大小相同的矩陣形式。即矩陣關於變量的導數和變量關於矩陣的導數。這在應用數學的許多領域中爲了找到最小值問題是很有幫助的，它們可以被稱之爲：目標矩陣和梯度矩陣。

NOTE: 該部分使用分子佈局約定也是出於教學目的。

4.1 矩陣關於標量

矩陣函數 Y 關於標量x 的導數被稱之爲 目標矩陣： (以分子佈局約定)

\frac{\partial \mathbf{Y}}{\partial x} =\begin{bmatrix}\frac{\partial y_{11}}{\partial x} & \frac{\partial y_{12}}{\partial x} & \cdots & \frac{\partial y_{1n}}{\partial x}\\\frac{\partial y_{21}}{\partial x} & \frac{\partial y_{22}}{\partial x} & \cdots & \frac{\partial y_{2n}}{\partial x}\\\vdots & \vdots & \ddots & \vdots\\\frac{\partial y_{m1}}{\partial x} & \frac{\partial y_{m2}}{\partial x} & \cdots & \frac{\partial y_{mn}}{\partial x}\\\end{bmatrix}.

4.2 標量關於矩陣

自變量爲矩陣X 的標量函數 y 關於矩陣X的導數爲：(分子佈局約定)

\frac{\partial y}{\partial \mathbf{X}} =\begin{bmatrix}\frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{21}} & \cdots & \frac{\partial y}{\partial x_{p1}}\\\frac{\partial y}{\partial x_{12}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{p2}}\\\vdots & \vdots & \ddots & \vdots\\\frac{\partial y}{\partial x_{1q}} & \frac{\partial y}{\partial x_{2q}} & \cdots & \frac{\partial y}{\partial x_{pq}}\\\end{bmatrix}.

注意到這裏關於X的梯度的索引就是矩陣X索引的轉置。（矩陣的標量函數會涉及到矩陣的跡和行列式）。

該導數也可以寫成如下形式：

\nabla_\mathbf{X} y(\mathbf{X}) = \frac{\partial y(\mathbf{X})}{\partial \mathbf{X}}

同樣，矩陣 X 的標量函數f(X)在矩陣 Y的方向上的方向導數爲：

\nabla_\mathbf{Y} f = \operatorname{tr} \left(\frac{\partial f}{\partial \mathbf{X}} \mathbf{Y}\right).

這就是梯度矩陣，常用來解決評估論中的最小化問題，特別是在卡爾曼濾波的導數中佔據着重要的地位。

4.3 其他矩陣導數（這部分的內容是有爭議的，09年7月）

之前沒寫的三個導數就是向量關於矩陣的，矩陣關於向量的，矩陣關於矩陣的。這幾個因爲不同派別觀點不同，而且沒有個統一的符號表示。對於向量來說，前面的兩個可以看成是矩陣關於矩陣的導數，只是對應的矩陣是一行或者只有一列。所以，這一小節我們就只介紹矩陣關於矩陣的導數。

假設有將 n×m 的矩陣映射到p×q 的矩陣上的函數, F : M(n,m) $\to$ M(p,q)。微分或者說矩陣函數 F(X) 關於矩陣的導數是M(p,q) ? M(m,n)的元素, 而且是一個4秩張量(m 和 n 的轉換，表示是M(n,m)的對偶空間).簡單來說，就是一個m×n 矩陣，其中的每個元素都是一個p×q 矩陣.

\frac{\partial\mathbf{F}} {\partial\mathbf{X}}=\begin{bmatrix}\frac{\partial\mathbf{F}}{\partial X_{1,1}} & \cdots & \frac{\partial \mathbf{F}}{\partial X_{n,1}}\\\vdots & \ddots & \vdots\\\frac{\partial\mathbf{F}}{\partial X_{1,m}} & \cdots & \frac{\partial \mathbf{F}}{\partial X_{n,m}}\\\end{bmatrix},

其中每個 $\frac{\partial \mathbf{F}}{\partial \mathbf{X}_{ij}}$ 是一個p×q 矩陣。注意：這個矩陣的索引是轉置了的：m 行n 列。在M(n,m)空間中，自變量爲n×m 矩陣Y的函數F 的pushforward爲：

d\mathbf{F}(\mathbf{Y}) = \operatorname{tr}\left(\frac{\partial\mathbf{F}} {\partial\mathbf{X}}\mathbf{Y}\right),

分塊矩陣形式

該定義是個通用形式，其他上述的定義都可以作爲該定義的特例。

依據 Jan R. Magnus 和Heinz Neudecker的理論，下面的符號都不合適，如果使用這些符號的話，第二個生成的矩陣的行列式將會“無法解釋”和“不存在可以使用的鏈式規則”:^[2]

給定

\phi

, 一個自變量爲

n \times m

的矩陣

\mathbf X = (x_{i, j})

的可微分函數的導數爲：

\frac{\partial \mathbf\phi(\mathbf X)} {\partial \mathbf{X}}=\begin{bmatrix} \frac{\partial \mathbf\phi}{\partial x_{1,1}} & \cdots & \frac{\partial \mathbf\phi}{\partial x_{1,q}}\\ \vdots & \ddots & \vdots\\ \frac{\partial \mathbf\phi}{\partial x_{n,1}} & \cdots & \frac{\partial \mathbf\phi}{\partial x_{n,q}}\\\end{bmatrix}

給定

\mathbf F = (f_{s,t})

,一個自變量爲

n \times m

的矩陣

\mathbf X

的可微分

m \times n

大小的函數的導數：

\frac{\partial \mathbf F (\mathbf X)} {\partial \mathbf{X}}=\begin{bmatrix} \frac{\partial f_{1,1}}{\partial \mathbf X} & \cdots & \frac{\partial f_{1,p}}{\partial \mathbf X}\\ \vdots & \ddots & \vdots\\ \frac{\partial f_{m,1}}{\partial \mathbf X} & \cdots & \frac{\partial f_{m,p}}{\partial \mathbf X}\\\end{bmatrix}

根據Magnus and Neudecker,^[2]，Jacobian矩陣爲

\mathrm D\, \mathbf F\left(\mathbf X\right) = \frac{\partial\, \mathrm{vec}\ \mathbf F\left(\mathbf X\right)}{\partial\left(\mathrm{vec}\ \mathbf X\right)^{\prime}}.

五、佈局約定

該部分討論在使用矩陣微積分的各種不同領域中使用的符號化約定的相似和不同。當然目前有兩大陣營，不過很多作者發現在很多時候將這兩種約定混合起來使用會很方便。

最基本的問題就是向量關於向量的導數：即 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$ 。不過這通常會寫成2種不同的形式。如果分子y 是m維的，而分母x 是n維的，那麼結果可以是一個m×n 矩陣或者是一個n×m 矩陣，即 y 的元素是列排序，而 x 的元素是行排序，或者說相反。這使得會有以下幾種情況：

分子佈局，即按照 y 和x^T (相比較於x)的佈局。這有時候被稱爲Jacobian 形式.
分母佈局, 即按照 y^T 和 x (相比較於y).這有時候被稱之爲Hessian 形式.許多作者稱這種佈局爲梯度,區別於 Jacobian (分子佈局),是它的轉置。 (不過，"梯度"更多的是用來表示導數 $\frac{\partial y}{\partial \mathbf{x}},$ 而不是指佈局)
第三個可能的形式是將導數寫成 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}'},$ (即導數是關於x的轉置的)，卻遵循分子佈局。這使得我們可以認爲說矩陣是按照分子和分母制定的。不過在實際中，這生成的結果是和分子佈局一樣的。

當處理梯度 $\frac{\partial y}{\partial \mathbf{x}}$ 和想法的情況 $\frac{\partial \mathbf{y}}{\partial x},$ （逗號消不掉）的時候，我們有着相同的問題。爲了保證一致性，我們應該採用下面的某一條方案：

如果我們對 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}},$ （逗號消不掉）選擇分子佈局，我們應該將梯度 $\frac{\partial y}{\partial \mathbf{x}}$ 寫成行向量， $\frac{\partial \mathbf{y}}{\partial x}$ 爲列向量。
如果我們對 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}},$ （逗號消不掉）選擇分母佈局，我們應該將梯度 $\frac{\partial y}{\partial \mathbf{x}}$ 寫成列向量， $\frac{\partial \mathbf{y}}{\partial x}$ 寫成行向量。
第三種情況，我們採用 $\frac{\partial y}{\partial \mathbf{x}'}$ 和 $\frac{\partial \mathbf{y}}{\partial x},$ 然後使用分子佈局。

不是所有的數學教科書和論文都會在整個部分都保持一致性的。也就是有時候在相同的論文的不同部分會使用不同的約定。例如，有些地方選擇了分母佈局來表示梯度(將它們以列向量表示),而對於向量關於向量的導數 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}.$ 卻使用分子佈局。

同樣的，當面對標量關於矩陣的導數 $\frac{\partial y}{\partial \mathbf{X}}$ 和矩陣關於標量的導數 $\frac{\partial \mathbf{Y}}{\partial x},$ 的時候，按照Y和 X^T，使用的是分子佈局，而按照 Y^T 和 X使用的是分母佈局。然而，在實際中，對 $\frac{\partial \mathbf{Y}}{\partial x},$ 使用一個分母佈局，然後按照 Y^T 來對結果進行佈局是很罕見的，因爲這樣的結果看起來很糟糕，而且不對應標量公式。所以，我們通常看到的是下面的佈局：

只有分子佈局，根據 Y 來寫 $\frac{\partial \mathbf{Y}}{\partial x}$ ，根據X^T來寫 $\frac{\partial y}{\partial \mathbf{X}}$ 。
混合佈局, 根據Y 來寫 $\frac{\partial \mathbf{Y}}{\partial x}$ ，根據X來寫 $\frac{\partial y}{\partial \mathbf{X}}$ .
使用符號 $\frac{\partial y}{\partial \mathbf{X}'},$ 結果和分子佈局一樣。

在下面的式子中，我們處理5種可能的組合形式： $\frac{\partial y}{\partial \mathbf{x}}, \frac{\partial \mathbf{y}}{\partial x}, \frac{\partial \mathbf{y}}{\partial \mathbf{x}}, \frac{\partial y}{\partial \mathbf{X}}$ 和 $\frac{\partial \mathbf{Y}}{\partial x}$ 。我們同樣會處理標量關於標量導數的情況，不過這會涉及到一箇中間的向量或矩陣。(這是很可能會出現的，例如，一個多維參數化曲線是以一個標量變量定義的，那麼在求該曲線的標量函數功能與參數化該曲線的標量的導數的時候，在中間過程中會有向量或矩陣需要計算。) 對於每個不同的組合，我們都給出了分子佈局和分母佈局，除了那種分母佈局很罕見的情況。在那種有意涉及到矩陣的情況下，我們會給出分子佈局和混合佈局。正如上面說的，向量和矩陣分母寫成轉置符號的情況等同於分母沒有寫成轉置符號的分子佈局。

還記得之前提醒的，許多作者會混合的使用不同的分子和分母佈局表示不同的導數類型，而且沒法保證說一個作者會在所有類型上一直使用分子佈局或者分母佈局。可以通過下面的表來決定對某個具體的導數類型使用什麼樣的佈局，不過注意不要假設其他類型也需要遵循同一種佈局。

在計算一個集合（向量或矩陣）分母的導數從而能夠找到該集合的最大或最小值的時候，應該記住，使用分子佈局生成的結果是關於集合的轉置。例如，通過使用矩陣微積分來找到多元正態分佈的最大似然估計。如果定義域是一個kx1 列向量，那麼使用分子佈局的結果是1xk 行向量的形式。所以，使用結果的轉置或者使用分母佈局（或者混合佈局）。

集合關於集合的導數結果
	Scalar y		Vector y (size m)		Matrix Y (size m×n)
	Notation	Type	Notation	Type	Notation	Type
標量 x	$\frac{\partial y}{\partial x}$	標量	$\frac{\partial \mathbf{y}}{\partial x}$	(分子佈局) size-m 列向量 (分母佈局) size-m 行向量	$\frac{\partial \mathbf{Y}}{\partial x}$	(分子佈局) m×n 矩陣
向量 x ( n)	$\frac{\partial y}{\partial \mathbf{x}}$	(分子佈局) size-n 行向量 (分母佈局) size-n 列向量	$\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$	(分子佈局) m×n 矩陣 (分母佈局) n×m 矩陣	$\frac{\partial \mathbf{Y}}{\partial \mathbf{x}}$	?
矩陣 X (p×q)	$\frac{\partial y}{\partial \mathbf{X}}$	(分子佈局) q×p 矩陣 (分母佈局) p×q 矩陣	$\frac{\partial \mathbf{y}}{\partial \mathbf{X}}$	?	$\frac{\partial \mathbf{Y}}{\partial \mathbf{X}}$	?

分子佈局和分母佈局的操作結果可以通過轉置來切換。

5.1 分子佈局符號

使用分子佈局:^[1]

\frac{\partial y}{\partial \mathbf{x}} =\left[\frac{\partial y}{\partial x_1}\frac{\partial y}{\partial x_2}\cdots\frac{\partial y}{\partial x_n}\right].

\frac{\partial \mathbf{y}}{\partial x} =\begin{bmatrix}\frac{\partial y_1}{\partial x}\\\frac{\partial y_2}{\partial x}\\\vdots\\\frac{\partial y_m}{\partial x}\\\end{bmatrix}.

\frac{\partial \mathbf{y}}{\partial \mathbf{x}} =\begin{bmatrix}\frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n}\\\frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n}\\\vdots & \vdots & \ddots & \vdots\\\frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n}\\\end{bmatrix}.

\frac{\partial y}{\partial \mathbf{X}} =\begin{bmatrix}\frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{21}} & \cdots & \frac{\partial y}{\partial x_{p1}}\\\frac{\partial y}{\partial x_{12}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{p2}}\\\vdots & \vdots & \ddots & \vdots\\\frac{\partial y}{\partial x_{1q}} & \frac{\partial y}{\partial x_{2q}} & \cdots & \frac{\partial y}{\partial x_{pq}}\\\end{bmatrix}.

下面的定義只提供了分子佈局的結果：

\frac{\partial \mathbf{Y}}{\partial x} =\begin{bmatrix}\frac{\partial y_{11}}{\partial x} & \frac{\partial y_{12}}{\partial x} & \cdots & \frac{\partial y_{1n}}{\partial x}\\\frac{\partial y_{21}}{\partial x} & \frac{\partial y_{22}}{\partial x} & \cdots & \frac{\partial y_{2n}}{\partial x}\\\vdots & \vdots & \ddots & \vdots\\\frac{\partial y_{m1}}{\partial x} & \frac{\partial y_{m2}}{\partial x} & \cdots & \frac{\partial y_{mn}}{\partial x}\\\end{bmatrix}.

d\mathbf{X} =\begin{bmatrix}dx_{11} & dx_{12} & \cdots & dx_{1n}\\dx_{21} & dx_{22} & \cdots & dx_{2n}\\\vdots & \vdots & \ddots & \vdots\\dx_{m1} & dx_{m2} & \cdots & dx_{mn}\\\end{bmatrix}.

5.2 分母佈局符號

使用分母佈局:^[3]

\frac{\partial y}{\partial \mathbf{x}} =\begin{bmatrix}\frac{\partial y}{\partial x_1}\\\frac{\partial y}{\partial x_2}\\\vdots\\\frac{\partial y}{\partial x_n}\\\end{bmatrix}.

\frac{\partial \mathbf{y}}{\partial x} = \left[\frac{\partial y_1}{\partial x}\frac{\partial y_2}{\partial x}\cdots\frac{\partial y_m}{\partial x}\right].

\frac{\partial \mathbf{y}}{\partial \mathbf{x}} =\begin{bmatrix}\frac{\partial y_1}{\partial x_1} & \frac{\partial y_2}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_1}\\\frac{\partial y_1}{\partial x_2} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_2}\\\vdots & \vdots & \ddots & \vdots\\\frac{\partial y_1}{\partial x_n} & \frac{\partial y_2}{\partial x_n} & \cdots & \frac{\partial y_m}{\partial x_n}\\\end{bmatrix}.

\frac{\partial y}{\partial \mathbf{X}} =\begin{bmatrix}\frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{12}} & \cdots & \frac{\partial y}{\partial x_{1q}}\\\frac{\partial y}{\partial x_{21}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{2q}}\\\vdots & \vdots & \ddots & \vdots\\\frac{\partial y}{\partial x_{p1}} & \frac{\partial y}{\partial x_{p2}} & \cdots & \frac{\partial y}{\partial x_{pq}}\\\end{bmatrix}.

六、Identities

正如上面說的，通常來說，操作的結果需要通過轉置在分子佈局和分母佈局之間相互切換。

爲了幫助理解下面的所有identities, 記得最重要的規則是：鏈式規則, 乘積規則和求和規則。求和規則是普遍適用的,而乘積規則應用在下面的大部分情況中, 其中矩陣乘積的順序是有要求的，因爲矩陣乘積是不可交換的。鏈式規則應用在下面的某些情況中，不過可惜的是沒有應用在矩陣關於標量的導數和標量關於矩陣的導數中(在後者的情況下，大多數情況都是通過在矩陣上跡操作來完成的). 在後者情況中，乘積規則沒法直接使用，不過可以通過使用微分identities來等效的完成。

6.1 向量關於向量的 identities

最開始介紹這個是因爲所有的向量關於向量的微分可以直接用在向量關於標量或者標量關於向量的微分上，只要將分母或分子的向量變成標量就行。

Identities: 向量關於向量 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$
條件	表達式	分子佈局，即 y 和 x^T	分母佈局，即y^T 和 x
a 不是關於x的函數	$\frac{\partial \mathbf{a}}{\partial \mathbf{x}} =$	$\mathbf{0}$
	$\frac{\partial \mathbf{x}}{\partial \mathbf{x}} =$	$\mathbf{I}$
A 不是關於x的函數	$\frac{\partial \mathbf{A}\mathbf{x}}{\partial \mathbf{x}} =$	$\mathbf{A}$	$\mathbf{A}^\top$
A 不是關於x的函數	$\frac{\partial \mathbf{x}^\top \mathbf{A}}{\partial \mathbf{x}} =$	$\mathbf{A}^\top$	$\mathbf{A}$
a 不是關於x的函數 u = u(x)	$\frac{\partial a\mathbf{u}}{\partial\, \mathbf{x}} =$	$a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$
a = a(x), u = u(x)	$\frac{\partial a\mathbf{u}}{\partial \mathbf{x}} =$	$a \frac{\partial \mathbf{u}}{\partial \mathbf{x}} + \mathbf{u}\frac{\partial a}{\partial \mathbf{x}}$	$a\frac{\partial \mathbf{u}}{\partial \mathbf{x}} + \frac{\partial a}{\partial \mathbf{x}} \mathbf{u}^\top$
A 不是關於x 的函數 u = u(x)	$\frac{\partial \mathbf{A}\mathbf{u}}{\partial \mathbf{x}} =$	$\mathbf{A}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{u}}{\partial \mathbf{x}}\mathbf{A}^\top$
u = u(x), v = v(x)	$\frac{\partial (\mathbf{u} + \mathbf{v})}{\partial \mathbf{x}} =$	$\frac{\partial \mathbf{u}}{\partial \mathbf{x}} + \frac{\partial \mathbf{v}}{\partial \mathbf{x}}$
u = u(x)	$\frac{\partial \mathbf{g(u)}}{\partial \mathbf{x}} =$	$\frac{\partial \mathbf{g(u)}}{\partial \mathbf{u}} \frac{\partial \mathbf{u}}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{u}}{\partial \mathbf{x}} \frac{\partial \mathbf{g(u)}}{\partial \mathbf{u}}$
u = u(x)	$\frac{\partial \mathbf{f(g(u))}}{\partial \mathbf{x}} =$	$\frac{\partial \mathbf{f(g)}}{\partial \mathbf{g}} \frac{\partial \mathbf{g(u)}}{\partial \mathbf{u}} \frac{\partial \mathbf{u}}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{u}}{\partial \mathbf{x}} \frac{\partial \mathbf{g(u)}}{\partial \mathbf{u}} \frac{\partial \mathbf{f(g)}}{\partial \mathbf{g}}$

6.2 標量關於向量的 identities[edit]

主要的identities 下面都有條細黑線。

Identities: 標量關於向量 $\frac{\partial y}{\partial \mathbf{x}} = \nabla_\mathbf{x} y$
條件	表達式	分子佈局，即 x^T; 結果是行向量	分母佈局,即 x;結果是列向量
a 不是關於x的函數	$\frac{\partial a}{\partial \mathbf{x}} =$	$\mathbf{0}^\top$ ^[4]	$\mathbf{0}$ ^[4]
a 不是關於x的函數, u = u(x)	$\frac{\partial au}{\partial \mathbf{x}} =$	$a\frac{\partial u}{\partial \mathbf{x}}$
u = u(x), v = v(x)	$\frac{\partial (u+v)}{\partial \mathbf{x}} =$	$\frac{\partial u}{\partial \mathbf{x}} + \frac{\partial v}{\partial \mathbf{x}}$
u = u(x), v = v(x)	$\frac{\partial uv}{\partial \mathbf{x}} =$	$u\frac{\partial v}{\partial \mathbf{x}} + v\frac{\partial u}{\partial \mathbf{x}}$
u = u(x)	$\frac{\partial g(u)}{\partial \mathbf{x}} =$	$\frac{\partial g(u)}{\partial u} \frac{\partial u}{\partial \mathbf{x}}$
u = u(x)	$\frac{\partial f(g(u))}{\partial \mathbf{x}} =$	$\frac{\partial f(g)}{\partial g} \frac{\partial g(u)}{\partial u} \frac{\partial u}{\partial \mathbf{x}}$
u = u(x), v = v(x)	$\frac{\partial (\mathbf{u} \cdot \mathbf{v})}{\partial \mathbf{x}} = \frac{\partial \mathbf{u}^\top \mathbf{v}}{\partial \mathbf{x}} =$	$\mathbf{u}^\top\frac{\partial \mathbf{v}}{\partial \mathbf{x}} + \mathbf{v}^\top\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$ 假設分子佈局 of $\frac{\partial \mathbf{u}}{\partial \mathbf{x}}, \frac{\partial \mathbf{v}}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{u}}{\partial \mathbf{x}}\mathbf{v} + \frac{\partial \mathbf{v}}{\partial \mathbf{x}}\mathbf{u}$ 假設分母佈局 of $\frac{\partial \mathbf{u}}{\partial \mathbf{x}}, \frac{\partial \mathbf{v}}{\partial \mathbf{x}}$
u = u(x), v = v(x), A 不是關於x的函數	$\frac{\partial (\mathbf{u} \cdot \mathbf{A}\mathbf{v})}{\partial \mathbf{x}} = \frac{\partial \mathbf{u}^\top\mathbf{A}\mathbf{v}}{\partial \mathbf{x}} =$	$\mathbf{u}^\top\mathbf{A}\frac{\partial \mathbf{v}}{\partial \mathbf{x}} + \mathbf{v}^\top \mathbf{A}^\top\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$ 假設分子佈局 of $\frac{\partial \mathbf{u}}{\partial \mathbf{x}}, \frac{\partial \mathbf{v}}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{u}}{\partial \mathbf{x}}\mathbf{A}\mathbf{v} + \frac{\partial \mathbf{v}}{\partial \mathbf{x}}\mathbf{A}^\top\mathbf{u}$ 假設分母佈局 of $\frac{\partial \mathbf{u}}{\partial \mathbf{x}}, \frac{\partial \mathbf{v}}{\partial \mathbf{x}}$
a 不是關於x的函數	$\frac{\partial (\mathbf{a}\cdot\mathbf{x})}{\partial \mathbf{x}} = \frac{\partial (\mathbf{x}\cdot\mathbf{a})}{\partial \mathbf{x}} =$ $\frac{\partial \mathbf{a}^\top\mathbf{x}}{\partial \mathbf{x}} = \frac{\partial \mathbf{x}^\top\mathbf{a}}{\partial \mathbf{x}} =$	$\mathbf{a}^\top$	$\mathbf{a}$
A 不是關於x的函數 b 不是關於x的函數	$\frac{\partial \mathbf{b}^\top\mathbf{A}\mathbf{x}}{\partial \mathbf{x}} =$	$\mathbf{b}^\top\mathbf{A}$	$\mathbf{A}^\top\mathbf{b}$
A 不是關於x的函數	$\frac{\partial \mathbf{x}^\top\mathbf{A}\mathbf{x}}{\partial \mathbf{x}} =$	$\mathbf{x}^\top(\mathbf{A} + \mathbf{A}^\top)$	$(\mathbf{A} + \mathbf{A}^\top)\mathbf{x}$
A 不是關於x的函數 A 是對稱的	$\frac{\partial \mathbf{x}^\top\mathbf{A}\mathbf{x}}{\partial \mathbf{x}} =$	$2\mathbf{x}^\top\mathbf{A}$	$2\mathbf{A}\mathbf{x}$
A 不是關於x的函數	$\frac{\partial^2 \mathbf{x}^\top\mathbf{A}\mathbf{x}}{\partial \mathbf{x}^2} =$	$\mathbf{A} + \mathbf{A}^\top$
A 不是關於x的函數 A 是對稱的	$\frac{\partial^2 \mathbf{x}^\top\mathbf{A}\mathbf{x}}{\partial \mathbf{x}^2} =$	$2\mathbf{A}$
	$\frac{\partial (\mathbf{x} \cdot \mathbf{x})}{\partial \mathbf{x}} = \frac{\partial \mathbf{x}^\top\mathbf{x}}{\partial \mathbf{x}} =$	$2\mathbf{x}^\top$	$2\mathbf{x}$
a 不是關於x的函數, u = u(x)	$\frac{\partial (\mathbf{a} \cdot \mathbf{u})}{\partial \mathbf{x}} = \frac{\partial \mathbf{a}^\top\mathbf{u}}{\partial \mathbf{x}} =$	$\mathbf{a}^\top\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$ 假設分子佈局of $\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{u}}{\partial \mathbf{x}}\mathbf{a}$ 假設分母佈局 of $\frac{\partial \mathbf{u}}{\partial \mathbf{x}}$
a, b 不是關於x的函數	$\frac{\partial \; \textbf{a}^\top\textbf{x}\textbf{x}^\top\textbf{b}}{\partial \; \textbf{x}} =$	$\textbf{x}^\top(\textbf{a}\textbf{b}^\top + \textbf{b}\textbf{a}^\top)$	$(\textbf{a}\textbf{b}^\top + \textbf{b}\textbf{a}^\top)\textbf{x}$
A, b, C, D, e 不是關於x的函數	$\frac{\partial \; (\textbf{A}\textbf{x} + \textbf{b})^\top \textbf{C} (\textbf{D}\textbf{x} + \textbf{e}) }{\partial \; \textbf{x}} =$	$(\textbf{D}\textbf{x} + \textbf{e})^\top \textbf{C}^\top \textbf{A} + (\textbf{A}\textbf{x} + \textbf{b})^\top \textbf{C} \textbf{D}$	$\textbf{D}^\top \textbf{C}^\top (\textbf{A}\textbf{x} + \textbf{b}) + \textbf{A}^\top\textbf{C}(\textbf{D}\textbf{x} + \textbf{e})$
a 不是關於x的函數	$\frac{\partial \; \\|\mathbf{x}-\mathbf{a}\\|}{\partial \; \mathbf{x}} =$	$\frac{(\mathbf{x}-\mathbf{a})^\top}{\\|\mathbf{x}-\mathbf{a}\\|}$	$\frac{\mathbf{x}-\mathbf{a}}{\\|\mathbf{x}-\mathbf{a}\\|}$

6.3 向量關於標量的 identities[edit]

Identities: 向量關於標量 $\frac{\partial \mathbf{y}}{\partial x}$
條件	表達式	分子佈局，即 y,結果是列向量	分母佈局，即 y^T,結果是行向量
a不是關於 x的函數	$\frac{\partial \mathbf{a}}{\partial x} =$	$\mathbf{0}$ ^[4]
a不是關於 x的函數, u = u(x)	$\frac{\partial a\mathbf{u}}{\partial x} =$	$a\frac{\partial \mathbf{u}}{\partial x}$
A 不是關於 x的函數 u = u(x)	$\frac{\partial \mathbf{A}\mathbf{u}}{\partial x} =$	$\mathbf{A}\frac{\partial \mathbf{u}}{\partial x}$	$\frac{\partial \mathbf{u}}{\partial x}\mathbf{A}^\top$
u = u(x)	$\frac{\partial \mathbf{u}^\top}{\partial x} =$	$\left(\frac{\partial \mathbf{u}}{\partial x}\right)^\top$
u = u(x), v = v(x)	$\frac{\partial (\mathbf{u} + \mathbf{v})}{\partial x} =$	$\frac{\partial \mathbf{u}}{\partial x} + \frac{\partial \mathbf{v}}{\partial x}$
u = u(x), v = v(x)	$\frac{\partial (\mathbf{u} \times \mathbf{v})}{\partial x} =$	$\mathbf{u} \times \frac{\partial \mathbf{v}}{\partial x} + \frac{\partial \mathbf{u}}{\partial x} \times \mathbf{v}$
u = u(x)	$\frac{\partial \mathbf{g(u)}}{\partial x} =$	$\frac{\partial \mathbf{g(u)}}{\partial \mathbf{u}} \frac{\partial \mathbf{u}}{\partial x}$	$\frac{\partial \mathbf{u}}{\partial x} \frac{\partial \mathbf{g(u)}}{\partial \mathbf{u}}$
u = u(x)	$\frac{\partial \mathbf{g(u)}}{\partial x} =$	假設矩陣佈局是一致的; see below.
u = u(x)	$\frac{\partial \mathbf{f(g(u))}}{\partial x} =$	$\frac{\partial \mathbf{f(g)}}{\partial \mathbf{g}} \frac{\partial \mathbf{g(u)}}{\partial \mathbf{u}} \frac{\partial \mathbf{u}}{\partial x}$	$\frac{\partial \mathbf{u}}{\partial x} \frac{\partial \mathbf{g(u)}}{\partial \mathbf{u}} \frac{\partial \mathbf{f(g)}}{\partial \mathbf{g}}$
u = u(x)	$\frac{\partial \mathbf{f(g(u))}}{\partial x} =$	假設矩陣佈局是一致的; see below.

NOTE: 設計到向量關於向量的導數的公式 $\frac{\partial \mathbf{g(u)}}{\partial \mathbf{u}}$ 和 $\frac{\partial \mathbf{f(g)}}{\partial \mathbf{g}}$ (輸出爲矩陣)假設矩陣是使用相同的向量佈局的，即當使用分子佈局向量的時候，就是分子佈局矩陣，反之亦然；不過需要轉置向量關於向量的導數。

6.4 標量關於矩陣的 identities

注意，當使用矩陣（自變量）的矩陣值（因變量）函數的時候，標量乘積規則和鏈式規則不存在完全相等的。不過，這類乘積規則也適用於微分形式（見下面），這是得到許多涉及跡函數identites的方法，而且事實上跡允許轉置和循環置換，即：

{\rm tr}(\mathbf{A}) = {\rm tr}(\mathbf{A^\top})

{\rm tr}(\mathbf{ABCD}) = {\rm tr}(\mathbf{BCDA}) = {\rm tr}(\mathbf{CDAB}) = {\rm tr}(\mathbf{DABC})

例如，爲了計算 $\frac{\partial {\rm tr}(\mathbf{AXBX^\top C})}{\partial \mathbf{X}}:$

\begin{align}d\, {\rm tr}(\mathbf{AXBX^\top C}) &= d\, {\rm tr}(\mathbf{CAXBX^\top}) = {\rm tr}(d(\mathbf{CAXBX^\top})) \\&= {\rm tr}(\mathbf{CAX} d(\mathbf{BX^\top}) + d(\mathbf{CAX})\mathbf{BX^\top}) \\&= {\rm tr}(\mathbf{CAX} d(\mathbf{BX^\top})) + {\rm tr}(d(\mathbf{CAX})\mathbf{BX^\top}) \\&= {\rm tr}(\mathbf{CAXB} d(\mathbf{X^\top})) + {\rm tr}(\mathbf{CA}(d\mathbf{X})\mathbf{BX^\top}) \\&= {\rm tr}(\mathbf{CAXB} (d\mathbf{X})^\top) + {\rm tr}(\mathbf{CA}(d\mathbf{X})\mathbf{BX^\top}) \\&= {\rm tr}\left((\mathbf{CAXB} (d\mathbf{X})^\top)^\top\right) + {\rm tr}(\mathbf{CA}(d\mathbf{X})\mathbf{BX^\top}) \\&= {\rm tr}((d\mathbf{X})\mathbf{B^\top X^\top A^\top C^\top}) + {\rm tr}(\mathbf{CA}(d\mathbf{X})\mathbf{BX^\top}) \\&= {\rm tr}(\mathbf{B^\top X^\top A^\top C^\top}(d\mathbf{X})) + {\rm tr}(\mathbf{BX^\top}\mathbf{CA}(d\mathbf{X})) \\&= {\rm tr}\left((\mathbf{B^\top X^\top A^\top C^\top} + \mathbf{BX^\top}\mathbf{CA})d\mathbf{X}\right) \end{align}

所以,

\frac{\partial {\rm tr}(\mathbf{AXBX^\top C})}{\partial \mathbf{X}} = \mathbf{B^\top X^\top A^\top C^\top} + \mathbf{BX^\top}\mathbf{CA} .

(最後一步，見 `從微分的導數形式的轉換' 部分.)

Identities: 標量關於矩陣 $\frac{\partial y}{\partial \mathbf{X}}$
條件	表達式	分子佈局，即 X^T	分母佈局，即 X
a 不是 X的函數	$\frac{\partial a}{\partial \mathbf{X}} =$	$\mathbf{0}^\top$ ^[5]	$\mathbf{0}$ ^[5]
a 不是 X的函數, u = u(X)	$\frac{\partial au}{\partial \mathbf{X}} =$	$a\frac{\partial u}{\partial \mathbf{X}}$
u = u(X), v = v(X)	$\frac{\partial (u+v)}{\partial \mathbf{X}} =$	$\frac{\partial u}{\partial \mathbf{X}} + \frac{\partial v}{\partial \mathbf{X}}$
u = u(X), v = v(X)	$\frac{\partial uv}{\partial \mathbf{X}} =$	$u\frac{\partial v}{\partial \mathbf{X}} + v\frac{\partial u}{\partial \mathbf{X}}$
u = u(X)	$\frac{\partial g(u)}{\partial \mathbf{X}} =$	$\frac{\partial g(u)}{\partial u} \frac{\partial u}{\partial \mathbf{X}}$
u = u(X)	$\frac{\partial f(g(u))}{\partial \mathbf{X}} =$	$\frac{\partial f(g)}{\partial g} \frac{\partial g(u)}{\partial u} \frac{\partial u}{\partial \mathbf{X}}$
U = U(X)	^[6] $\frac{\partial g(\mathbf{U})}{\partial X_{ij}} =$	${\rm tr}\left( \frac{\partial g(\mathbf{U})}{\partial \mathbf{U}} \frac{\partial \mathbf{U}}{\partial X_{ij}}\right)$	${\rm tr}\left( \left(\frac{\partial g(\mathbf{U})}{\partial \mathbf{U}}\right)^\top \frac{\partial \mathbf{U}}{\partial X_{ij}}\right)$
U = U(X)	^[6] $\frac{\partial g(\mathbf{U})}{\partial X_{ij}} =$	兩種形式都假設分子佈局for $\frac{\partial \mathbf{U}}{\partial X_{ij}},$ 如果X 使用分母佈局，那麼使用混合佈局
	$\frac{\partial {\rm tr}(\mathbf{X})}{\partial \mathbf{X}} =$	$\mathbf{I}$
U = U(X), V = V(X)	$\frac{\partial {\rm tr}(\mathbf{U}+\mathbf{V})}{\partial \mathbf{X}} =$	$\frac{\partial {\rm tr}(\mathbf{U})}{\partial \mathbf{X}} + \frac{\partial {\rm tr}(\mathbf{V})}{\partial \mathbf{X}}$
a 不是 X的函數, U = U(X)	$\frac{\partial {\rm tr}(a\mathbf{U})}{\partial \mathbf{X}} =$	$a\frac{\partial {\rm tr}(\mathbf{U})}{\partial \mathbf{X}}$
g(X) 是標量係數多項式，或者是無限多項式定義的矩陣函數 (如 e^X, sin(X), cos(X), ln(X), 用泰勒展開式); g(x) 是標量函數, g′(x) 是其導數, g′(X) 是對應的矩陣函數	$\frac{\partial {\rm tr}(\mathbf{g(X)})}{\partial \mathbf{X}} =$	$\mathbf{g}'(\mathbf{X})$	$(\mathbf{g}'(\mathbf{X}))^\top$
A 不是X的函數	^[7] $\frac{\partial \top(\mathbf{AX})}{\partial \mathbf{X}} = \frac{\partial {\rm tr}(\mathbf{XA})}{\partial \mathbf{X}} =$	$\mathbf{A}$	$\mathbf{A}^\top$
A不是X的函數	^[6] $\frac{\partial {\rm tr}(\mathbf{AX^\top})}{\partial \mathbf{X}} = \frac{\partial {\rm tr}(\mathbf{X^\top A})}{\partial \mathbf{X}} =$	$\mathbf{A}^\top$	$\mathbf{A}$
A 不是X的函數	^[6] $\frac{\partial {\rm tr}(\mathbf{X^\top AX})}{\partial \mathbf{X}} =$	$\mathbf{X}^\top(\mathbf{A}+\mathbf{A}^\top)$	$(\mathbf{A}+\mathbf{A}^\top)\mathbf{X}$
A 不是X的函數	^[6] $\frac{\partial {\rm tr}(\mathbf{X^{-1}A})}{\partial \mathbf{X}} =$	$-(\mathbf{X}^{-1})^\top\mathbf{A}(\mathbf{X}^{-1})^\top$	$-\mathbf{X}^{-1}\mathbf{A}^\top\mathbf{X}^{-1}$
A, B 不是X的函數	$\frac{\partial {\rm tr}(\mathbf{AXB})}{\partial \mathbf{X}} = \frac{\partial {\rm tr}(\mathbf{BAX})}{\partial \mathbf{X}} =$	$\mathbf{BA}$	$\mathbf{A^\top B^\top}$
A, B, C 不是X的函數	$\frac{\partial {\rm tr}(\mathbf{AXBX^\top C})}{\partial \mathbf{X}} =$	$\mathbf{BX^\top CA} + \mathbf{B^\top X^\top A^\top C^\top}$	$\mathbf{A^\top C^\top XB^\top} + \mathbf{CAXB}$
n 是正整數	^[6] $\frac{\partial {\rm tr}(\mathbf{X}^n)}{\partial \mathbf{X}} =$	$n\mathbf{X}^{n-1}$	$n(\mathbf{X}^{n-1})^\top$
A 不是X的函數, n 是正整數	^[6] $\frac{\partial {\rm tr}(\mathbf{A}\mathbf{X}^n)}{\partial \mathbf{X}} =$	$\sum_{i=0}^{n-1} \mathbf{X}^i\mathbf{A}\mathbf{X}^{n-i-1}$	$\sum_{i=0}^{n-1} (\mathbf{X}^i\mathbf{A}\mathbf{X}^{n-i-1})^\top$
	^[6] $\frac{\partial {\rm tr}(e^\mathbf{X})}{\partial \mathbf{X}} =$	$e^\mathbf{X}$	$(e^\mathbf{X})^\top$
	^[6] $\frac{\partial {\rm tr}(\sin(\mathbf{X}))}{\partial \mathbf{X}} =$	$\cos(\mathbf{X})$	$(\cos(\mathbf{X}))^\top$
	^[8] $\frac{\partial \|\mathbf{X}\|}{\partial \mathbf{X}} =$	$\operatorname{cofactor}(X)^\top = \|\mathbf{X}\|\mathbf{X}^{-1}$	$\operatorname{cofactor}(X) = \|\mathbf{X}\|(\mathbf{X}^{-1})^\top$
a 不是X的函數	^[6] $\frac{\partial \ln \|a\mathbf{X}\|}{\partial \mathbf{X}} =$ ^[9]	$\mathbf{X}^{-1}$	$(\mathbf{X}^{-1})^\top$
A, B 不是X的函數	^[6] $\frac{\partial \|\mathbf{AXB}\|}{\partial \mathbf{X}} =$	$\|\mathbf{AXB}\|\mathbf{X}^{-1}$	$\|\mathbf{AXB}\|(\mathbf{X}^{-1})^\top$
n 是正整數	^[6] $\frac{\partial \|\mathbf{X}^n\|}{\partial \mathbf{X}} =$	$n\|\mathbf{X}^n\|\mathbf{X}^{-1}$	$n\|\mathbf{X}^n\|(\mathbf{X}^{-1})^\top$
(見僞逆)	^[6] $\frac{\partial \ln \|\mathbf{X}^\top\mathbf{X}\|}{\partial \mathbf{X}} =$	$2\mathbf{X}^{+}$	$2(\mathbf{X}^{+})^\top$
(見僞逆)	^[6] $\frac{\partial \ln \|\mathbf{X}^\top\mathbf{X}\|}{\partial \mathbf{X}^{+}} =$	$-2\mathbf{X}$	$-2\mathbf{X}^\top$
A 不是X的函數, X 是方陣而且可逆	$\frac{\partial \|\mathbf{X^\top}\mathbf{A}\mathbf{X}\|}{\partial \mathbf{X}} =$	$2\|\mathbf{X^\top}\mathbf{A}\mathbf{X}\|\mathbf{X}^{-1}$	$2\|\mathbf{X^\top}\mathbf{A}\mathbf{X}\|(\mathbf{X}^{-1})^\top$
A 不是X的函數, X 不是方陣, A 是對稱的	$\frac{\partial \|\mathbf{X^\top}\mathbf{A}\mathbf{X}\|}{\partial \mathbf{X}} =$	$2\|\mathbf{X^\top}\mathbf{A}\mathbf{X}\|(\mathbf{X^\top A^\top X})^{-1}\mathbf{X^\top A^\top}$	$2\|\mathbf{X^\top}\mathbf{A}\mathbf{X}\|\mathbf{AX}(\mathbf{X^\top AX})^{-1}$
A 不是X的函數 X 不是方陣 A 不是對稱的	$\frac{\partial \|\mathbf{X^\top}\mathbf{A}\mathbf{X}\|}{\partial \mathbf{X}} =$	$\|\mathbf{X^\top}\mathbf{A}\mathbf{X}\|((\mathbf{X^\top AX})^{-1}\mathbf{X^\top A}$ $+ (\mathbf{X^\top A^\top X})^{-1}\mathbf{X^\top A^\top})$	$\|\mathbf{X^\top}\mathbf{A}\mathbf{X}\|(\mathbf{AX}(\mathbf{X^\top AX})^{-1}$ $+ \mathbf{A^\top X}(\mathbf{X^\top A^\top X})^{-1})$

6.5 矩陣關於標量的 identities[edit]

Identities: 矩陣關於標量 $\frac{\partial \mathbf{Y}}{\partial x}$
條件	表達式	分子佈局，即 Y
U = U(x)	$\frac{\partial a\mathbf{U}}{\partial x} =$	$a\frac{\partial \mathbf{U}}{\partial x}$
A, B 不是關於x 的函數 U = U(x)	$\frac{\partial \mathbf{AUB}}{\partial x} =$	$\mathbf{A}\frac{\partial \mathbf{U}}{\partial x}\mathbf{B}$
U = U(x), V = V(x)	$\frac{\partial (\mathbf{U}+\mathbf{V})}{\partial x} =$	$\frac{\partial \mathbf{U}}{\partial x} + \frac{\partial \mathbf{V}}{\partial x}$
U = U(x), V = V(x)	$\frac{\partial (\mathbf{U}\mathbf{V})}{\partial x} =$	$\mathbf{U}\frac{\partial \mathbf{V}}{\partial x} + \frac{\partial \mathbf{U}}{\partial x}\mathbf{V}$
U = U(x), V = V(x)	$\frac{\partial (\mathbf{U} \otimes \mathbf{V})}{\partial x} =$	$\mathbf{U} \otimes \frac{\partial \mathbf{V}}{\partial x} + \frac{\partial \mathbf{U}}{\partial x} \otimes \mathbf{V}$
U = U(x), V = V(x)	$\frac{\partial (\mathbf{U} \circ \mathbf{V})}{\partial x} =$	$\mathbf{U} \circ \frac{\partial \mathbf{V}}{\partial x} + \frac{\partial \mathbf{U}}{\partial x} \circ \mathbf{V}$
U = U(x)	$\frac{\partial \mathbf{U}^{-1}}{\partial x} =$	$-\mathbf{U}^{-1} \frac{\partial \mathbf{U}}{\partial x}\mathbf{U}^{-1}$
U = U(x,y)	$\frac{\partial^2 \mathbf{U}^{-1}}{\partial x \partial y} =$	$\mathbf{U}^{-1}\left(\frac{\partial \mathbf{U}}{\partial x}\mathbf{U}^{-1}\frac{\partial \mathbf{U}}{\partial y} - \frac{\partial^2 \mathbf{U}}{\partial x \partial y} + \frac{\partial \mathbf{U}}{\partial y}\mathbf{U}^{-1}\frac{\partial \mathbf{U}}{\partial x}\right)\mathbf{U}^{-1}$
A 不是關於x 的函數, g(X) 是關於標量係數的多項式,或者是關於無限多項式定義的矩陣函數 (如. e^X, sin(X), cos(X), ln(X) ); g(x) 是等效的標量函數, g′(x) 是其導數,g′(X) 是對應矩陣函數	$\frac{\partial \, \mathbf{g}(x\mathbf{A})}{\partial x} =$	$\mathbf{A}\mathbf{g}'(x\mathbf{A}) = \mathbf{g}'(x\mathbf{A})\mathbf{A}$
A 不是關於x 的函數	$\frac{\partial e^{x\mathbf{A}}}{\partial x} =$	$\mathbf{A}e^{x\mathbf{A}} = e^{x\mathbf{A}}\mathbf{A}$

更多細節可見指數映射的導數。

6.6 標量關於標量的 identities

6.6.1 涉及到向量

Identities: 標量關於標量, 涉及到向量
條件	表達式	任意佈局 (假定點積忽略行或列布局)
u = u(x)	$\frac{\partial g(\mathbf{u})}{\partial x} =$	$\frac{\partial g(\mathbf{u})}{\partial \mathbf{u}} \cdot \frac{\partial \mathbf{u}}{\partial x}$
u = u(x), v = v(x)	$\frac{\partial (\mathbf{u} \cdot \mathbf{v})}{\partial x} =$	$\mathbf{u} \cdot \frac{\partial \mathbf{v}}{\partial x} + \frac{\partial \mathbf{u}}{\partial x} \cdot \mathbf{v}$

6.6.2 涉及到矩陣

Identities: 標量關於標量，涉及到矩陣^[6]
條件	表達式	一致的分子佈局,即 Y 和 X^T	混合佈局,即 Y 和 X
U = U(x)	$\frac{\partial \|\mathbf{U}\|}{\partial x} =$	$\|\mathbf{U}\|{\rm tr}\left(\mathbf{U}^{-1}\frac{\partial \mathbf{U}}{\partial x}\right)$
U = U(x)	$\frac{\partial \ln\|\mathbf{U}\|}{\partial x} =$	${\rm tr}\left(\mathbf{U}^{-1}\frac{\partial \mathbf{U}}{\partial x}\right)$
U = U(x)	$\frac{\partial^2 \|\mathbf{U}\|}{\partial x^2} =$	$\|\mathbf{U}\|\left[{\rm tr}\left(\mathbf{U}^{-1}\frac{\partial^2 \mathbf{U}}{\partial x^2}\right) + \left({\rm tr}\left(\mathbf{U}^{-1}\frac{\partial \mathbf{U}}{\partial x}\right)\right)^2-{\rm tr}\left(\left(\mathbf{U}^{-1}\frac{\partial \mathbf{U}}{\partial x}\right)\left(\mathbf{U}^{-1}\frac{\partial \mathbf{U}}{\partial x}\right)\right)\right]$
U = U(x)	$\frac{\partial g(\mathbf{U})}{\partial x} =$	${\rm tr}\left( \frac{\partial g(\mathbf{U})}{\partial \mathbf{U}} \frac{\partial \mathbf{U}}{\partial x}\right)$	${\rm tr}\left( \left(\frac{\partial g(\mathbf{U})}{\partial \mathbf{U}}\right)^\top \frac{\partial \mathbf{U}}{\partial x}\right)$
A 不是x 的函數, g(X) 是標量係數的多項式, 或者是由無線多項式定義的矩陣函數(如e^X, sin(X), cos(X), ln(X),); g(x) 是等效標量函數, g′(x) 是它導數,g′(X) 是對應矩陣函數	$\frac{\partial \, {\rm tr}(\mathbf{g}(x\mathbf{A}))}{\partial x} =$	${\rm tr}(\mathbf{A}\mathbf{g}'(x\mathbf{A}))$
A 不是x 的函數	$\frac{\partial \, {\rm tr}(e^{x\mathbf{A}})}{\partial x} =$	${\rm tr}(\mathbf{A}e^{x\mathbf{A}})$

6.7 不同形式中的Identities

通常很容易在微分形式下處理，然後轉換成規範導數形式。這隻在分子佈局下才能很好地work。

微分identities: 標量，涉及到矩陣^[1]^[6]
條件	表達式	結果 (分子佈局)
	$d({\rm tr}(\mathbf{X})) =$	${\rm tr}(d\mathbf{X})$
	$d(\|\mathbf{X}\|) =$	$\|\mathbf{X}\|{\rm tr}(\mathbf{X}^{-1}d\mathbf{X})$
	$d(\ln\|\mathbf{X}\|) =$	${\rm tr}(\mathbf{X}^{-1}d\mathbf{X})$

微分identities: 矩陣^[1]^[6]
條件	表達式	結果(分子佈局)
A 不是關於 X的函數	$d(\mathbf{A}) =$	$0$
a 不是關於 X的函數	$d(a\mathbf{X}) =$	$a\,d\mathbf{X}$
	$d(\mathbf{X}+\mathbf{Y}) =$	$d\mathbf{X}+d\mathbf{Y}$
	$d(\mathbf{X}\mathbf{Y}) =$	$(d\mathbf{X})\mathbf{Y}+\mathbf{X}(d\mathbf{Y})$
(Kronecker乘積)	$d(\mathbf{X} \otimes \mathbf{Y}) =$	$(d\mathbf{X})\otimes\mathbf{Y}+\mathbf{X}\otimes(d\mathbf{Y})$
(Hadamard 乘積)	$d(\mathbf{X} \circ \mathbf{Y}) =$	$(d\mathbf{X})\circ\mathbf{Y}+\mathbf{X}\circ(d\mathbf{Y})$
	$d(\mathbf{X}^\top) =$	$(d\mathbf{X})^\top$
(共軛轉置)	$d(\mathbf{X}^{\rm H}) =$	$(d\mathbf{X})^{\rm H}$

爲了轉換到標準的導數形式，首先需要轉換成以下規範的形式，然後在使用這些identities：

從微分的導數形式的轉換 ^[1]
規範的微分形式	等效的導數形式
$dy = a\,dx$	$\frac{dy}{dx} = a$
$dy = \mathbf{a}\,d\mathbf{x}$	$\frac{dy}{d\mathbf{x}} = \mathbf{a}$
$dy = {\rm tr}(\mathbf{A}\,d\mathbf{X})$	$\frac{dy}{d\mathbf{X}} = \mathbf{A}$
$d\mathbf{y} = \mathbf{a}\,dx$	$\frac{d\mathbf{y}}{dx} = \mathbf{a}$
$d\mathbf{y} = \mathbf{A}\,d\mathbf{x}$	$\frac{d\mathbf{y}}{d\mathbf{x}} = \mathbf{A}$
$d\mathbf{Y} = \mathbf{A}\,dx$	$\frac{d\mathbf{Y}}{dx} = \mathbf{A}$

七、See also

八、符號介紹

Minka, Thomas P. "Old and New Matrix Algebra Useful for Statistics." December 28, 2000. [1]
^ Jump up to:^a ^b Magnus, Jan R.; Neudecker, Heinz (1999). Matrix Differential Calculus with Applications in Statistics and Econometrics. Wiley Series in Probability and Statistics (2nd ed.). Wiley. pp. 171–173.
Jump up^ [2]
^ Jump up to:^a ^b ^c Here, $\mathbf{0}$ 表示一個充滿0的n維列向量,這裏n是x的長度
^ Jump up to:^a ^b Here, $\mathbf{0}$ 表示一個充滿0的矩陣，和X.有着一樣的shape。
^ Jump up to:^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p Petersen, Kaare Brandt and Michael Syskind Pedersen. The Matrix Cookbook. November 14, 2008.http://matrixcookbook.com. [3] 該書使用混合佈局，即在 $\frac{\partial \mathbf{Y}}{\partial x},$ 中使用Y，在 $\frac{\partial y}{\partial \mathbf{X}}.$ 中使用X。
Jump up^ Duchi, John C. "Properties of the Trace and Matrix Derivatives" (PDF). University of California at Berkeley. Retrieved 19 July 2011.
Jump up^ See Determinant#Derivative for the derivation.
Jump up^ The constant a disappears in the result. This is intentional. In general,
$\frac{d\,\ln au}{dx} = \frac{1}{au}\frac{d(au)}{dx} = \frac{1}{au}a\frac{du}{dx} = \frac{1}{u}\frac{du}{dx} = \frac{d\,\ln u}{dx}.$

自變量：自變量是指研究者主動操縱，而引起因變量發生變化的因素或條件，因此自變量被看作是因變量的原因。自變量有連續變量和類別變量之分。如果實驗者操縱的自變量是連續變量，則實驗是函數型實驗。如實驗者操縱的自變量是類別變量，則實驗是因素型的。--來自好搜百科

九、參考資料：

[1] Linear Algebra: Determinants, Inverses, Rank appendix D from Introduction to Finite Element Methods book on University of Colorado at Boulder. Uses theHessian (transpose to Jacobian) definition of vector and matrix derivatives.

[2] Matrix Reference Manual, Mike Brookes, Imperial College London.

[3] The Matrix Cookbook (2006), with a derivatives chapter. Uses the Hessian definition.

[4] The Matrix Cookbook (2012), an updated version of the Matrix Cookbook.

[5] Linear Algebra and its Applications (author information page; see Chapter 9 of book), Peter Lax, Courant Institute.

[6] Matrix Differentiation (and some other stuff), Randal J. Barnes, Department of Civil Engineering, University of Minnesota.

[7] Notes on Matrix Calculus, Paul L. Fackler, North Carolina State University.

[8] Matrix Differential Calculus (slide presentation), Zhang Le, University of Edinburgh.

[9] Introduction to Vector and Matrix Differentiation (notes on matrix differentiation, in the context of Econometrics), Heino Bohn Nielsen.

[10] A note on differentiating matrices (notes on matrix differentiation), Pawel Koval, from Munich Personal RePEc Archive.

[11] Vector/Matrix Calculus More notes on matrix differentiation.

[12] Matrix Identities (notes on matrix differentiation), Sam Roweis.

[13] http://www.psi.toronto.edu/matrix/intro.html#Intro

[14] http://www.psi.toronto.edu/matrix/calculus.html

[15]http://www.stanford.edu/~dattorro/matrixcalc.pdf

[16] http://www.colorado.edu/engineering/CAS/courses.d/IFEM.d/IFEM.AppD.d/IFEM.AppD.pdf

[17] http://center.uvt.nl/staff/magnus/wip12.pdf

[18] 新浪博客 http://blog.sina.com.cn/s/blog_61c0518f0100f6wu.html

[19] 維基百科https://en.wikipedia.org/wiki/Matrix_calculus#Numerator-layout_notation