本文來自《動手學習深度學習》附錄
本文總結了本書中涉及的有關線性代數、微分和概率的基礎知識。
線性代數
下面分別概括了向量、矩陣、運算、範數、特徵向量和特徵值的概念。
向量
本書中的向量指的是列向量。一個維向量的表達式可寫成
其中是向量的元素。我們將各元素均爲實數的維向量記作或。
矩陣
一個行列矩陣的表達式可寫成
其中是矩陣中第行第列的元素()。我們將各元素均爲實數的行列矩陣記作。不難發現,向量是特殊的矩陣。
運算
設維向量中的元素爲,維向量中的元素爲。向量與的點乘(內積)是一個標量:
設兩個行列矩陣
矩陣的轉置是一個行列矩陣,它的每一行其實是原矩陣的每一列:
兩個相同形狀的矩陣的加法是將兩個矩陣按元素做加法:
我們使用符號表示兩個矩陣按元素做乘法的運算:
定義一個標量。標量與矩陣的乘法也是按元素做乘法的運算:
其他諸如標量與矩陣按元素相加、相除等運算與上式中的相乘運算類似。矩陣按元素開根號、取對數等運算也就是對矩陣每個元素開根號、取對數等,並得到和原矩陣形狀相同的矩陣。
矩陣乘法和按元素的乘法不同。設爲行列的矩陣,爲行列的矩陣。兩個矩陣相乘的結果
是一個行列的矩陣,其中第行第列()的元素爲
範數
設維向量中的元素爲。向量的範數爲
例如,的範數是該向量元素絕對值之和:
而的範數是該向量元素平方和的平方根:
我們通常用指代。
設是一個行列矩陣。矩陣的Frobenius範數爲該矩陣元素平方和的平方根:
其中爲矩陣在第行第列的元素。
特徵向量和特徵值
對於一個行列的矩陣,假設有標量和非零的維向量使
那麼是矩陣的一個特徵向量,標量是對應的特徵值。
微分
我們在這裏簡要介紹微分的一些基本概念和演算。
導數和微分
假設函數的輸入和輸出都是標量。函數的導數
且假定該極限存在。給定,其中和分別是函數的自變量和因變量。以下有關導數和微分的表達式等價:
其中符號和也叫微分運算符。常見的微分演算有(爲常數)、(爲常數)、、等。
如果函數和都可導,設爲常數,那麼
如果和都是可導函數,依據鏈式法則,
泰勒展開
函數的泰勒展開式是
其中爲函數的階導數(求次導數),爲的階乘。假設是一個足夠小的數,如果將上式中和分別替換成和,可以得到
由於足夠小,上式也可以簡化成
偏導數
設爲一個有個自變量的函數,,它有關第個變量的偏導數爲
以下有關偏導數的表達式等價:
爲了計算,只需將視爲常數並求有關的導數。
梯度
假設函數的輸入是一個維向量,輸出是標量。函數有關的梯度是一個由個偏導數組成的向量:
爲表示簡潔,我們有時用代替。
假設是一個向量,常見的梯度演算包括
類似地,假設是一個矩陣,那麼
海森矩陣
假設函數的輸入是一個維向量,輸出是標量。假定函數所有的二階偏導數都存在,的海森矩陣是一個行列的矩陣:
其中二階偏導數
概率
最後,我們簡要介紹條件概率、期望和均勻分佈。
條件概率
假設事件和事件的概率分別爲和,兩個事件同時發生的概率記作或。給定事件,事件的條件概率
也就是說,
當滿足
時,事件和事件相互獨立。
期望
離散的隨機變量的期望(或平均值)爲
均勻分佈
假設隨機變量服從上的均勻分佈,即。隨機變量取和之間任意一個數的概率相等。