協方差、協方差矩陣

在機器學習中,理解協方差矩陣的關鍵在於牢記它計算的是同一個樣本不同特徵維度之間的協方差,而不是不同樣本之間。

拿到樣本矩陣之後,我們首先要明確一行是樣本還是特徵維度。
一般來說,樣本矩陣中一行是一個樣本,一列爲一個特徵維度。所以要按列計算均值(期望),再按行計算出協方差矩陣,把每一行的協方差矩陣相加再除以行數(即樣本數),得到樣本矩陣的協方差矩陣

在這裏插入圖片描述

一、協方差

在這裏插入圖片描述
從公式上看,協方差是兩個變量與自身期望做差再相乘,然後對乘積取期望。
也就是說,當其中一個變量的取值大於自身期望,另一個變量的取值也大於自身期望時,即兩個變量的變化趨勢相同,此時,兩個變量之間的協方差取正值。
反之,即其中一個變量大於自身期望時,另外一個變量小於自身期望,那麼這兩個變量之間的協方差取負值。
協方差的正負性反映了兩個變量的變化趨勢是否一致。

二、協方差矩陣

在現實生活中,我們在描述一個物體時,並不會單單從一個或兩個維度去描述,比如說,在描述一個學生的學習成績時,就會從他的語文、數學、英語、物理、化學等等很多個維度去描述。在進行多維數據分析時,不同維度之間的相關程度就需要協方差矩陣來描述,維度之間的兩兩相關程度就構成了協方差矩陣,而協方差矩陣主對角線上的元素即爲每個維度上的數據方差。
協方差矩陣必然是一個實對稱矩陣,其主對角線元素爲方差,其餘爲協方差。
在這裏插入圖片描述

三、協方差矩陣的線性變換

協方差代表了不同維度之間的相關關係,如果說某些維度之間沒有相關關係,則協方差爲0,那麼,以2維數據爲例,我們來看一下,當不同維度之間數據沒有相關關係時,即協方差矩陣爲單位陣時,數據分佈的整體形狀。
**加粗樣式**
當數據協方差矩陣爲單位陣時,該組數據被稱爲白數據,白數據在很多場合都有應用,比如在數據傳輸加密中,將原始數據轉化成白數據,切斷不同維度之間的關聯關係,在訪問數據時,再對數據進行解密。現在我們一起來看一下,怎麼將白數據轉化成真實觀察數據的線性變換。

M表示變換後得到的數據,D來表示白數據:
在這裏插入圖片描述

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章