彙總統計——起源與設計
這篇文章主要是探討標準差、方差、協方差、相關係數的設計思路。閱讀這篇文章之前,你要先知道上述指標的計算公式,知道什麼是隨機變量。
如果你對於知道”是什麼“感到不滿足,而想知道”爲什麼“,是個喜歡”鑽牛角尖“的人,那可以讀一讀這篇文章。
常見的統計指標
概率分佈:直方圖、概率表
位置度量:均值、中位數
散度度量:極差、方差
多元比較:相關係數、協方差矩陣
模型評估:準確率、召回率
通用的設計原則
用單個數或者數的小集合(較少的數據),反應更大的數據集的各種特徵
效果:在數據處理過程中,肯定是會有部分損失,但少即是多,這樣做可以使得某方面的信息更加突出,更能幫助理解數據的含義,而不是陷入海量數據中
標準差
目的
需要一個指標來衡量數據集合的發散性、散度,也就是數據波動幅度的大小。
思考過程
- 每個樣本的偏差累加就可以衡量
- 偏差較大的值應具有更大的權重,期望方便計算
- 集合中數字越多,方差越大,應該與集合大小無關
- 量綱與原始數據不同,不方便比較
- 最終結果,RMSE
設計過程
方式一:計算每個樣本和均值的距離(差值)的大小(絕對值),然後都加起來。這樣滿足了“整體”和“幅度”。
這樣一來就能區別一些數據的散度,我們舉一個例子來使用一下這個公式。
例:5次約會,每次遲到10分鐘與5次準時,但一次遲到六十分鐘。
進一步的期望:此時我們希望加大不常出現的、波動幅度大的節點的重要性,減少常出現的、波動幅度小的節點的重要性。人們對經常發生的,但不是特別大的波動容忍度高,對不經常發生的、突然波動特別大的情況,容忍度低。我們希望能這個衡量散度的指標能給我們一個衡量數據能否接受的建議。增大數值可以倍乘也可以乘方,乘方的增大效果更強,並且偶次方可以保證數值恆爲正數。不妨使用二次方(後文會提到乘幾次方,爲了保證量綱一致,還要開方,二次方開方還好算一點),於是提出方式二:將方式一的計算值平方。
但是在數據集規模不一樣的時候,方式二所計算的波動性會和數據集的大小有關,這是不符合散度這個指標的設計初衷的。
爲了消除數量對結果的影響,可以除去樣本個數,於是有方式二—1:
這樣得到的結果在實際的應用場景中會產生一些不符合的情況,因爲數據平方後量綱發生變化,不能和原始直接做比較,所以還要再開方來得到同樣量綱的數字,於是有方式二—2:
用方式二—2計算上述例子,得到結果:
同時考慮方式一,並且加上平均的操作,也能得到一個結果:
可以看到對同樣的數據,方式二—2將結果放大了。
協方差&相關係數(兩個變量的相關性)
目的
相關性可以理解爲,兩個變量在變化過程中是同方向變化,還是反方向變化,還是都沒有。
------------------------------變量分爲連續型隨機變量和離散型隨機變量,這裏只討論兩個連續型隨機變量的相關性。
思考模式
帶入到具體的場景中思考:
- 如果兩個變量完全相關,數據應該是什麼樣
- 如果兩個變量完全無關,數據應該是什麼樣
- 對於1和2,怎麼表達這種相關與否的信息
通過觀察,發現
也就是得到一個的效果。爲了消除數據個數對結果的影響,接下來再除以數據個數。
上述是兩個變量正相關的情況。負相關的時候,乘積是負值。
相關係數是協方差的進一步表示
首先提出相關係數的意義:剔除了兩個變量波動幅度的影響,將協方差標準化。
協方差存在的問題
上述兩種情況X,Y都是同向變化,具有極高的相似度,不僅同時大於或小於各自的均值,變大變小的趨勢也一樣。但是如果分別計算協方差,得到:
第一種情況:
第二種情況:
協方差差距很大,但是這不能說明兩種情況下,兩個變量的相關性就差很多(事實上應該是一樣的)。差別在於兩種情況下,X的變化幅度不同。那麼自然就需要消除變量變化幅度的影響。
改進
那變量的變化幅度是怎麼參與計算的呢?
在協方差的計算公式中,我們用來計算相關性,但回想在設計一個散度指標的時候,表示變化幅度,如果使用一個來表示一個"正",那麼會額外產生變量變化幅度的信息。
標準差描述了變量在整體變化過程中變量偏離均值的幅度。協方差除以標準差,也就會把協方差中變量變化幅度對協方差的影響剔除掉(這句話的邏輯目前不能像”累加之後,用平均來消除樣本數量對結果的影響“那樣理解),這樣協方差就標準化了,它反映的就是兩個變量每單位變化時的情況。
同時,可以從“性”上理解:如果X或Y的波動幅度變大,分子上的協方差會變大,但是分母上的標準差也會變大。於是相關係數只能在+1到-1之間變化(至於從”量“上的證明,目前還不能掌握,但是這種“消除影響用除”的思想是可以幫助理解公式的)
總結
對於兩個變量X,Y
當他們的相關係數爲1時,說明兩個變量變化時的正向相速度最大,即,你變大一倍,我也變大一倍;你變小一倍,我也變小一倍。也即是完全正相關(線性關係)。