彙總統計——起源與設計

這篇文章主要是探討標準差、方差、協方差、相關係數的設計思路。閱讀這篇文章之前，你要先知道上述指標的計算公式，知道什麼是隨機變量。
如果你對於知道”是什麼“感到不滿足，而想知道”爲什麼“，是個喜歡”鑽牛角尖“的人，那可以讀一讀這篇文章。

常見的統計指標

概率分佈：直方圖、概率表
位置度量：均值、中位數
散度度量：極差、方差
多元比較：相關係數、協方差矩陣
模型評估：準確率、召回率

通用的設計原則

用單個數或者數的小集合（較少的數據），反應更大的數據集的各種特徵
效果：在數據處理過程中，肯定是會有部分損失，但少即是多，這樣做可以使得某方面的信息更加突出，更能幫助理解數據的含義，而不是陷入海量數據中

標準差

目的

需要一個指標來衡量數據集合的發散性、散度，也就是數據波動幅度的大小。

思考過程

每個樣本的偏差累加就可以衡量
偏差較大的值應具有更大的權重，期望方便計算
集合中數字越多，方差越大，應該與集合大小無關
量綱與原始數據不同，不方便比較
最終結果，RMSE

設計過程

方式一：計算每個樣本和均值的距離（差值）的大小（絕對值），然後都加起來。這樣滿足了“整體”和“幅度”。
$\sum |real\, num - mean|$
這樣一來就能區別一些數據的散度，我們舉一個例子來使用一下這個公式。
例：5次約會，每次遲到10分鐘與5次準時，但一次遲到六十分鐘。
$x_1 = \{ 10,10,10,10,10\} \\x_2 = \{0,0,0,0,50\}$

進一步的期望：此時我們希望加大不常出現的、波動幅度大的節點的重要性，減少常出現的、波動幅度小的節點的重要性。人們對經常發生的，但不是特別大的波動容忍度高，對不經常發生的、突然波動特別大的情況，容忍度低。我們希望能這個衡量散度的指標能給我們一個衡量數據能否接受的建議。增大數值可以倍乘也可以乘方，乘方的增大效果更強，並且偶次方可以保證數值恆爲正數。不妨使用二次方（後文會提到乘幾次方，爲了保證量綱一致，還要開方，二次方開方還好算一點），於是提出方式二：將方式一的計算值平方。
$\sum (real\, num - mean)^2$
但是在數據集規模不一樣的時候，方式二所計算的波動性會和數據集的大小有關，這是不符合散度這個指標的設計初衷的。

爲了消除數量對結果的影響，可以除去樣本個數，於是有方式二—1：
$Mean(\sum (real\, num - mean)^2)$
這樣得到的結果在實際的應用場景中會產生一些不符合的情況，因爲數據平方後量綱發生變化，不能和原始直接做比較，所以還要再開方來得到同樣量綱的數字，於是有方式二—2：
$\sqrt{(Mean(\sum (real\, num - mean)^2))}$
用方式二—2計算上述例子，得到結果：
$s_1 = 0\,\,\,\,\,\,\,\,\,s_2 = 20$
同時考慮方式一，並且加上平均的操作，也能得到一個結果：
$s_1^{'} = 0 \,\,\,\,\,\,\,\,\, s_2^{'} = 16$
可以看到對同樣的數據，方式二—2將結果放大了。

協方差&相關係數（兩個變量的相關性）

目的

相關性可以理解爲，兩個變量在變化過程中是同方向變化，還是反方向變化，還是都沒有。
------------------------------變量分爲連續型隨機變量和離散型隨機變量，這裏只討論兩個連續型隨機變量的相關性。

思考模式

帶入到具體的場景中思考：

如果兩個變量完全相關，數據應該是什麼樣
如果兩個變量完全無關，數據應該是什麼樣
對於1和2，怎麼表達這種相關與否的信息

通過觀察，發現

也就是得到一個 $“正”+“正”+“正”+“正”+“正”+“正”+……=“正”$ 的效果。爲了消除數據個數對結果的影響，接下來再除以數據個數。
上述是兩個變量正相關的情況。負相關的時候，乘積是負值。