Pearson(皮爾遜)相關係數
皮爾遜相關也稱爲積差相關(或積矩相關)是英國統計學家皮爾遜於20世紀提出的一種計算直線相關的方法。
假設有兩個變量X、Y,那麼兩變量間的皮爾遜相關係數可通過以下公式計算:
公式一:
公式二:
公式三:
公式四:
以上列出的四個公式等價,其中E是數學期望,cov表示協方差,N表示變量取值的個數。
Spearman Rank(斯皮爾曼等級)相關係數
Spearman Rank(斯皮爾曼等級)相關係數又稱等級相關係數,是將兩要素的樣本值按數據的大小順序排列位次,以各要素樣本值的位次代替實際數據而求得的一種統計量。它是反映等級相關程度的統計分析指標,
1.假設兩個隨機變量分別爲X、Y(也可以看做兩個集合),它們的元素個數均爲N,兩個隨即變量取的第i(1<=i<=N)個值分別用Xi、Yi表示。
2.對X、Y進行排序(同時爲升序或降序),其中元素xi、yi分別爲Xi在X中的排行以及Yi在Y中的排行。
3.將集合x、y中的元素對應相減得到一個排行差分集合d,其中di=xi-yi,1<=i<=N。
4.隨機變量X、Y之間的斯皮爾曼等級相關係數可以由x、y或者d計算得到,其計算方式如下所示:
由排行差分集合d計算而得(公式一):
以下是一個計算集合中元素排行的例子(僅適用於斯皮爾曼等級相關係數的計算)
這裏需要注意:當變量的兩個值相同時,它們的排行是通過對它們位置進行平均而得到的。
Kendall Rank(肯德爾等級)相關係數
在統計學中,肯德爾相關係數是以Maurice Kendall命名的,並經常用希臘字母τ(tau)表示其值。肯德爾相關係數是一個用來測量兩個隨機變量相關性的統計值。一個肯德爾檢驗是一個無參數假設檢驗,它使用計算而得的相關係數去檢驗兩個隨機變量的統計依賴性。肯德爾相關係數的取值範圍在-1到1之間,當τ爲1時,表示兩個隨機變量擁有一致的等級相關性;當τ爲-1時,表示兩個隨機變量擁有完全相反的等級相關性;當τ爲0時,表示兩個隨機變量是相互獨立的。
假設兩個隨機變量分別爲X、Y(也可以看做兩個集合),它們的元素個數均爲N,兩個隨即變量取的第i(1<=i<=N)個值分別用Xi、Yi表示。X與Y中的對應元素組成一個元素對集合XY,其包含的元素爲(Xi, Yi)(1<=i<=N)。當集合XY中任意兩個元素(Xi, Yi)與(Xj, Yj)的排行相同時(也就是說當出現情況1或2時;情況1:Xi>Xj且Yi>Yj,情況2:Xi<Xj且Yi<Yj),這兩個元素就被認爲是一致的。當出現情況3或4時(情況3:Xi>Xj且Yi<Yj,情況4:Xi<Xj且Yi>Yj),這兩個元素被認爲是不一致的。當出現情況5或6時(情況5:Xi=Xj,情況6:Yi=Yj),這兩個元素既不是一致的也不是不一致的。
這裏有三個公式計算肯德爾相關係數的值
公式一:
其中C表示XY中擁有一致性的元素對數(兩個元素爲一對);D表示XY中擁有不一致性的元素對數。
注意:這一公式僅適用於集合X與Y中均不存在相同元素的情況(集合中各個元素唯一)。
公式二:
注意:這一公式適用於集合X或Y中存在相同元素的情況(當然,如果X或Y中均不存在相同的元素時,公式二便等同於公式一)。
其中C、D與公式一中相同;
;;
N1、N2分別是針對集合X、Y計算的,現在以計算N1爲例,給出N1的由來(N2的計算可以類推):
將X中的相同元素分別組合成小集合,s表示集合X中擁有的小集合數(例如X包含元素:1 2 3 4 3 3 2,那麼這裏得到的s則爲2,因爲只有2、3有相同元素),Ui表示第i個小集合所包含的元素數。N2在集合Y的基礎上計算而得。
公式三:
注意:這一公式中沒有再考慮集合X、或Y中存在相同元素給最後的統計值帶來的影響。公式三的這一計算形式僅適用於用表格表示的隨機變量X、Y之間相關係數的計算(下面將會介紹)。
參數M稍後會做介紹。
以上都是圍繞用集合表示的隨機變量而計算肯德爾相關係數的,下面所講的則是圍繞用表格表示的隨機變量而計算肯德爾相關係數的。
通常人們會將兩個隨機變量的取值製作成一個表格,例如有10個樣本,對每個樣本進行兩項指標測試X、Y(指標X、Y的取值均爲1到3)。根據樣本的X、Y指標取值,得到以下二維表格(表1):
由表1可以得到X及Y的可以以集合的形式表示爲:
X={1, 1, 2, 2, 2, 2, 2, 3, 3, 3};
Y={1, 2, 1, 1, 2, 2, 3, 2, 3, 3};
得到X、Y的集合形式後就可以使用以上的公式一或公式二計算X、Y的肯德爾相關係數了(注意公式一、二的適用條件)。
當然如果給定X、Y的集合形式,那麼也是很容易得到它們的表格形式的。
這裏需要注意的是:公式二也可以用來計算表格形式表示的二維變量的肯德爾相關係數,不過它一般用來計算由正方形表格表示的二維變量的肯德爾相關係數,公式三則只是用來計算由長方形表格表示的二維變量的Kendall相關係數。這裏給出公式三中字母M的含義,M表示長方形表格中行數與列數中較小的一個。表1的行數及列數均爲三。