LESSON 2
這一節課很簡單,就是我們在中學中學習的均值,中位數,衆數,這些概念主要是在上一節課中學到的數值數據這一分類中進行的。
下面把這些概念讓我們再回顧一遍吧!
分析數值數據
數值數據的四個方面
分析數值數據有四個主要方面
- Center 集中趨勢測量
- Spread 離散程度測量
- Shape 數據的形狀
- Outliers 異常值
分析分類數據
儘管視頻中並未討論,但分析分類數據要考慮的部分較少。分類數據的分析方法通常是查看落入每個組的獨立個體的數量或比例。例如,如果我們在看狗的品種,我們會關心每個品種有多少隻狗,或者每個品種的狗的比例如何。
集中趨勢測量
集中趨勢測量的方式有三種:
Center 集中趨勢測量:
- Mean 均值
- Median 中位數
- Mode 衆數
均值
均值在數學中通常稱爲平均數或預期值。我們通過將所有值相加,然後除以數據集中所有測量值的個數來計算均值。如 1,4,6,7,2的均值爲 4 .
中位數
中位數將我們的數據分爲兩部分,一半低於它,一半高於它。如何計算中位數取決於我們有偶數個還是奇數個觀察值。
奇數個值的中位數
如果我們有奇數個觀察值,中位數直接是中間的那個數字。例如,如果我們有 7 個觀察值並按從小到大排列,則中位數是第四個值。如果我們有 9 個觀察值,則中位數是第五個值。
偶數個值的中位數
如果我們有偶數個觀察值,中位數是中間兩個值的平均值。例如,如果我們有 8 個觀察值並從小到大排列,則計算第四和第五個值的平均值。
要計算中位數,我們必須首先對值排序。
我們使用平均數還是中位數來描述數據集,很大程度上取決於我們數據集的 形狀 以及是否有任何 異常值 。
衆數
衆數指一組數據中出現次數最多的數據值。
一個數據集中可能有多個衆數,也可能沒有衆數。
無衆數
如果數據集中的所有值出現的頻數相同,則不存在衆數。如果我們有一組數據集:
1, 1, 2, 2, 3, 3, 4, 4
則沒有衆數,因爲所有觀察值發生的次數相同。
多個衆數
如果兩個(或多個)數字出現的次數都是最多的,則有多個衆數。如果我們有一組數據集:
1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8, 9
其中有兩個衆數 3 和 6,因爲這兩個值都出現了三次,出現頻率最高,而其他的值都只出現了一次。