統計學原理之描述性統計——開篇

緣由:

學習筆記的起始緣由:遇到了一個活躍的學習小組,學習內容又是一直想學而且想用好的領域。

學習內容大綱如下:
在這裏插入圖片描述

第一週學習內容——描述性統計

知識點如下:

  1. 數據集中趨勢:
    • 中位數、均值、衆數、極差、分位數
    • 算數平均數、加權平均數、幾何平均數
  2. 數據的離中趨勢:
    • 數值型數據:方差、標準差、極差、平均差
    • 分類型數據:異衆比率
    • 順序型數據:四分位差
  3. 相對離散程度:離散係數
  4. 分佈的形狀:偏態係數、峯態係數

個人學習總結

part1 概念體系

描述性統計可以進行四個維度的分析:分佈分析、對比分析、構成分析、相關性分析。

part2 概念定義和主要用途

2.1分佈分析:

  1. 算數平均數:

    定義:數據簡單加和除以數據個數
    優點:考慮了每一個數據的作用
    缺點:數據量小時,容易受極端值影響
    應用場景: 所有權重相等的,彙總結果爲加和形式的,求平均水平的場景

  2. 加權平均數:
    定義:給每個數據項特定的權重,再求均值
    優點:可以結合先驗的經驗/相對的比重,人工設定數據項的影響力
    缺點:先驗經驗可能不準確
    應用場景: 各種指數的計算(價格指數、上證指數等)

  3. 幾何平均數:
    定義:所有數據相乘之後再開方
    優點:相比算數平均,受極端值影響較小
    缺點:若變量有負值,則幾何平均就會成爲複數或者虛數;若數值中有0,則算數平均爲0
    應用場景: 當彙總結果爲乘積的形式時

  4. 中位數:
    定義:按照大小排序,位於中間的一個數/兩個數的均值
    優點:不易受極端值的影響
    缺點:當數據比較離散時,則中位數意義不大;當數據分佈偏態時,中位數代表性會受影響
    應用場景: 未知~~

  5. 衆數:
    定義:出現次數最多的數
    優點:不易受數據中極端數值的影響
    缺點:當數據呈多峯分佈時,沒有代表性
    應用場景:

  6. 四分位數:
    定義:把數據集排序後分成四等分,位於分位線上的數
    優點:可以識別出數據大致分佈情況(箱線圖)
    缺點:無法瞭解到比25%更小的顆粒度數據分佈情況
    應用場景: 箱線圖(五數概括法)

  7. 極差:
    定義:全距,最大值減去最小值,總體標準差的有偏估計
    優點:計算簡單;瞭解數據分大致分佈
    缺點:顆粒度比四分數大;受極端值影響
    應用場景: 比賽成績,去掉最高分和最低分

  8. 方差:
    定義:每個數與均值之差的平方和,反映總體離散程度,自由度爲n-1
    優點:可以衡量樣本離均值離散程度
    缺點:方差的度量和樣本均值的度量不一致,無法直接比較
    應用場景:

  9. 標準差:
    定義:每個數與均值之差的平方和的開方,反映總體離散程度,自由度爲n-1
    優點:可以直觀的瞭解到偏差的程度,和均值是同一量綱
    缺點:不能對比不同項目/同一項目不同樣本,因爲量綱不一樣(1單位的方差意義不同)
    應用場景:

  10. 異衆比率:
    定義:非衆數頻數除以總數,聚焦在衆數的代表程度
    優點:可算分類數據
    缺點:離散程度不可知
    應用場景:

  11. 四分位差:
    定義:四分位距,也叫內距,IRQ = Q3-Q1(Inter-quartile range)
    優點:不受兩端各25%數值的影響;可衡量中間50%數值的差異程度;聚焦的是中位數代表性
    缺點:不能反映所有數值的離散程度
    應用場景: 異常值檢測[Q1-1.5* IQR,Q3+1.5* IQR]

  12. 離散係數:
    定義:變異係數,標準差的歸一化操作。C.V = σ/X (X代表均值)
    優點:無量綱,可以直接比較不同項目,係數越大的代表分佈越離散
    缺點:均值接近0時,標準差的微小變動會造成係數較大波動,從而造成精確度不足;變異係數無法發展出類似均值的置信區間的工具。(還沒弄懂)
    應用場景: 更新理論、排隊理論、可靠性理論

  13. 偏態係數:
    定義:偏差係數,sk = (X-M)/σ X是均值,M是中位數,σ是方差;①左偏:均值小於中位數(因爲數據存在極小值,將均值帶小了。即極小值附近有長尾,峯在右側),偏態係數小於0;②右偏:均值大於中位數(因爲數據存在極大值,將均值帶大了。即極大值附近有長尾,峯在左側),偏態係數大於0;③對稱:均值等於中位數,等於衆數。絕對值越大,偏斜程度越大。
    優點:可以衡量數據的偏斜程度
    缺點:非單峯分佈不能使用?(不十分確定)
    應用場景:


2.2對比分析:

  1. 同比:
    定義:同比上一個週期的同一時期
    優點:可有效比較有週期性規律的數據變化
    缺點:
    應用場景:
  2. 環比:
    定義:環比上一個時期
    優點:方便比較相鄰兩期數據的變化;多期環比可做長期分析
    缺點:
    應用場景:
  3. 定基比:
    定義:相比固定時期
    優點:可公平比較多期數據;把握現象發展的長期趨勢和宏觀狀態
    缺點:
    應用場景:
  4. 硬剛比:
    定義:橫向比較,直接相除:A/B
    優點:可方便觀察相對關係
    缺點:未考察時間維度和其它因素
    應用場景:

2.3相關性分析:

  1. 皮爾森係數:
    定義:ρx,y = cov(X,Y)/(σ1* σ2)
    優點:
    缺點:
    應用場景:R2 線性擬合程度
  2. 斯皮爾曼係數:
    定義:ρ = 1 - (6∑di2)/(n3* n) d爲兩列對等變量等級差;n爲等級個數
    優點:可計算非數值型數據的相關性,無需總體正態假設
    缺點:
    應用場景:
  3. 最大信息係數:
    定義:待定,還不知道是啥,也不知道能不能用,百度百科未收錄
    優點:
    缺點:
    應用場景:

part3 代碼實現

對應公式:
可視化圖表:
分佈、對比、構成、相關(聯繫)

最後感謝學習小組組織者——木東居士:

另外可見:
統計學原理之描述性統計——開篇

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章