統計學元知識(從一到全部)

1.什麼是統計學

原始理解:通過樣本去估計總體,無論是點/區間估計、假設檢驗、方差分析還是線性迴歸。
樣本 → 總體 
課本定義:
①一門收集分析、表述和解釋數據的科學
②一組方法,用來設計實驗、獲得數據,然後在數據的基礎上組織、概括、演示、分析、解釋和得出結論。

2.概率論和統計學的關係



3.爲什麼要用統計學

總體數據相對比較難獲取,有時候也沒有必要獲取。

①統計分析是數據到結論的必經之路,大數據亦需要抽樣(ETL???
②統計是統計學習的基礎,如KNN、樸素貝葉斯、決策樹。

4.大數據時代,統計學的意義在哪兒?

〇提供相關性的依據??
①提供數據挖掘方法的理論支撐
②提供從數據到規律的路徑
③提供數據處理的理論支撐(描述統計的統計)
④大數據不一定等於總體(時間),樣本估計總體還用的上。


5.基礎概念一覽

類型
統計量
基本統計量
均值、中位數、衆數、百分位數、極值等
其他描述性統計量
偏度、方差、標準差、顯著性等
其他統計知識
總體和樣本、參數和統計量、ErrorBar
概率分佈與假設檢驗
各種分佈、假設檢驗流程
其他概率論知識
條件概率、貝葉斯

抽樣分佈
one
 all
t分佈
小樣本的均值分佈

卡方分佈
符合正太分佈統計量的平方和
卡方檢驗:獨立性、擬合優度
F分佈
兩個卡方分佈均值的比值
同質性檢驗||多因素方差分析,組間/組內


理論分佈
one
all
自然分佈
自然啊
X-μ/σ(扶正)
二項分佈
事件結果只有成功/失敗
感情趣的是成功X次的概率是多少

泊松分佈
事件獨立
任意相同時間範圍,事件發生概率相同
想知道的是某個時間範圍內,發生X次的概率
假設服從,進行卡方檢驗

幾何分佈
感興趣的是第N次會成功的概率
前X-1次失敗,第X次成功得概率
超幾何分佈
N種有M類,取n個,會有k個類的概率。
不放回抽樣


基礎概念
one
all
統計學
描述統計和推理統計
數據的收集整理,總體估計和檢驗
描述統計
統計數據的收集整理、顯示和分析
箱線圖、頻數分佈、列聯表 tag
均值
算術、幾何、均方根、調和平均值

偏差
和均值之差的和的均值((x-μ)+...+(xn-un))/n
無法正確反映和均值的離散程度,正負抵消
方差
和均值之差的平方和的均值
離散程度、但是程度擴大,因爲進行了平方操作
標準差
和均值之差的平方和的開方的均值
離散程度最爲準確
正態分佈
自然分佈
Z分佈,±1.96
中心極限定理
當樣本或者實驗次數接近無窮,其分佈近似正態分佈
均值爲樣本均值μ
方差爲(σ^2)/n,σ爲樣本方差
推理統計
總體估計和檢驗
就是描述統計+概率論。均值、方差加上
估計
通過樣本統計量估計總體參數

評價估計量的標準
無偏性、有效性、一致性(分佈往參數靠)
無偏:估計量的期望=參數
有效性:期望分佈的方差,不同估計量
一致性:期望分佈的方差,不同樣本量
點估計
利用樣本均值、方差估計總體均值方差
極大似然估計、最小二乘估計?
區間估計
點估計 + 分佈
大樣本的Z分佈Z=(X-μ )/ σ(s)/N
小樣本的t分佈t = (X-μ )/S/√(N-1)
爲求方差構造的卡方分佈量:(n-1)S2/σ2
(x-μ)/σ服從正太分佈(即轉標準正態分佈) 其平方和服從卡方分佈。結果就是S2*(n-1)/σ2 服從卡方分佈
∴構造的統計量服從正太分佈
Z分佈
正態分佈、自然分佈
±1.96,大樣本、小樣本(方差已知)
t分佈
小樣本的均值分佈
只爲小樣本
卡方分佈
符合正態分佈的統計量平方和服從
卡方檢驗:獨立性、擬合優度(觀察值、預期)
F分佈
符合卡方檢驗得變量比值
方差分析(單因素、有無交互作用)、單尾檢驗
統計獨立性
過程互不影響
統計獨立必不相關
統計相關性
過程相互影響

假設檢驗
給個假設
驗證假設
結論(拒絕原假設、無法拒絕原假設)
方差分析,假設均值都相等(無顯著變化)。
獨立性檢驗
卡方檢驗的一種,通過樣本求出獨立比例的期望值。
檢驗觀察值和期望值是否服從同一分佈

方差分析
多個總體的兩輛檢驗,t檢驗不好用了
方差分析,可以給你維持原顯著水平的一次性檢驗
齊性檢驗
單因素
雙因素
有交互作用

 

Q&A:

1.探索性分析
2.驗證性和探索性因子分析
3.卡方檢驗的要求
4.ETL是什麼東東,爲什麼需要抽樣?

卡方檢驗的樣本量要求

  卡方分佈本身是連續型分佈,但是在分類資料的統計分析中,顯然頻數只能以整數形式出現,因此計算出的統計量是非連續的。只有當樣本量比較充足時,纔可以忽略兩者問的差異,否則將可能導致較大的偏差具體而言,一般認爲對於卡方檢驗中的每一個單元格,要求其最小期望頻數均大於1,且至少有4/5的單元格期望頻數大於5,此時使用卡方分佈計算出的概率值纔是準確的。如果數據不符合要求,可以採用確切概率法進行概率的計算。

自說自話(bajibaji)


0.正態分佈,線性變換n倍後的均值和n個獨立變量的均值(x→nx+b  nE(x)、a2σ)(nE(x)、nσ2)
1.兩個正態總體的疊加,結果還是正態分佈。(其變量相互獨立)
2.F分佈的應用,方差分析、兩個總體方差的比值
3.擬合優度檢驗是什麼?卡方檢驗的一種,單因素擬合檢驗。雙因素列聯表分析。
3.5列聯表分析和方差分析有何不同?方差分析????
4.迴歸分析,若樣本比較小呢,需要進行非不相關t檢驗,若多元,F檢驗
5.泊松分佈,離散分佈,極限是正態分佈
6.可以用正態分佈近似二項分佈,當N足夠大的時候。(np>10,nq>10)
7.泊松分佈亦同。
8.大數據往往意味着有大偏差
9.樣本隨機抽取很重要
10抽樣誤差
11.非抽樣誤差、不迴應誤差、響應誤差
12.效度:實際關聯 信度:真實,可重複
13.大數據也要抽樣啊,ETL啥的
14.均值&中位數,均衡量數據的中間水平,但差別可能較大。
15可視化工具power python spss stata minitab  excel
16.時間序列預測:ARIMA模型、自迴歸積分滑動平均模型
17.齊性檢驗、(有)無交互ANOVA
18分類數據種的成對數據,可以通過系統差異和個體差異來衡量數據具體的變化RP\RV(SVENSSON METHOD)
19.貝葉斯公式、先驗和後驗概率的轉換


理論分佈關係:








發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章