1.什麼是統計學
2.概率論和統計學的關係
3.爲什麼要用統計學
4.大數據時代,統計學的意義在哪兒?
5.基礎概念一覽
類型 | 統計量 |
基本統計量 | 均值、中位數、衆數、百分位數、極值等 |
其他描述性統計量 | 偏度、方差、標準差、顯著性等 |
其他統計知識 | 總體和樣本、參數和統計量、ErrorBar |
概率分佈與假設檢驗 | 各種分佈、假設檢驗流程 |
其他概率論知識 | 條件概率、貝葉斯 |
理論分佈 | one | all |
自然分佈 | 自然啊 | X-μ/σ(扶正) |
二項分佈 | 事件結果只有成功/失敗 感情趣的是成功X次的概率是多少 | |
泊松分佈 | 事件獨立 任意相同時間範圍,事件發生概率相同 想知道的是某個時間範圍內,發生X次的概率 | 假設服從,進行卡方檢驗 |
幾何分佈 | 感興趣的是第N次會成功的概率 | 前X-1次失敗,第X次成功得概率 |
超幾何分佈 | N種有M類,取n個,會有k個類的概率。 不放回抽樣 |
基礎概念 | one | all |
統計學 | 描述統計和推理統計 | 數據的收集整理,總體估計和檢驗 |
描述統計 | 統計數據的收集整理、顯示和分析 | 箱線圖、頻數分佈、列聯表 tag |
均值 | 算術、幾何、均方根、調和平均值 | |
偏差 | 和均值之差的和的均值((x-μ)+...+(xn-un))/n | 無法正確反映和均值的離散程度,正負抵消 |
方差 | 和均值之差的平方和的均值 | 離散程度、但是程度擴大,因爲進行了平方操作 |
標準差 | 和均值之差的平方和的開方的均值 | 離散程度最爲準確 |
正態分佈 | 自然分佈 | Z分佈,±1.96 |
中心極限定理 | 當樣本或者實驗次數接近無窮,其分佈近似正態分佈 | 均值爲樣本均值μ 方差爲(σ^2)/n,σ爲樣本方差 |
推理統計 | 總體估計和檢驗 | 就是描述統計+概率論。均值、方差加上 |
估計 | 通過樣本統計量估計總體參數 | |
評價估計量的標準 | 無偏性、有效性、一致性(分佈往參數靠) | 無偏:估計量的期望=參數 有效性:期望分佈的方差,不同估計量 一致性:期望分佈的方差,不同樣本量 |
點估計 | 利用樣本均值、方差估計總體均值方差 | 極大似然估計、最小二乘估計? |
區間估計 | 點估計 + 分佈 | 大樣本的Z分佈Z=(X-μ )/ σ(s)/√N 小樣本的t分佈t = (X-μ )/S/√(N-1) 爲求方差構造的卡方分佈量:(n-1)S2/σ2 ∵(x-μ)/σ服從正太分佈(即轉標準正態分佈) 其平方和服從卡方分佈。結果就是S2*(n-1)/σ2 服從卡方分佈 ∴構造的統計量服從正太分佈 |
Z分佈 | 正態分佈、自然分佈 | ±1.96,大樣本、小樣本(方差已知) |
t分佈 | 小樣本的均值分佈 | 只爲小樣本 |
卡方分佈 | 符合正態分佈的統計量平方和服從 | 卡方檢驗:獨立性、擬合優度(觀察值、預期) |
F分佈 | 符合卡方檢驗得變量比值 | 方差分析(單因素、有無交互作用)、單尾檢驗 |
統計獨立性 | 過程互不影響 | 統計獨立必不相關 |
統計相關性 | 過程相互影響 | |
假設檢驗 | 給個假設 驗證假設 結論(拒絕原假設、無法拒絕原假設) | 方差分析,假設均值都相等(無顯著變化)。 |
獨立性檢驗 | 卡方檢驗的一種,通過樣本求出獨立比例的期望值。 檢驗觀察值和期望值是否服從同一分佈 | |
方差分析 | 多個總體的兩輛檢驗,t檢驗不好用了 方差分析,可以給你維持原顯著水平的一次性檢驗 | 齊性檢驗 單因素 雙因素 有交互作用 |