統計學元知識（從一到全部）

1.什麼是統計學

原始理解：通過樣本去估計總體，無論是點/區間估計、假設檢驗、方差分析還是線性迴歸。

樣本 → 總體

課本定義：

①一門收集分析、表述和解釋數據的科學。

②一組方法，用來設計實驗、獲得數據，然後在數據的基礎上組織、概括、演示、分析、解釋和得出結論。

2.概率論和統計學的關係

3.爲什麼要用統計學

總體數據相對比較難獲取，有時候也沒有必要獲取。

①統計分析是數據到結論的必經之路，大數據亦需要抽樣（ETL???）

②統計是統計學習的基礎，如KNN、樸素貝葉斯、決策樹。

4.大數據時代，統計學的意義在哪兒？

〇提供相關性的依據？？

①提供數據挖掘方法的理論支撐

②提供從數據到規律的路徑

③提供數據處理的理論支撐（描述統計的統計）

④大數據不一定等於總體（時間），樣本估計總體還用的上。

https://www.zhihu.com/question/20593064/answer/26200327

https://www.zhihu.com/people/primes/answers

5.基礎概念一覽

類型	統計量
基本統計量	均值、中位數、衆數、百分位數、極值等
其他描述性統計量	偏度、方差、標準差、顯著性等
其他統計知識	總體和樣本、參數和統計量、ErrorBar
概率分佈與假設檢驗	各種分佈、假設檢驗流程
其他概率論知識	條件概率、貝葉斯

抽樣分佈	one	all
t分佈	小樣本的均值分佈
卡方分佈	符合正太分佈統計量的平方和	卡方檢驗：獨立性、擬合優度
F分佈	兩個卡方分佈均值的比值	同質性檢驗\|\|多因素方差分析，組間/組內

理論分佈	one	all
自然分佈	自然啊	X-μ/σ（扶正）
二項分佈	事件結果只有成功/失敗感情趣的是成功X次的概率是多少
泊松分佈	事件獨立任意相同時間範圍，事件發生概率相同想知道的是某個時間範圍內，發生X次的概率	假設服從，進行卡方檢驗
幾何分佈	感興趣的是第N次會成功的概率	前X-1次失敗，第X次成功得概率
超幾何分佈	N種有M類，取n個，會有k個類的概率。不放回抽樣

基礎概念	one	all
統計學	描述統計和推理統計	數據的收集整理，總體估計和檢驗
描述統計	統計數據的收集整理、顯示和分析	箱線圖、頻數分佈、列聯表 tag
均值	算術、幾何、均方根、調和平均值
偏差	和均值之差的和的均值((x-μ)+...+(xn-un))/n	無法正確反映和均值的離散程度，正負抵消
方差	和均值之差的平方和的均值	離散程度、但是程度擴大，因爲進行了平方操作
標準差	和均值之差的平方和的開方的均值	離散程度最爲準確
正態分佈	自然分佈	Z分佈，±1.96
中心極限定理	當樣本或者實驗次數接近無窮，其分佈近似正態分佈	均值爲樣本均值μ 方差爲（σ^2）/n，σ爲樣本方差
推理統計	總體估計和檢驗	就是描述統計+概率論。均值、方差加上
估計	通過樣本統計量估計總體參數
評價估計量的標準	無偏性、有效性、一致性（分佈往參數靠）	無偏：估計量的期望=參數有效性：期望分佈的方差，不同估計量一致性：期望分佈的方差，不同樣本量
點估計	利用樣本均值、方差估計總體均值方差	極大似然估計、最小二乘估計？
區間估計	點估計 + 分佈	大樣本的Z分佈Z=（X-μ ）/ σ（s）/√N 小樣本的t分佈t = （X-μ ）/S/√(N-1）爲求方差構造的卡方分佈量:(n-1)S2/σ2 ∵（x-μ）/σ服從正太分佈（即轉標準正態分佈）其平方和服從卡方分佈。結果就是S2*(n-1)/σ2 服從卡方分佈 ∴構造的統計量服從正太分佈
Z分佈	正態分佈、自然分佈	±1.96，大樣本、小樣本（方差已知）
t分佈	小樣本的均值分佈	只爲小樣本
卡方分佈	符合正態分佈的統計量平方和服從	卡方檢驗：獨立性、擬合優度（觀察值、預期）
F分佈	符合卡方檢驗得變量比值	方差分析（單因素、有無交互作用）、單尾檢驗
統計獨立性	過程互不影響	統計獨立必不相關
統計相關性	過程相互影響
假設檢驗	給個假設驗證假設結論（拒絕原假設、無法拒絕原假設）	方差分析，假設均值都相等（無顯著變化）。
獨立性檢驗	卡方檢驗的一種，通過樣本求出獨立比例的期望值。檢驗觀察值和期望值是否服從同一分佈
方差分析	多個總體的兩輛檢驗，t檢驗不好用了方差分析，可以給你維持原顯著水平的一次性檢驗	齊性檢驗單因素雙因素有交互作用

Q&A：

1.探索性分析

2.驗證性和探索性因子分析

3.卡方檢驗的要求

4.ETL是什麼東東，爲什麼需要抽樣？

卡方檢驗的樣本量要求

　　卡方分佈本身是連續型分佈，但是在分類資料的統計分析中，顯然頻數只能以整數形式出現，因此計算出的統計量是非連續的。只有當樣本量比較充足時，纔可以忽略兩者問的差異，否則將可能導致較大的偏差具體而言，一般認爲對於卡方檢驗中的每一個單元格，要求其最小期望頻數均大於1，且至少有4／5的單元格期望頻數大於5，此時使用卡方分佈計算出的概率值纔是準確的。如果數據不符合要求，可以採用確切概率法進行概率的計算。

自說自話(bajibaji)

0.正態分佈，線性變換n倍後的均值和n個獨立變量的均值（x→nx+b nE(x)、a2σ）（nE（x）、nσ2）

1.兩個正態總體的疊加，結果還是正態分佈。（其變量相互獨立）

2.F分佈的應用，方差分析、兩個總體方差的比值

3.擬合優度檢驗是什麼？卡方檢驗的一種，單因素擬合檢驗。雙因素列聯表分析。

3.5列聯表分析和方差分析有何不同？方差分析？？？？

4.迴歸分析，若樣本比較小呢，需要進行非不相關t檢驗，若多元，F檢驗

5.泊松分佈，離散分佈，極限是正態分佈

6.可以用正態分佈近似二項分佈，當N足夠大的時候。（np>10,nq>10）

7.泊松分佈亦同。

8.大數據往往意味着有大偏差

9.樣本隨機抽取很重要

10抽樣誤差

11.非抽樣誤差、不迴應誤差、響應誤差

12.效度：實際關聯信度：真實，可重複

13.大數據也要抽樣啊，ETL啥的

14.均值&中位數，均衡量數據的中間水平，但差別可能較大。

15可視化工具power python spss stata minitab excel

16.時間序列預測：ARIMA模型、自迴歸積分滑動平均模型

17.齊性檢驗、（有）無交互ANOVA

18分類數據種的成對數據，可以通過系統差異和個體差異來衡量數據具體的變化RP\RV(SVENSSON METHOD)

19.貝葉斯公式、先驗和後驗概率的轉換

理論分佈關係：

統計學元知識（從一到全部）

1.什麼是統計學

2.概率論和統計學的關係

3.爲什麼要用統計學

4.大數據時代，統計學的意義在哪兒？

5.基礎概念一覽

Q&A：

卡方檢驗的樣本量要求

自說自話(bajibaji)

C#開源的兩款功能強大的錄屏神器

認知提升的方法

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

移動端自動化測試入門：用appium 控制安卓手機打開app（第二版，已完成）

pandas 數據分析總結

密碼編碼學初探——分組加密技術（DES&AES）

pandas 數據處理從入門到入門教程（待續）

密碼編碼學初探——傳統加密技術

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結