描述數據
1.頻數分佈表、樹圖、 頻數密度=頻數/組距
2.算數平均值、中位數、衆數
3.四分位數間距法(剔除異常值)/百分位數
----展示方式:矩形-鬍鬚圖(也叫箱線圖)
- 數據排序
- 中位數分成項數相等的高低兩組
- 低值組中位數,第一四分位數Q1
- 高值組中位數,第三四分位數Q3
- 四分位間距 IQR=Q3-Q1
標準離差
1.方差
2.標準差
3.z-比值/標準比值 :從數據點到平均值的標準離差個數
4.經驗法則:對於接近正態分佈的數據集合,約68%的數據分佈在平均值左右各一個的標準離差的區間內;約95%的數據分佈在平均數左右各兩個的標註離差的區間內。
概率
1.有關定義:隨機試驗、基本結果、樣本空間、古典概率、相對頻率、個別概率、
2.概率樹: 1分出層級 2填寫已知信息 3每一級分支的概率和爲1
3.概率 交併補的計算 條件概率
4.貝葉斯法則 P(AIB)=P(A)*P(BIA)/P(A)*P(BIA)+P(A’)*P(BIA’)
隨機變量
期望:概率分佈的平均數
期望值 :隨機變量的平均數=每個數值*發生概率之和
方差、標準離差:結果的分散性
E(X)+E(Y)=E(X+Y) Var(X+Y)=Var(X)+Var(y)
E(X)-E(Y)=E(X-Y) Var(X-Y)=Var(X)+Var(y)
排列組合
排列 (與順序有關)
有序排列 階乘 n ! 圓形排位 (n-1)!
重複排列公式(按類型排位):如果n個對象排位,其中包括第一個對象k個,第二類對象j個…,則排位公式 n!/j!k!m!..
組合(與順序無關)
C(n r)=n!/r!(n-r)!
二項分佈、幾何分佈及泊松分佈
幾何分佈 :進行多次獨立重複試驗,每一次試驗都有成功和失敗的可能,取得成功需要試驗幾次。
P(X=r)=q(r-1)p
P(X>r)=q的r次冪
p(x<=r)=1- q的r次冪
X~Geo§:X符合幾何分佈,其成功率爲p
期望E(X)=1/P
方差Var(X)=q/p2
二項分佈 :一系列的獨立重複試驗,每一次試驗都存在失敗和成功的可能,每一次試驗的成功概率相同,試驗次數有限。
P(X=r)=[nCr]PrQn-r
[nCr]=n!/r!(n-r)!
X~B(n,p)
E(X)=np
Var(X)=npq
泊松分佈 X~Po(λ) :單獨事件在給定區間內隨即發生、獨立的發生,給定區間可以是時間或空間,已知該區間的事件平均發生次數(發生率),且爲有限數值。
p(X=r)=e的-λ次冪* λ的r次冪/r! (e=2.718)
E(X)=λ
Var(X)=λ
當n很大且P很小時,可以用泊松分佈代替二項分佈 X~Po(np) 近似代替 X~B(n,p)
正態分佈 :X~N(μ,δ2) μ曲線的中間位置,δ2分散性,δ2越大,正態分佈曲線越扁平、越寬。
連續概率分佈----概率密度函數:面積=概率 (總面積=1)
求法
- 確定分佈和範圍 均值μ,方差δ2
- 標準化 N(0,1) X-μ,Z=(X-μ) /δ
- 查找概率 概率表查找概率,Z保留2位小數 (例如-3.27 第一列找-3.2 第一行找0.07 )
- P(Z>z)=1-P(Z<z) P(a<Z<b)=P(Z<b)-P(Z<a)
- aX+b~N(aμ+b,a2δ2)
正態分佈近似代替二項分佈:如果X-B(N,P),且np>5,nq>5,則可以使用X~N(np,npq)近似代替二項分佈。
μ=np且δ2=npq 使用時應該進行連續性修正, P(X<=a),應額外增加0.5, P(X>=a),應額外減去0.5,P(a<=X<=b)=P(a-0.5<X<b+0.5)
正態分佈近似代替泊松分佈 :如果X-Po(λ)且λ>15,則可用X~N(λ,λ)進行近似。 需要進行連續性修正。
抽樣
簡單隨機抽樣: 無偏性 獨立性 重複/不重複抽樣
分層抽樣
整羣抽樣
等距抽樣
機會抽樣
中心極限定理 :
1.如果X的樣本很大,則均值的分佈近似爲正態分佈。
二項分佈 X(均值-N(np,pq)
泊松分佈X(均值)~N(λ,λ/n)
2.如果從一個非正態總體X中取出一個樣本,且樣本很大,則均值的分佈近似爲正態分佈。如果總體的均值和方差爲μ和δ2,且n很大。例如 >30,X(均值)~N(μ,δ2/n)
比列抽樣分佈:
E(Ps)=p Var(Ps)=pq/n
p爲總體比例
比例標準誤差√Var(Ps)
如果n>30,則Ps符合正態分佈,Ps~N(p,pq/n),使用這個公式時需要進行連續性修正:± 1/2n
置信區間
- 選擇總體統計量
- 求出其抽樣分佈
- 決定置信水平
- 求出置信上下限
- 求Z,用μ改寫不等式,即可得到μ的置信區間,最後求均值
假設檢驗
- 確定要進行檢驗假設
- 選擇檢驗統計量
- 確定用於作決策的拒絕域
- 求出檢驗統計量的P值
- 查看樣本結果是否位於拒絕域內
- 做出決策
比較兩個總體的方法
- 當總體數量少的時候,比較兩總體的標準離差
- 當總體數量大的時候,比較兩總體的平均數
實驗設計
- 重複試驗
- 局部控制
- 隨機化
迴歸分析
- 誤差平方和 SSE=∑(y-y(預測值))²
- 最佳擬合線 Y=a+bX
方差分析
- 擬合度
- SSR=SSE/SSyy
- R²=SSE/SSyy=1-SSE/SSyy (R²=1時,越完全擬合)