數據分析基礎篇---統計學基礎

描述數據
1.頻數分佈表、樹圖、 頻數密度=頻數/組距

2.算數平均值、中位數、衆數

3.四分位數間距法(剔除異常值)/百分位數
----展示方式:矩形-鬍鬚圖(也叫箱線圖)

  1. 數據排序
  2. 中位數分成項數相等的高低兩組
  3. 低值組中位數,第一四分位數Q1
  4. 高值組中位數,第三四分位數Q3
  5. 四分位間距 IQR=Q3-Q1

標準離差
1.方差

2.標準差

3.z-比值/標準比值 :從數據點到平均值的標準離差個數

4.經驗法則:對於接近正態分佈的數據集合,約68%的數據分佈在平均值左右各一個的標準離差的區間內;約95%的數據分佈在平均數左右各兩個的標註離差的區間內。

概率
1.有關定義:隨機試驗、基本結果、樣本空間、古典概率、相對頻率、個別概率、

2.概率樹: 1分出層級 2填寫已知信息 3每一級分支的概率和爲1

3.概率 交併補的計算 條件概率

4.貝葉斯法則 P(AIB)=P(A)*P(BIA)/P(A)*P(BIA)+P(A’)*P(BIA’)

隨機變量

期望:概率分佈的平均數
期望值 :隨機變量的平均數=每個數值*發生概率之和

方差、標準離差:結果的分散性
E(X)+E(Y)=E(X+Y) Var(X+Y)=Var(X)+Var(y)
E(X)-E(Y)=E(X-Y) Var(X-Y)=Var(X)+Var(y)

排列組合
排列 (與順序有關)
有序排列 階乘 n ! 圓形排位 (n-1)!
重複排列公式(按類型排位):如果n個對象排位,其中包括第一個對象k個,第二類對象j個…,則排位公式 n!/j!k!m!.. ​

組合(與順序無關)
C(n r)=n!/r!(n-r)!

二項分佈、幾何分佈及泊松分佈
幾何分佈 :進行多次獨立重複試驗,每一次試驗都有成功和失敗的可能,取得成功需要試驗幾次。

P(X=r)=q(r-1)p
P(X>r)=q的r次冪
p(x<=r)=1- q的r次冪
X~Geo§:X符合幾何分佈,其成功率爲p
期望E(X)=1/P
方差Var(X)=q/p2

二項分佈 :一系列的獨立重複試驗,每一次試驗都存在失敗和成功的可能,每一次試驗的成功概率相同,試驗次數有限。
P(X=r)=[nCr]PrQn-r
[nCr]=n!/r!(n-r)!
X~B(n,p)
E(X)=np
Var(X)=npq

泊松分佈 X~Po(λ) :單獨事件在給定區間內隨即發生、獨立的發生,給定區間可以是時間或空間,已知該區間的事件平均發生次數(發生率),且爲有限數值。

p(X=r)=e的-λ次冪* λ的r次冪/r! (e=2.718)
E(X)=λ
Var(X)=λ
當n很大且P很小時,可以用泊松分佈代替二項分佈 X~Po(np) 近似代替 X~B(n,p)

正態分佈 :X~N(μ,δ2) μ曲線的中間位置,δ2分散性,δ2越大,正態分佈曲線越扁平、越寬。

連續概率分佈----概率密度函數:面積=概率 (總面積=1)

求法

  1. 確定分佈和範圍 均值μ,方差δ2
  2. 標準化 N(0,1) X-μ,Z=(X-μ) /δ
  3. 查找概率 概率表查找概率,Z保留2位小數 (例如-3.27 第一列找-3.2 第一行找0.07 )
  4. P(Z>z)=1-P(Z<z) P(a<Z<b)=P(Z<b)-P(Z<a)
  5. aX+b~N(aμ+b,a2δ2)

正態分佈近似代替二項分佈:如果X-B(N,P),且np>5,nq>5,則可以使用X~N(np,npq)近似代替二項分佈。
μ=np且δ2=npq 使用時應該進行連續性修正, P(X<=a),應額外增加0.5, P(X>=a),應額外減去0.5,P(a<=X<=b)=P(a-0.5<X<b+0.5)

正態分佈近似代替泊松分佈 :如果X-Po(λ)且λ>15,則可用X~N(λ,λ)進行近似。 需要進行連續性修正。

抽樣
簡單隨機抽樣: 無偏性 獨立性 重複/不重複抽樣
分層抽樣
整羣抽樣
等距抽樣
機會抽樣

中心極限定理 :
1.如果X的樣本很大,則均值的分佈近似爲正態分佈。
二項分佈 X(均值-N(np,pq)
泊松分佈X(均值)~N(λ,λ/n)

2.如果從一個非正態總體X中取出一個樣本,且樣本很大,則均值的分佈近似爲正態分佈。如果總體的均值和方差爲μ和δ2,且n很大。例如 >30,X(均值)~N(μ,δ2/n)

比列抽樣分佈:
E(Ps)=p Var(Ps)=pq/n
p爲總體比例
比例標準誤差√Var(Ps)
如果n>30,則Ps符合正態分佈,Ps~N(p,pq/n),使用這個公式時需要進行連續性修正:± 1/2n

置信區間

  1. 選擇總體統計量
  2. 求出其抽樣分佈
  3. 決定置信水平
  4. 求出置信上下限
  5. 求Z,用μ改寫不等式,即可得到μ的置信區間,最後求均值

假設檢驗

  1. 確定要進行檢驗假設
  2. 選擇檢驗統計量
  3. 確定用於作決策的拒絕域
  4. 求出檢驗統計量的P值
  5. 查看樣本結果是否位於拒絕域內
  6. 做出決策

比較兩個總體的方法

  1. 當總體數量少的時候,比較兩總體的標準離差
  2. 當總體數量大的時候,比較兩總體的平均數

實驗設計

  1. 重複試驗
  2. 局部控制
  3. 隨機化

迴歸分析

  1. 誤差平方和 SSE=∑(y-y(預測值))²
  2. 最佳擬合線 Y=a+bX

方差分析

  1. 擬合度
  2. SSR=SSE/SSyy
  3. R²=SSE/SSyy=1-SSE/SSyy (R²=1時,越完全擬合)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章