數據分析基礎篇---統計學基礎

描述數據
1.頻數分佈表、樹圖、頻數密度=頻數/組距

2.算數平均值、中位數、衆數

3.四分位數間距法（剔除異常值）/百分位數
----展示方式：矩形-鬍鬚圖（也叫箱線圖）

數據排序
中位數分成項數相等的高低兩組
低值組中位數，第一四分位數Q1
高值組中位數，第三四分位數Q3
四分位間距 IQR=Q3-Q1

標準離差
1.方差

2.標準差

3.z-比值/標準比值：從數據點到平均值的標準離差個數

4.經驗法則：對於接近正態分佈的數據集合，約68%的數據分佈在平均值左右各一個的標準離差的區間內；約95%的數據分佈在平均數左右各兩個的標註離差的區間內。

概率
1.有關定義：隨機試驗、基本結果、樣本空間、古典概率、相對頻率、個別概率、

2.概率樹： 1分出層級 2填寫已知信息 3每一級分支的概率和爲1

3.概率交併補的計算條件概率

4.貝葉斯法則 P(AIB)=P(A)*P(BIA)/P(A)*P(BIA)+P(A’)*P(BIA’)

隨機變量

期望：概率分佈的平均數
期望值：隨機變量的平均數=每個數值*發生概率之和

方差、標準離差：結果的分散性
E(X)+E(Y)=E(X+Y) Var(X+Y)=Var(X)+Var(y)
E(X)-E(Y)=E(X-Y) Var(X-Y)=Var(X)+Var(y)

排列組合
排列（與順序有關）
有序排列階乘 n ! 圓形排位（n-1)!
重複排列公式（按類型排位）：如果n個對象排位，其中包括第一個對象k個，第二類對象j個…,則排位公式 n!/j!k!m!..

組合（與順序無關）
C(n r)=n!/r!(n-r)!

二項分佈、幾何分佈及泊松分佈
幾何分佈 ：進行多次獨立重複試驗，每一次試驗都有成功和失敗的可能，取得成功需要試驗幾次。

P(X=r)=q(r-1)p
P(X>r)=q的r次冪
p(x<=r)=1- q的r次冪
X~Geo§:X符合幾何分佈，其成功率爲p
期望E(X)=1/P
方差Var(X)=q/p2

二項分佈 ：一系列的獨立重複試驗，每一次試驗都存在失敗和成功的可能，每一次試驗的成功概率相同，試驗次數有限。
P(X=r)=[nCr]PrQn-r
[nCr]=n!/r!(n-r)!
X~B(n,p)
E(X)=np
Var(X)=npq

泊松分佈 X~Po(λ）：單獨事件在給定區間內隨即發生、獨立的發生，給定區間可以是時間或空間，已知該區間的事件平均發生次數（發生率），且爲有限數值。

p(X=r)=e的-λ次冪* λ的r次冪/r！（e=2.718)
E(X)=λ
Var(X)=λ
當n很大且P很小時，可以用泊松分佈代替二項分佈 X~Po(np) 近似代替 X~B(n,p)

正態分佈 ：X~N(μ，δ2） μ曲線的中間位置，δ2分散性，δ2越大，正態分佈曲線越扁平、越寬。

連續概率分佈----概率密度函數：面積=概率（總面積=1）

求法

確定分佈和範圍均值μ，方差δ2
標準化 N(0,1) X-μ，Z=(X-μ) /δ
查找概率概率表查找概率，Z保留2位小數（例如-3.27 第一列找-3.2 第一行找0.07 ）
P(Z>z)=1-P(Z<z) P(a<Z<b)=P(Z<b)-P(Z<a)
aX+b~N(aμ+b，a2δ2)

正態分佈近似代替二項分佈：如果X-B(N,P),且np>5,nq>5,則可以使用X~N(np,npq)近似代替二項分佈。
μ=np且δ2=npq 使用時應該進行連續性修正， P(X<=a),應額外增加0.5， P(X>=a)，應額外減去0.5，P(a<=X<=b)=P(a-0.5<X<b+0.5)

正態分佈近似代替泊松分佈 ：如果X-Po(λ）且λ>15,則可用X~N(λ,λ）進行近似。需要進行連續性修正。

抽樣
簡單隨機抽樣：無偏性獨立性重複/不重複抽樣
分層抽樣
整羣抽樣
等距抽樣
機會抽樣

中心極限定理 :
1.如果X的樣本很大，則均值的分佈近似爲正態分佈。
二項分佈 X(均值-N(np,pq)
泊松分佈X（均值）~N(λ，λ/n)

2.如果從一個非正態總體X中取出一個樣本，且樣本很大，則均值的分佈近似爲正態分佈。如果總體的均值和方差爲μ和δ2，且n很大。例如 >30,X（均值）~N(μ，δ2/n)

比列抽樣分佈：
E(Ps)=p Var(Ps)=pq/n
p爲總體比例
比例標準誤差√Var（Ps)
如果n>30,則Ps符合正態分佈，Ps~N(p,pq/n),使用這個公式時需要進行連續性修正：± 1/2n

置信區間

選擇總體統計量
求出其抽樣分佈
決定置信水平
求出置信上下限
求Z，用μ改寫不等式，即可得到μ的置信區間，最後求均值

假設檢驗

確定要進行檢驗假設
選擇檢驗統計量
確定用於作決策的拒絕域
求出檢驗統計量的P值
查看樣本結果是否位於拒絕域內
做出決策

比較兩個總體的方法

當總體數量少的時候，比較兩總體的標準離差
當總體數量大的時候，比較兩總體的平均數

實驗設計

重複試驗
局部控制
隨機化

迴歸分析

誤差平方和 SSE=∑（y-y(預測值））²
最佳擬合線 Y=a+bX

方差分析

擬合度
SSR=SSE/SSyy
R²=SSE/SSyy=1-SSE/SSyy (R²=1時，越完全擬合）

數據分析基礎篇---統計學基礎

高效能人士的七個習慣-讀書筆記

時間管理

定位-感悟摘錄

關鍵對話-讀書筆記

原則-讀書筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結