概率論與數理統計基礎概念與重要定義彙總

一、隨機事件和概率

1:互斥,對立,獨立事件的定義和性質。

互斥事件\color{red}\textbf{互斥事件}
事件A和B的交集爲空,A與B就是互斥事件,也叫互不相容事件。也可敘述爲:不可能同時發生的事件。如A∩B爲不可能事件(A∩B=Φ),那麼稱事件A與事件B互斥,其含義是:事件A與事件B在任何一次試驗中不會同時發生。

P(A+B)=P(A)+P(B)(這個公式何時成立在我一面thu叉院的時候被問到過,我神tm就答了一個相互獨立/(ㄒoㄒ)/~~)且P(A)+P(B)≤1


對立事件\color{red}\textbf{對立事件}

若A交B爲不可能事件,A並B爲必然事件,那麼稱A事件與事件B互爲對立事件,其含義是:事件A和事件B必有一個且僅有一個發生

對立事件概率之間的關係:P(A)+P(B)=1。例如,在擲骰子試驗中,A={出現的點數爲偶數},b={出現的點數爲奇數},A∩B爲不可能事件,A∪B爲必然事件,所以A與B互爲對立事件。

互斥事件與對立事件兩者的聯繫在於:對立事件屬於一種特殊的互斥事件

它們的區別可以通過定義看出來:一個事件本身與其對立事件的並集等於總的樣本空間;而若兩個事件互爲互斥事件,表明一者發生則另一者必然不發生,但不強調它們的並集是整個樣本空間。即對立必然互斥,互斥不一定會對立。


獨立事件\color{red}\textbf{獨立事件}

設A,B是試驗E的兩個事件,若P(A)>0P(A)>0,可以定義P(BA)P(B∣A).一般A的發生對B發生的概率是有影響的,所以條件概率P(BA)P(B)P(B∣A)≠P(B),而只有當A的發生對B發生的概率沒有影響的時候(即A與B相互獨立)纔有條件概率P(BA)=P(B)P(B∣A)=P(B).這時,由乘法定理P(AB)=P(BA)P(A)=P(A)P(B).P(A∩B)=P(B∣A)P(A)=P(A)P(B).

定義:設A,B是兩事件,如果滿足等式P(AB)=P(AB)=P(A)P(B)P(A∩B)=P(AB)=P(A)P(B),則稱事件A,B相互獨立,簡稱A,B獨立.

容易推廣:設A,B,C是三個事件,如果滿足P(AB)=P(A)P(B)P(AB)=P(A)P(B),P(BC)=P(B)P(C)P(BC)=P(B)P(C),P(AC)=P(A)P(C)P(AC)=P(A)P(C),P(ABC)=P(A)P(B)P(C)P(ABC)=P(A)P(B)P(C),則稱事件A,B,C相互獨立

更一般的定義是,A1,A2,,AnA1,A2,……,Ann(n2)n(n≥2)個事件,如果對於其中任意2個,任意3個,…任意n個事件的積事件的概率,都等於各個事件概率之積,則稱事件A1,A2,,AnA1,A2,…,An相互獨立

2:概率,條件概率和五大概率公式

概率公理與條件概率\color{red}\textbf{概率公理與條件概率}

什麼是概率?設實驗E的樣本空間爲Ω\Omega,則稱實值函數PP爲概率,如果PP滿足下列三個條件

  1. 對於任意事件A,滿足P(A0P(A)\geq0
  2. 對於必然事件Ω\OmegaP(A)=1P(A)=1
  3. 對於兩兩互斥的可數無窮個事件A1,A2,...,AN...A_1,A_2,...,A_N...,有
    P(A1A2...AN...)=P(A1)+P(A2)+...+P(AN)+...P(A_1\cup A_2\cup...\cup A_N\cup...)=P(A_1)+P(A_2)+...+P(A_N)+...

什麼是條件概率?設A,BA,B爲兩個事件,且P(A)>0P(A)>0,稱
P(BA)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)}
爲在事件A發生的條件下事件B發生的條件概率。

五大概率公式\color{red}\textbf{五大概率公式}

  • 加法公式:P(AB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B)-P(AB),P(A∪B∪C)=P(A)+P(B)+P©-P(AB)-P(BC)-P(AC)+P(ABC).
  • 減法公式:P(AB)=P(A)P(AB)P(A-B)=P(A)-P(AB)
  • 乘法公式:當P(A)>0P(A)>0時,P(AB)=P(A)P(BA)P(AB)=P(A)P(B|A)
  • 全概率公式:設B1,B2,...,BnB_1,B_2,...,B_n爲樣本區間內概率均不爲零的一個完備事件組,則對任意事件AA,有P(A)=i=1nP(Bi)P(ABi)P(A)=\sum_{i=1}^n P(B_i)P(A|B_i)
  • 貝葉斯公式:設B1,B2,...,BnB_1,B_2,...,B_n爲樣本區間內概率均不爲零的一個完備事件組,則對任意事件AAP(A)>0P(A)>0,有
    P(BjA)=P(Bj)P(A)P(A)=P(Bj)P(ABj)i=1nP(Bi)P(ABi)P(B_j|A)=\frac{P(B_j)P(A)}{P(A)}=\frac{P(B_j)P(A|B_j)}{\sum_{i=1}^nP(B_i)P(A|B_i)}

3:古典型,幾何型概率和伯努利試驗

古典型-能通過樣本點數出來的概率\color{red}\textbf{古典型-能通過樣本點數出來的概率}
在這裏插入圖片描述


幾何型:通過幾何度量計算的概率\color{red}\textbf{幾何型:通過幾何度量計算的概率}
在這裏插入圖片描述
伯努利試驗:獨立重複實驗\color{red}\textbf{伯努利試驗:獨立重複實驗}

伯努利試驗(Bernoulli experiment)是在同樣的條件下重複地、相互獨立地進行的一種隨機試驗,其特點是該隨機試驗只有兩種可能結果:發生或者不發生。我們假設該項試驗獨立重複地進行了n次,那麼就稱這一系列重複獨立的隨機試驗爲n重伯努利試驗,或稱爲伯努利概型。單個伯努利試驗是沒有多大意義的,然而,當我們反覆進行伯努利試驗,去觀察這些試驗有多少是成功的,多少是失敗的,事情就變得有意義了,這些累計記錄包含了很多潛在的非常有用的信息。

4:易錯問題彙總

  • P(AB)=1P(A\cup B)=1不能推出AB=ΩA\cup B=\Omega,同樣P(AB)=0P(AB)=0也不能推出AB=AB=\emptyset。這兩個關係只能從右往左推,僅給出概率是得不到事件的結論的。

二、隨機變量及其分佈

1:隨機變量及其分佈函數


隨機變量\color{red}\textbf{隨機變量}
在樣本空間Ω\Omega上的實值函數X=X(ω),ωΩX=X(\omega),\omega\in\Omega稱爲隨機變量,簡記爲XX。隨機變量不是一個變量,而是實值函數。
分佈函數\color{red}\textbf{分佈函數}

分佈函數(英文Cumulative Distribution Function, 簡稱CDF),是概率統計中重要的函數,正是通過它,可用數學分析的方法來研究隨機變量。分佈函數是隨機變量最重要的概率特徵,分佈函數可以完整地描述隨機變量的統計規律,並且決定隨機變量的一切其他概率特徵。

分佈函數F(x)F(x)是定義在(,)(-\infty,\infty)上的一個實值函數,F(x)F(x)的值等於隨機變量XX在區間(,x](-\infty,x]上取值的概率,即事件XxX\leq x的概率:
F(x)=P(Xx),x(,)\color{blue}F(x)=P(X\leq x),x\in (-\infty,\infty)

分佈函數的性質主要有三條,單調不減負無窮收斂到0limx+F(x)=1\lim_{x\rightarrow+\infty} F(x)=1,正無窮收斂到1。右連續性F(x+0)=F(x)F(x+0)=F(x).

這三個條件同樣是F(x)F(x)成爲某一隨機變量的分佈函數的充分必要條件。

分佈函數的定義對於離散型隨機變量和連續型隨機變量都是一致的,但是對於連續型隨機變量而言,他還有概率密度

把隨機變量的概率分佈表推廣到無限情況,就可以得到連續型隨機變量的概率密度函數。 此時,隨機變量取每個具體的值的概率爲0,但在落在每一點處的概率是有相對大小的,描述這個概念的,就是概率密度函數。 你可以把這個想象成一個實心物體,在每一點處質量爲0,但是有密度,即有相對質量大小,他有以下兩條主要的性質。
在這裏插入圖片描述


2:常用分佈

伯努利分佈(0-1分佈)\color{red}\textbf{伯努利分佈(0-1分佈)}
010—1分佈就是n=1n=1情況下的二項分佈。即只先進行一次事件試驗,該事件發生的概率爲pp,不發生的概率爲1p1-p。這是一個最簡單的分佈,任何一個只有兩種結果的隨機現象都服從010-1分佈。

二項分佈\color{red}\textbf{二項分佈}

一般地,如果隨機變量XX有分佈律
在這裏插入圖片描述
則稱XX服從參數爲nnpp二項分佈,我們記爲XB(n,p)X\thicksim B(n,p)Xb(n,p)X\thicksim b(n,p)

含義:在nn次獨立重複的伯努利試驗中,若每次實驗的成功率爲pp,則在nn次獨立重複實驗種成功的總次數XX服從二項分佈。當n=1n=1時,二項分佈退化爲010-1分佈。
幾何分佈\color{red}\textbf{幾何分佈}
如果隨機變量XX的分佈律爲:
在這裏插入圖片描述
則稱XX服從參數爲pp的幾何分佈。

含義:在nn次伯努利試驗中,試驗kk次纔得到第一次成功的機率服從幾何分佈
超幾何分佈\color{red}\textbf{超幾何分佈}
如果隨機變量XX的分佈律爲:
在這裏插入圖片描述
則稱XX服從參數爲nNMn,N,M的超幾何分佈。

含義:如果NN件產品中含有MM件次品,從中任意一次取出nn件(不放回依次取出nn件),另XX=抽取的nn件產品中的次品件數,則XX服從參數爲nNMn,N,M的超幾何分佈。

如果有放回的取nn次,那麼服從B(N,MN)B(N,\frac{M}{N})

泊松分佈\color{red}\textbf{泊松分佈}
如果隨機變量XX的分佈律爲:
在這裏插入圖片描述
則稱XX服從參數爲λ\lambda的泊松分佈,記爲XP(λ)X\thicksim P(\lambda)

泊松分佈的參數λ是單位時間(或單位面積)內隨機事件的平均發生次數。 泊松分佈適合於描述單位時間內隨機事件發生的次數。

在實際事例中,當一個隨機事件,例如某電話交換臺收到的呼叫、來到某公共汽車站的乘客、某放射性物質發射出的粒子、顯微鏡下某區域中的白血球等等,以固定的平均瞬時速率λλ(或稱密度)隨機且獨立地出現時,那麼這個事件在單位時間(面積或體積)內出現的次數或個數就近似地服從泊松分佈P(λ)P(λ)
指數分佈\color{red}\textbf{指數分佈}
連續型均勻分佈:如果連續型隨機變量XX具有如下的概率密度函數,
在這裏插入圖片描述
則稱XX服從 [a,b][a,b]上的均勻分佈(uniform distribution),記爲XU(a,b)X\thicksim U(a,b)

正態分佈\color{red}\textbf{正態分佈}
如果隨機變量XX的概率密度爲:
在這裏插入圖片描述
其中μ,σ\mu,\sigma爲常數而且σ>0\sigma>0,則稱XX服從參數爲μ,σ\mu,\sigma的正態分佈,記作XN(μ,σ2)X\thicksim N(\mu,\sigma^2)。當μ=0,σ2=1\mu=0,\sigma^2=1時,稱XX服從標準正態分佈。


三、多維隨機變量及其分佈

1-二維隨機變量及其分佈

二維隨機變量\color{red}\textbf{二維隨機變量}
X=X(=ω)X=X(=\omega)Y=Y(ω)Y=Y(\omega)是定義在樣本空間Ω\Omega上的兩個隨機變量,則稱向量(X,Y)(X,Y)二維隨機變量或者隨機向量
二維隨機變量的分佈\color{red}\textbf{二維隨機變量的分佈}
F(x,y)=P(Xx,Yy)F(x,y)=P(X\leq x,Y\leq y),該分佈具有如下的性質

  • 對任意的x,yx,y,0F(x,y)10\leq F(x,y)\leq 1
  • F(,y)=F(x,)=F(,)=0,F(+,+)=1F(-\infty,y)=F(x,-\infty)=F(-\infty,-\infty)=0,F(+\infty,+\infty)=1
  • F(x,y)F(x,y)關於x,yx,y均單調不減而且右連續。
  • P(a<Xb,c<Yd)=F(b,d)F(b,c)F(a,d)+F(a,c)P(a<X\leq b,c<Y\leq d)=F(b,d)-F(b,c)-F(a,d)+F(a,c)
    二維隨機變量的邊緣分佈\color{red}\textbf{二維隨機變量的邊緣分佈}
    設二維隨機變量(X,Y)(X,Y)的分佈函數如上,那麼稱FX(x)=P(Xx),FY(y)=P(Yy)F_X(x)=P(X\leq x),F_Y(y)=P(Y\leq y)(X,Y)(X,Y)關於XX和關於YY邊緣分佈函數

邊緣分佈與二維隨機變量分佈函數的關係爲:

FX(x)=P(Xx)=P(Xx,Y<+)=F(x,+)F_X(x)=P(X\leq x)=P(X\leq x,Y<+\infty)=F(x,+\infty)
二維連續型隨機變量的概率密度\color{red}\textbf{二維連續型隨機變量的概率密度}
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

2-隨機變量的獨立性

如果對於任意x,yx,y,都有
P(Xx,Yy)=P{Xx}P{Yy}P(X\leq x,Y\leq y)=P\{X\leq x\}P\{Y\leq y\}
F(x,y)=FX(x)FY(y)F(x,y)=F_X(x)F_Y(y),則稱隨機變量XXYY相互獨立。

隨機變量相互獨立的充要條件\color{red}\textbf{隨機變量相互獨立的充要條件}

  1. 離散型隨機變量XXYY相互獨立的充要條件:對任意i,j=1,2,..,i,j=1,2,..,P{X=xi,Y=yi}=P{X=xi}P{Y=yi}P\{X=x_i,Y=y_i\}=P\{X=x_i\}P\{Y=y_i\},即pij=pipjp_{ij}=p_ip_j
  2. 連續型隨機變量XX,YY相互獨立的充要條件:對於任意的x,yx,y,有f(x,y)=fX(x)fY(y)f(x,y)=f_X(x)f_Y(y)。可將兩個隨機變量的獨立性推廣到兩個以上隨機變量的情形。

3-兩個隨機變量Z=g(X,Y)Z=g(X,Y)的分佈

X,YX,Y爲離散型隨機變量時,ZZ的分佈律與一維離散型類似。

X,YX,Y爲連續型隨機變量時,FZ(z)F_Z(z)的求法,可以用公式

FZ(z)=P(Zz)=P{g(X,Y)z}=g(X,Y)zf(x,y)dxdyF_Z(z)=P(Z\leq z)=P\{g(X,Y)\leq z\}=\int\int_{g(X,Y)\leq z} f(x,y)dxdy

四、隨機變量的數字特徵

1:隨機變量的數學期望

數學期望\textbf{數學期望}

  • 離散型隨機變量:設隨機變量XX的概率分佈爲P{X=xk}=pkP\{X=x_k\}=p_k,如果級數k=1xkpk\color{red}\sum_{k=1}^\infty x_kp_k絕對收斂,則稱此級數爲隨機變量XX的數學期望或均值,記作E(X)E(X)
    連續型隨機變量,f(x)f(x)爲隨機變量XX的概率密度,那麼他的數學期望爲+xf(x)dx\color{red}\int_{-\infty}^{+\infty} xf(x)dx

數學期望的性質\textbf{數學期望的性質}

  • 設C是常數,X是隨機變量,那麼E(C)=CE(C)=CE(CX)=CE(X)E(CX)=CE(X)
  • X,YX,Y是任意兩個隨機變量,那麼E(X+Y)=E(X)+E(Y)E(X+Y)=E(X)+E(Y)
  • X,YX,Y是任意兩個隨機變量,那麼E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)當且僅當二者不相關

隨機變量X的函數Y=g(X)的數學期望\textbf{隨機變量X的函數Y=g(X)的數學期望}

  • 離散性隨機變量:E(g(X))=i=1xig(xi)\color{red}E(g(X))=\sum_{i=1}^\infty x_ig(x_i)
  • 連續型隨機變量:E(g(X))=+g(x)f(x)dx\color{red}E(g(X))=\int_{-\infty}^{+\infty} g(x)f(x)dx,f(X)f(X)XX的概率密度。

隨機變量(X,Y)的函數Z=g(X,Y)的數學期望\textbf{隨機變量(X,Y)的函數Z=g(X,Y)的數學期望}

  • 離散性隨機變量:E(g(X,Y))=i=1j=1pi,jg(xi,yj)\color{red}E(g(X,Y))=\sum_{i=1}^\infty\sum_{j=1}^\infty p_{i,j}g(x_i,y_j),其中pi,j=P(X=xi,Y=yj)p_{i,j}=P(X=x_i,Y=y_j)
  • 連續型隨機變量:E(g(X,Y))=++g(x,y)f(x,y)dxdy\color{red}E(g(X,Y))=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy,f(X,Y)f(X,Y)ZZ的概率密度。

2:隨機變量的方差

  • 隨機變量XX的方差定義爲D(X)=E{[XE(X)]2}D(X)=E\{[X-E(X)]^2\}
  • 方差計算公式:D(X)=E(X2)[E(X)]2D(X)=E(X^2)-[E(X)]^2
  • 方差的性質:(1)常數的方差爲0.(2)D(aX+b)=a2D(X)D(aX+b)=a^2D(X)。(3)D(X+Y)=D(X)+D(Y)D(X+Y)=D(X)+D(Y)成立的充要條件是X,YX,Y不相關。

3:常用隨機變量的數學期望和方差

在這裏插入圖片描述

4:矩、協方差和相關係數

通俗易懂地解釋「協方差」與「相關係數」的概念

這裏需要注意的是兩個隨機變量不相關,這是區別於獨立,互斥的另一種關係,不相關的充要條件是兩個隨機變量的相關係數ρXY=0\rho_{XY}=0。如果兩個變量獨立,那麼相關係數一定爲0,但是相關係數爲0是線性不相關,不能推出兩變量相互獨立。

五、理解大數定律和中心極限定律

1:大數定律和中心極限定理的區別和聯繫

這裏主要是理解,我就不擺公式了,

在統計活動中,人們發現,在相同條件下大量重複進行一種隨機實驗時,一件事情發生的次數與實驗次數的比值,即該事件發生的頻率值會趨近於某一數值。重複次數多了,這個結論越來越明顯。這個就是最早的大數定律。一般大數定律討論的是n個隨機變量平均值的穩定性。

中心極限定理則是證明了在很一般的條件下,n個隨即變量的和當n趨近於正無窮時的極限分佈是正態分佈。(對,就是它,跟我念,正態分佈!O.O哎,哪裏都有它,記住記住。)

一句話解釋:大數定律講的是樣本均值收斂到總體均值,說白了就是期望,如圖一樣:

在這裏插入圖片描述

而中心極限定理告訴我們,當樣本足夠大時,樣本均值的分佈會慢慢變成正態分佈,對,就是如圖這個樣子:

在這裏插入圖片描述

上面是區別,那麼聯繫根據區別也能看出來,都總結的是在獨立同分布條件下的隨即變量平均值的表現

2:簡單總結他們的作用

我們假設有n個獨立隨機變量,令他們的和爲:

Sn=i=1nXiS_n=\sum_{i=1}^n X_i
那麼大數定律(以一般的大數定律爲例),它的公式爲:

SnnE(X)0\frac{S_n}{n}-E(X)\rightarrow 0
中心極限定理的公式爲:

n(SnnE(X))N(0,)\sqrt{n}(\frac{S_n}{n}-E(X))\rightarrow N(0,\sum)

注意:上面兩個公式,一個是值爲0,一直均值爲0的正太分佈;而左邊極爲相似!但不一樣的。第二個公式比第一個公式多了n\sqrt n,所以你就記住這條就不會混亂了,來,跟我念一遍:“差了個n\sqrt n!”

六、參數估計

1:點估計

總體分佈的參數在很多情況下是未知的,如均值μμ、方差σ2\sigma^2、泊松分佈的λλ、二項分佈的比例ππ,其它分佈還會有更多的未知參數,需要通過樣本進行相應的估計,這種估計值就是點估計。

點估計的評價:

無偏性:如果參數估計值的數學期望等於被估計的參數值E(θ)^E(\theta\widehat),則稱此估計量爲無偏估計。與此相反則稱爲有偏估計。

有效性:當一個參數有多個無偏估計時,估計方差越小則越有效。

相合性(一致性):如果隨着樣本量增大,參數的估計量趨於被估計的參數值。

2:矩估計

矩估計,即矩估計法,也稱“矩法估計”,就是利用樣本矩來估計總體中相應的參數。首先推導涉及感興趣的參數的總體矩(即所考慮的隨機變量的冪的期望值)的方程。然後取出一個樣本並從這個樣本估計總體矩。接着使用樣本矩取代(未知的)總體矩,解出感興趣的參數。從而得到那些參數的估計。

矩法估計原理簡單、使用方便,使用時可以不知總體的分佈,而且具有一定的優良性質(如矩估計爲Eξ的一致最小方差無偏估計)。矩法估計量實際上只集中了總體的部分信息,這樣它在體現總體分佈特徵上往往性質較差,只有在樣本容量n較大時,才能保障它的優良性,因而理論上講,矩法估計是以大樣本爲應用對象的。

用樣本矩作爲相應的總體矩估計來求出估計量的方法.其思想是:如果總體中有 KK個未知參數,可以用前 KK階樣本矩估計相應的前KK階總體矩,然後利用未知參數與總體矩的函數關係,求出參數的估計量。即有多少未知參數,就利用矩列幾個方程。

令樣本的ll階原點矩爲Al=1ni=1nXilA_l=\frac{1}{n}\sum_{i=1}^n X_i^l,而每階矩肯定也是XX分佈中未知參數θ1,θ2,...,θn\theta_1,\theta_2,...,\theta_n的函數,即
αl(θ1,θ2,...,θn)=All=1,2,...,k\alpha_l(\theta_1,\theta_2,...,\theta_n)=A_l,l=1,2,...,k

3:最大似然估計

極大似然估計,通俗理解來說,就是利用已知的樣本結果信息,反推最具有可能(最大概率)導致這些樣本結果出現的模型參數值

在這裏插入圖片描述
最大似然估計,只是一種概率論在統計學的應用,它是參數估計的方法之一。說的是已知某個隨機樣本滿足某種概率分佈,但是其中具體的參數不清楚,參數估計就是通過若干次試驗,觀察其結果,利用結果推出參數的大概值。最大似然估計是建立在這樣的思想上:已知某個參數能使這個樣本出現的概率最大,我們當然不會再去選擇其他小概率的樣本,所以乾脆就把這個參數作爲估計的真實值。

求最大似然函數估計值的一般步驟:
(1) 寫出似然函數
(2) 對似然函數取對數,並整理
(3) 求導數
(4) 解似然方程

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章