AI筆記: 數學基礎之概率與統計

概率

1 )概率與頻率

  • 概率是一個穩定的數值,也就是某件事發生或不發生的概率是多少.
  • 頻率是在一定數量的某件事情上面,發生的數與總數的比值.
  • 假設事件A的概率是0.3,在100次中發生28次,那麼它的頻率是 28/100=0.28
  • 頻率是有限次數的試驗所得的結果, 概率是頻數無限大時對應的頻率
  • 頻率的穩定值是概率, 頻率隨試驗次數的不同是變化的,是一個統計規律,但它都在概率附近擺動,而一個事件的概率是不變的

2 ) 隨機事件及其概率

  • 事件:試驗的每一種可能的結果,用大寫英文字母表示
  • 種類:必然事件、不可能事件、隨機事件 ,(對應下面的不等關係)
  • 隨機事件A的概率:P(A)=mn,0P(A)1P(A) = \frac{m}{n}, 0 \leq P(A) \leq 1

3 ) 古典概型

  • 基本事件:一次試驗中可能出現的每一個基本結果
  • 古典概型特點
    • 所有的基本事件只有有限個
    • 每個基本事件都是等可能發生
  • 古典概型概率計算公式:一次試驗的等可能基本事件共有n個,事件A包含了其中的m個基本事件,則事件A發生的概率P(A)=mnP(A) = \frac{m}{n}

4 ) 幾何概型

  • 幾何概型的特點

    • 所有的基本事件是無限個
    • 每個基本事件都是等可能發生
  • 幾何概型概率計算公式 P(A)=dDP(A) = \frac{d的測度}{D的測度}

    • 其中測度根據題目確定,一般爲線段、角度、面積、體積等

5 ) 互斥事件

  • 互斥事件:不可能同時發生的兩個事件稱爲互斥事件
    • 如果事件 A1,A2,...,AnA_1, A_2, ..., A_n 任意兩個都是互斥事件,則稱事件 A1,A2,...,AnA_1, A_2, ..., A_n 彼此互斥
    • 如果事件A,B互斥,那麼事件A+B發生的概率,等於事件A,B發生的概率的和, 即:P(A+B)=P(A)+P(B)P(A+B) = P(A) + P(B)
    • 如果事件A1,A2,...,AnA_1, A_2, ..., A_n 彼此互斥,則有:P(A1+A2+...+An)=P(A1)+P(A2)+P(An)P(A_1 + A_2 + ... + A_n) = P(A_1) + P(A_2) + P(A_n)
    • 互斥事件是不可能同時發生的兩個事件
  • 對立事件:兩個互斥事件中必有一個要發生,則稱這兩個事件爲對立事件
    • 事件A的對立事件記爲 Aˉ\bar{A}
    • P(A)+P(Aˉ)=1,P(Aˉ)=1P(A)P(A) + P(\bar{A}) = 1, P(\bar{A}) = 1 - P(A)
    • “互斥事件”、"對立事件"都是就兩個事件而言的
    • 對立事件是其中必有一個發生的互斥事件
    • 對立事件一定是互斥事件,互斥事件未必是對立事件,"互斥"是"對立"的必要但不充分的條件
  • 相互獨立事件:事件A(或B)是否發生對事件B(或A)發生的概率沒有影響(即,其中一個事件是否發生對另一個事件發生的概率沒有影響),這樣的兩個事件叫做相互獨立事件。
    • 當A、B是相互獨立事件時,那麼事件A*B發生(即A、B同時發生)的概率,等於事件A、B分別發生的概率的積,即:P(AB)=P(A)P(B)P(A*B) = P(A) * P(B)
    • 若A、B兩事件相互獨立,則A與Bˉ\bar{B}Aˉ\bar{A}與B、Aˉ\bar{A}Bˉ\bar{B} 也都是相互獨立的

6 ) 獨立重複試驗

  • 一般地,在相同條件下重複做的n次試驗稱爲n次獨立重複試驗
  • 獨立重複試驗的概率公式
    • 如果在1次試驗中某事件發生的概率是p, 那麼在n次獨立重複試驗中這個試驗恰好發生k次的概率:Pn(k)=Cnkpk(1p)nk   (k=0,1,2,...n)P_n(k) = C_n^k p^k(1-p)^{n-k} \ \ \ (k = 0, 1, 2, ... n)

7 ) 條件概率

  • 對任意事件A和事件B, 在已知事件A發生條件下時間B發生的概率,叫做條件概率,記爲:P(BA)P(B|A),讀作A發生的條件下B發生的概率
  • 公式:P(BA)=P(AB)P(A),   P(A)>0P(B|A) = \frac{P(AB)}{P(A)}, \ \ \ P(A) > 0

統計

1 ) 抽樣方法

  • 簡單隨機抽樣(總體個數較少)
  • 系統抽樣(總體個數較多)
  • 分層(類)抽樣(總體中差異明顯)
  • 注意:在N個個體的總體中抽取出n個個體組成樣本,每個個體被抽到的機會(概率)均爲 nN\frac{n}{N}

2 ) 總體特徵數的估計

  • 平均數:xˉ=x1+x2+x3+...+xnn\bar{x} = \frac{x_1 + x_2 + x_3 + ... + x_n}{n}
    • 取值爲 x1,x2,...,xnx_1, x_2, ..., x_n 的頻率分別爲 p1,p2,...,pnp_1, p_2, ..., p_n
    • 則其平均數爲 x1p1+x2p2+...+xnpnx_1p_1 + x_2p_2 + ... + x_np_n
    • 注意:頻率分佈表計算平均數要取組中值,平均數反應數據總體水平
  • 方差與標準差:一組樣本數據 x1,x2,...,xnx_1, x_2, ..., x_n
    • 方差:s2=1ni=1n(xixˉ)2s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2
    • 標準差:s=1ni=1n(xixˉ)2s = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2}
    • 注意:方差與標準差越小,說明樣本數據越穩定,反應數據穩定水平

3 ) 線性迴歸方程

  • 變量之間的兩類關係:函數關係與相關關係
  • 函數關係是一種確定性關係,相關關係是一種非確定性關係,
  • 判斷兩個變量間的關係是否爲相關關係的關鍵是看這個關係是否具有不確定性
  • 可以製作一些散點圖,判斷是否爲線性相關關係
  • 線性迴歸方程:y^=bx+a\hat{y} = bx + a 最小二乘法, 線性迴歸直線經過定點(xˉ,yˉ)(\bar{x}, \bar{y})

{b=i=1nxiyinxˉyˉi=1nxi2nxˉ2a=yˉbxˉ \left\{ \begin{aligned} b = \frac{\sum_{i=1}^n x_i y_i - n \bar{x}\bar{y}}{\sum_{i=1}^n x_i^2 - n \bar{x}^2} \\ a = \bar{y} - b \bar{x} \end{aligned} \right.

4 ) 相關關係

  • 定義:如果兩個變量中一個變量的取值一定時,另一個變量的取值帶有一定的隨機性,那麼這兩個變量之間的關係,叫做相關關係
  • 兩類特殊的相關關係:如果散點圖中點的分佈是從左下角到右上角的區域,那麼這兩個變量的相關關係稱爲正相關
  • 如果散點圖中點的分佈是從左上角到右下角的區域,那麼這兩個變量的相關關係成爲負相關

5 ) 線性相關

  • 定義:如果兩個變量散點圖中點的分佈從整體上看大致在一條直線附近,我們稱這兩個變量之間具有線性相關關係,這條直線叫做 迴歸直線
  • 最小二乘法:求線性迴歸直線方程 y^=bˉx+a^\hat{y} = \bar{b}x + \hat{a}, 使得樣本數據的點到它的距離的平方和最小的方法叫做最小二乘法,其中 a,b 值由以下公式給出

{b^=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2=i=1nxiyinxˉyˉi=1nxi2nxˉ2a^=yˉb^xˉ \left\{ \begin{aligned} \hat{b} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} = \frac{\sum_{i=1}^n x_i y_i - n \bar{x} \bar{y}}{\sum_{i=1}^n x_i^2 - n \bar{x}^2} \\ \hat{a} = \bar{y} - \hat{b} \bar{x} \end{aligned} \right.

  • 其中,y^\hat{y} 是迴歸方程的斜率, a^\hat{a} 是迴歸方程在y軸上的截距
  • 迴歸直線是對原數量關係的一種擬合,如果兩個變量不具有線性相關關係,即使求出迴歸方程也是毫無意義的,而且由其得到估計和預測的值也是不可信的
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章