概率論基礎 ---- 不整虛的

概率論基礎

隨機試驗

樣本空間

隨機事件

隨機變量

條件概率 (考試抄過答案?)

獨立

條件獨立

聯合概率

邊緣概率全

概率公式

貝葉斯定理(相信直覺還是理性?)

鏈式規則

Reference

心得

 

 

隨機試驗

隨機試驗滿足的條件:

  1. 試驗可在相同條件下重複進行

  2. 試驗的可能結果不止一個, 且所有可能結果可事先預知

  3. 每次試驗的結果只有一個, 不能事先預知

樣本空間

隨機試驗所以的結果集合,記爲 S,其中的元素 x 爲樣本點


舉例子 ---- 擲骰子 (不接受各種不給正常結果的奇奇怪怪的骰子)

擲骰子就是一個隨機試驗(可以檢驗下上面三個條件是否都滿足)

樣本空間 

樣本點x可取 1, 2, 3, 4, 5, 6其中任意一個

隨機事件

隨機事件是樣本空間的子集


講人話

我們設 “擲一次骰子得到素數” 爲一個事件  ,只要該集合中任意一種情況發生事件x就發生了

那麼發生事件x的概率爲

隨機變量

隨機變量是定義在樣本空間上的映射 (函數), 通常是將樣本空間映射到數字空間, 爲了方便數學表達


舉例子 ---- 拋硬幣(不接受可以直立的奇怪硬幣)

拋硬幣的結果的樣本空間 

額外定義一個數集 

隨機變量爲 x

因爲 x 是映射 (函數), 我們可以把它定義爲從集合 S到 集合 T之間的映射

  或者

  都行

注意

對於隨機事件 A, 表示隨機事件發生的概率

對於隨機變量 X, 表示隨機變量取值爲  的概率

比如隨機變量我們取上面第一種定義方式. 那麼

  1. 定義隨機事件  爲 “拋硬幣結果爲正面”,

  2. 如果定義隨機事件 A 爲 "拋硬幣結果爲直立" (前面說了不接受奇怪的硬幣,那你非要這麼定義也沒辦法啊),

      

條件概率

當某條件發生時,事件發生的概率. 記爲 .

注意

我們知道  是一個關於隨機變量 X的概率分佈. 當 X條件發生後,可能改變了 X的樣本空間. 但此時條件概率仍然是一個關於隨機變量 X的概率分佈. 如果窮舉所有 X所有可能的取值,它們所對應的概率之和一定爲1.


舉個例子 ---- 期末考試

在概率論考試上,混哥(沒怎麼學) 和 卷哥(楊超越附身的那種)  考試坐鄰座,混哥想讓卷哥給他抄答案. 矯情的卷哥一把遮住了答案. 問混哥答對這道題的概率是多少?


假設正確答案爲隨機變量

在沒看到卷哥答案之前,混哥心中的正確答案的概率分佈爲 ,  X的樣本空間爲 ,因爲沒聽過課混哥無奈只能瞎蒙,每個答案都有相同可能正確, 所以, 而  可能取值對應概率的總和等於1.  ,因此此時混哥答對的概率爲 .

當混哥看到卷哥手後面露出來的曲線 (條件),混哥心裏會心一笑。此時在混哥心中正確答案的概率分佈爲 P(X | 卷矯露曲) 不再是  . 因爲混哥從樣本空間中剔除了 , 圖片中的曲線明顯是  或者  嘛!(假設卷哥答案正確),此時  的樣本空間變成了 . 在 “卷矯露曲” 事件發生後,混哥的世界發生了翻天覆地的變化!!! P(X = A | 卷矯露曲) = P(X = B |卷矯露曲) ,而且 ,那麼此時混哥答對的概率爲  !

獨立

兩個事件 A 和 B 相互獨立,


舉個例子

上面的期末考試的例子,"混哥答對" 和 "卷矯露曲" 兩個事件是不是獨立的呢?

要知道這兩個事件是否獨立, 關鍵看   

  1. 在 “卷矯露曲” 事件發生前

  2. 在 “卷矯露曲” 事件發生後,

由上所述  , 所以 “混哥答對” 和 “卷矯露曲” 這兩個事件不獨立!

條件獨立

兩個事件A和B條件獨立


畫個圖分分鐘明白 ---- 別老舉栗子了,累

圖1: 事件 A與事件 B相互獨立時的樣本空間描述

圖2: 事件 A與事件 B條件獨立時的樣本空間描述

註解U 爲所有事件的樣本空間, A 爲事件 A的樣本空間, B 爲事件 B的樣本空間, C 爲事件 C的樣本空間

圖1 很好理解, A 和 B 沒有交集, 事件 A與事件 B相互獨立

圖2 稍微有點費解

  1. 在不考慮以事件 C爲條件的情況下, 事件 A 和事件 B不相互獨立, 因爲兩個事件集合有交集

  2. 在考慮以事件 C爲條件的情況下, 事件 A和 事件 B相互獨立, 因爲此時事件 A 和事件 B 的樣本空間改變了, 在事件 C發生後, 事件 A的樣本空間變爲 A∩C,  而事件 B的樣本空間變爲 B∩C, 此時, 事件 A和事件 B在以事件 C 爲條件下條件獨立

由此,我們可以知道 事件間的條件獨立(三個事件之間)弱於事件間的獨立, 注意在條件 C發生後, 事件 A 和事件 B的樣本空間改變了.

聯合概率

所有條件同時發生的概率。此時概率記作

其中事件爲  ,  爲隨機變量

邊緣概率

將某個事件的概率在以另外某個事件爲條件下累積的概率。記爲 

邊緣概率與聯合概率的關係

 

其中 x 是隨機變量 X所有可能的取值, y是隨機變量 Y所有可能的取值。


看圖說話

上圖可以根據葉丙成老師很形象的說法:切面包定理

考慮累積 A 在每個條件下 Ci 下切下的 “麪包片”, 最後, Gong Gong! 得到了我們的大面包 A

全概率公式

一個事件在許多其他事件的影響下, 整體的概率總和. 記爲, 


解釋

聯繫切面包定理. 事件 Ci 發生的先驗概率爲 , 可以說全概率公式是  切面包定理 的公式表達

貝葉斯定理 (直覺還是理性?)

公式: 


與條件概率區別

條件概率公式: 

如果 X與 Y相互獨立 , 此時 


深入理解貝葉斯定理

接下來我們用貝葉斯定理解釋一個心理學現象 ---- 可得性偏見 《思考的快與慢》

思考下面的問題:

有一個孩子,鄰居如此描述他:“史蒂夫非常靦腆,少言寡語,很樂於助人,卻對他人或者這個現實世界沒有興趣。他謙恭有禮,做事井井有條,中規中矩,關注細節。”請問史蒂夫更可能從事哪種職業,圖書管理員還是農民?

思考後…  你的答案是農夫?還是圖書館管理員?


假如 樣本空間 中一共210個人, 其中10位爲圖書館管理員, 另外200位爲農民 (很符合我們現實世界中的比例)


我們分析人類是如何犯 可得性偏見 這個毛病的

根據直覺大部分人會給出 史蒂夫是“管理員” 這個答案 (然鵝是錯誤的!)

我們人類的大腦擅長使用比較的思維, 在這個問題中我們只簡單比較考慮 "具有細心品質的管理員佔管理員總數的比例" 和 "具有細心品質的農民佔農民總數的比例"的大小, 這兩個數據都是似然值.  根據我們的經驗大概有 40% 的圖書館管理員我們題目中提到的井井有條,中規中矩,關注細節的品質, 而只有 10% 的農民具有這種品質. 由此我們得出 斯蒂芬更可能是圖書館管理員 這個錯誤結論. 所以 本質是似然值限制了我們理性思考的能力. 我們只對比了兩個比例, 卻忽略了這兩個比例背後的數量, 具有細心品質的管理員有4個, 具有細心品質的農民卻有20個! 理性的說史蒂芬是農民的概率更大才對.


然後看看貝葉斯如何幫助我們得到理性的答案

我們令 "史蒂芬爲圖書館管理員" 爲 H, 這也是我們的假設, 那麼 "史蒂芬是農民" 就表示爲 , 而 "…他謙恭有禮,做事井井有條,中規中矩,關注細節…" 是對史蒂芬的描述, 我們稱之爲證據(evidence), 記爲 E .

 是史蒂芬爲圖書館管理員的概率, 等於 , 我們稱之爲先驗概率,

 是史蒂芬爲農民的概率, 等於 

 是假設史蒂芬是圖書館管理員, 他具有我們問題中描述的性格的概率, 我們稱之爲 似然值(Likelihood),

,  (擴展一句: 在我們的各種機器學習算法中, 似然值描述了我們的模型產生觀測數據的概率)

 是假設史蒂芬是農民, 他具有我們問題中描述的性格的概率, 也是 似然值

其實我們上文的問題就是根據這些對史蒂芬的性格描述 來確定他是 圖書館管理員的概率, 用數學應該表示爲, 根據我們的貝葉斯公式 ,

 是具有細心這種品質的人的概率, , 根據之前提到的切面包定理,

所以根據這些對史蒂芬的性格描述 來確定他是 圖書館管理員的概率爲

類似的我們可以推出根據這些對史蒂芬的性格描述 來確定他是 農民的概率爲

所以根據貝葉斯理論給出的理性答案, 蒂芬最有可能是農民!  

人們做決策時大多利用自己熟悉的或能夠憑想象構造而得到的信息,導致賦予那些易見的,容易記起的信息以過大的比重,但這只是應該被利用的信息的一部分,還有大量的其他的必須考慮的信息,他們對於正確評估和覺得同樣有着重要的影響,但人們的直覺推斷卻忽略了這些因素. 這告誡我們在思考問題時, 不要只注重likelihood, 我們還要考慮整體的 evidence 對事物的影響.


鏈式規則

Reference

  1. [臺大老師 葉丙成 頑想學機率]

  2. [南特大學概率圖模型] by Philippe LERAY & Hoel LE CAPITAINE

  3. [tick_tokc97 的CSDN博文 聯合概率、邊緣概率、條件概率之間的關係&貝葉斯公式]

  4. [Inside_Zhang 的CSDN博文 獨立與條件獨立]

  5. [鏈球選手 的知乎文章 Think Bayes - 我所理解的貝葉斯定理]

  6. [Bayes’ Theorem Explained]

  7. [3Bule1Brown Bayes theorem, and making probability intuitive]

心得

這是我們的第一篇文章, 我們以後每週都會更新一篇文章, 這篇文章花了7個多小時, 希望對讀者有幫助. 文章內容都是我們查找資料, 使用自己的語言和理解來寫成的. 我們想要寫文章主要目的是和大家分享, 因爲這是一個 win-win 的遊戲, 我們希望大家可以通過我們的文章對知識有更好的理解, 同時我們也找到了大家這個可靠的監督機制. 有什麼問題, 歡迎大家批評指正, 也歡迎轉載交流.

編撰人: Jason

審稿人: Starz

日期: 26/02/20

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章