概率論基礎
隨機試驗
樣本空間
隨機事件
隨機變量
條件概率 (考試抄過答案?)
獨立
條件獨立
聯合概率
邊緣概率全
概率公式
貝葉斯定理(相信直覺還是理性?)
鏈式規則
Reference
心得
隨機試驗
隨機試驗滿足的條件:
-
試驗可在相同條件下重複進行
-
試驗的可能結果不止一個, 且所有可能結果可事先預知
-
每次試驗的結果只有一個, 不能事先預知
樣本空間
隨機試驗所以的結果集合,記爲 S,其中的元素 x 爲樣本點
舉例子 ---- 擲骰子 (不接受各種不給正常結果的奇奇怪怪的骰子)
擲骰子就是一個隨機試驗(可以檢驗下上面三個條件是否都滿足)
樣本空間
樣本點x可取 1, 2, 3, 4, 5, 6其中任意一個
隨機事件
隨機事件是樣本空間的子集
講人話
我們設 “擲一次骰子得到素數” 爲一個事件 ,只要該集合中任意一種情況發生事件x就發生了
那麼發生事件x的概率爲
隨機變量
隨機變量是定義在樣本空間上的映射 (函數), 通常是將樣本空間映射到數字空間, 爲了方便數學表達
舉例子 ---- 拋硬幣(不接受可以直立的奇怪硬幣)
拋硬幣的結果的樣本空間
額外定義一個數集
隨機變量爲 x
因爲 x 是映射 (函數), 我們可以把它定義爲從集合 S到 集合 T之間的映射
或者
都行
注意
對於隨機事件 A, 表示隨機事件發生的概率
對於隨機變量 X, 表示隨機變量取值爲 的概率
比如隨機變量我們取上面第一種定義方式. 那麼
-
定義隨機事件 爲 “拋硬幣結果爲正面”,
-
如果定義隨機事件 A 爲 "拋硬幣結果爲直立" (前面說了不接受奇怪的硬幣,那你非要這麼定義也沒辦法啊),
條件概率
當某條件發生時,事件發生的概率. 記爲 .
注意:
我們知道 是一個關於隨機變量 X的概率分佈. 當 X條件發生後,可能改變了 X的樣本空間. 但此時條件概率仍然是一個關於隨機變量 X的概率分佈. 如果窮舉所有 X所有可能的取值,它們所對應的概率之和一定爲1.
舉個例子 ---- 期末考試
在概率論考試上,混哥(沒怎麼學) 和 卷哥(楊超越附身的那種) 考試坐鄰座,混哥想讓卷哥給他抄答案. 矯情的卷哥一把遮住了答案. 問混哥答對這道題的概率是多少?
假設正確答案爲隨機變量
在沒看到卷哥答案之前,混哥心中的正確答案的概率分佈爲 , X的樣本空間爲 ,因爲沒聽過課混哥無奈只能瞎蒙,每個答案都有相同可能正確, 所以, 而 可能取值對應概率的總和等於1. ,因此此時混哥答對的概率爲 .
當混哥看到卷哥手後面露出來的曲線 (條件),混哥心裏會心一笑。此時在混哥心中正確答案的概率分佈爲 P(X | 卷矯露曲) 不再是 . 因爲混哥從樣本空間中剔除了 , 圖片中的曲線明顯是 或者 嘛!(假設卷哥答案正確),此時 的樣本空間變成了 . 在 “卷矯露曲” 事件發生後,混哥的世界發生了翻天覆地的變化!!! P(X = A | 卷矯露曲) = P(X = B |卷矯露曲) ,而且 ,那麼此時混哥答對的概率爲 !
獨立
兩個事件 A 和 B 相互獨立,
舉個例子
上面的期末考試的例子,"混哥答對" 和 "卷矯露曲" 兩個事件是不是獨立的呢?
要知道這兩個事件是否獨立, 關鍵看
-
在 “卷矯露曲” 事件發生前
-
在 “卷矯露曲” 事件發生後,
由上所述 , 所以 “混哥答對” 和 “卷矯露曲” 這兩個事件不獨立!
條件獨立
兩個事件A和B條件獨立
畫個圖分分鐘明白 ---- 別老舉栗子了,累
圖1: 事件 A與事件 B相互獨立時的樣本空間描述
圖2: 事件 A與事件 B條件獨立時的樣本空間描述
註解: U 爲所有事件的樣本空間, A 爲事件 A的樣本空間, B 爲事件 B的樣本空間, C 爲事件 C的樣本空間
圖1 很好理解, A 和 B 沒有交集, 事件 A與事件 B相互獨立
圖2 稍微有點費解
-
在不考慮以事件 C爲條件的情況下, 事件 A 和事件 B不相互獨立, 因爲兩個事件集合有交集
-
在考慮以事件 C爲條件的情況下, 事件 A和 事件 B相互獨立, 因爲此時事件 A 和事件 B 的樣本空間改變了, 在事件 C發生後, 事件 A的樣本空間變爲 A∩C, 而事件 B的樣本空間變爲 B∩C, 此時, 事件 A和事件 B在以事件 C 爲條件下條件獨立
由此,我們可以知道 事件間的條件獨立(三個事件之間)弱於事件間的獨立, 注意在條件 C發生後, 事件 A 和事件 B的樣本空間改變了.
聯合概率
所有條件同時發生的概率。此時概率記作
其中事件爲 , 爲隨機變量
邊緣概率
將某個事件的概率在以另外某個事件爲條件下累積的概率。記爲
邊緣概率與聯合概率的關係
其中 x 是隨機變量 X所有可能的取值, y是隨機變量 Y所有可能的取值。
看圖說話
上圖可以根據葉丙成老師很形象的說法:切面包定理
考慮累積 A 在每個條件下 Ci 下切下的 “麪包片”, 最後, Gong Gong! 得到了我們的大面包 A
全概率公式
一個事件在許多其他事件的影響下, 整體的概率總和. 記爲,
解釋
聯繫切面包定理. 事件 Ci 發生的先驗概率爲 , , 可以說全概率公式是 切面包定理 的公式表達
貝葉斯定理 (直覺還是理性?)
公式:
與條件概率區別
條件概率公式:
如果 X與 Y相互獨立 , 此時
深入理解貝葉斯定理
接下來我們用貝葉斯定理解釋一個心理學現象 ---- 可得性偏見 《思考的快與慢》
思考下面的問題:
有一個孩子,鄰居如此描述他:“史蒂夫非常靦腆,少言寡語,很樂於助人,卻對他人或者這個現實世界沒有興趣。他謙恭有禮,做事井井有條,中規中矩,關注細節。”請問史蒂夫更可能從事哪種職業,圖書管理員還是農民?
思考後… 你的答案是農夫?還是圖書館管理員?
假如 樣本空間 中一共210個人, 其中10位爲圖書館管理員, 另外200位爲農民 (很符合我們現實世界中的比例)
我們分析人類是如何犯 可得性偏見 這個毛病的
根據直覺大部分人會給出 史蒂夫是“管理員” 這個答案 (然鵝是錯誤的!)
我們人類的大腦擅長使用比較的思維, 在這個問題中我們只簡單比較考慮 "具有細心品質的管理員佔管理員總數的比例" 和 "具有細心品質的農民佔農民總數的比例"的大小, 這兩個數據都是似然值. 根據我們的經驗大概有 40% 的圖書館管理員我們題目中提到的井井有條,中規中矩,關注細節的品質, 而只有 10% 的農民具有這種品質. 由此我們得出 斯蒂芬更可能是圖書館管理員 這個錯誤結論. 所以 本質是似然值限制了我們理性思考的能力. 我們只對比了兩個比例, 卻忽略了這兩個比例背後的數量, 具有細心品質的管理員有4個, 具有細心品質的農民卻有20個! 理性的說史蒂芬是農民的概率更大才對.
然後看看貝葉斯如何幫助我們得到理性的答案
我們令 "史蒂芬爲圖書館管理員" 爲 H, 這也是我們的假設, 那麼 "史蒂芬是農民" 就表示爲 , 而 "…他謙恭有禮,做事井井有條,中規中矩,關注細節…" 是對史蒂芬的描述, 我們稱之爲證據(evidence), 記爲 E .
是史蒂芬爲圖書館管理員的概率, 等於 , 我們稱之爲先驗概率,
是史蒂芬爲農民的概率, 等於
是假設史蒂芬是圖書館管理員, 他具有我們問題中描述的性格的概率, 我們稱之爲 似然值(Likelihood),
, (擴展一句: 在我們的各種機器學習算法中, 似然值描述了我們的模型產生觀測數據的概率)
是假設史蒂芬是農民, 他具有我們問題中描述的性格的概率, 也是 似然值,
其實我們上文的問題就是根據這些對史蒂芬的性格描述 來確定他是 圖書館管理員的概率, 用數學應該表示爲, 根據我們的貝葉斯公式 ,
是具有細心這種品質的人的概率, , 根據之前提到的切面包定理,
所以根據這些對史蒂芬的性格描述 來確定他是 圖書館管理員的概率爲
類似的我們可以推出根據這些對史蒂芬的性格描述 來確定他是 農民的概率爲
所以根據貝葉斯理論給出的理性答案, 史蒂芬最有可能是農民!
人們做決策時大多利用自己熟悉的或能夠憑想象構造而得到的信息,導致賦予那些易見的,容易記起的信息以過大的比重,但這只是應該被利用的信息的一部分,還有大量的其他的必須考慮的信息,他們對於正確評估和覺得同樣有着重要的影響,但人們的直覺推斷卻忽略了這些因素. 這告誡我們在思考問題時, 不要只注重likelihood, 我們還要考慮整體的 evidence 對事物的影響.
鏈式規則
Reference
-
[臺大老師 葉丙成 頑想學機率]
-
[南特大學概率圖模型] by Philippe LERAY & Hoel LE CAPITAINE
-
[tick_tokc97 的CSDN博文 聯合概率、邊緣概率、條件概率之間的關係&貝葉斯公式]
-
[Inside_Zhang 的CSDN博文 獨立與條件獨立]
-
[鏈球選手 的知乎文章 Think Bayes - 我所理解的貝葉斯定理]
-
[Bayes’ Theorem Explained]
-
[3Bule1Brown Bayes theorem, and making probability intuitive]
心得
這是我們的第一篇文章, 我們以後每週都會更新一篇文章, 這篇文章花了7個多小時, 希望對讀者有幫助. 文章內容都是我們查找資料, 使用自己的語言和理解來寫成的. 我們想要寫文章主要目的是和大家分享, 因爲這是一個 win-win 的遊戲, 我們希望大家可以通過我們的文章對知識有更好的理解, 同時我們也找到了大家這個可靠的監督機制. 有什麼問題, 歡迎大家批評指正, 也歡迎轉載交流.
編撰人: Jason
審稿人: Starz
日期: 26/02/20