之前你已經瞭解概率的基礎知識(如果還不知道概率能幹啥,在生活中有哪些應用的例子,可以看我之前的《投資賺錢與概率》)。
今天我們來聊聊3種特殊的概率分佈,學會了你就是你知道了解決3種問題的“萬能模板”。
這個知識目前來看,還沒有人令我滿意的答案,因爲其他人多數是在舉數學推導公式。我這個人是最討厭數學公式的,但是這並不妨礙我用統計概率思維做很多事情。相比熟悉公式,我更想知道學的這個知識能用到什麼地方。可惜,還沒有人講清楚。今天,就讓我來當回雷鋒吧。
- 什麼是概率分佈?
- 概率分佈能當飯吃嗎?學了對我有啥用?
好了,我們先看第1個問題。
1、 什麼是概率分佈?
要明白概率分佈,你需要知道先兩個東東:
1)數據有哪些類型
2)什麼是分佈
離散數據根據名稱很好理解,就是數據的取值是不連續的。例如擲硬幣就是一個典型的離散數據,因爲拋硬幣的就2種數值(也就是2種結果,要麼是正面,要麼是反面)。
你可以把離散數據想象成一塊一塊墊腳石,你可以從一個數值調到另一個數值,同時每個數值之間都有明確的間隔。
- 第2種是連續數據。
連續數據正好相反,它能取任意的數值。例如時間就是一個典型的連續數據1.25分鐘、1.251分鐘,1.2512分鐘,它能無限分割。連續數據就像一條平滑的、連綿不斷的道路,你可以沿着這條道路一直走下去。
數據在統計圖中的形狀,叫做它的分佈。
其實我們生活中也會聊到各種分佈。比如下面不同季節男人的目光分佈.。
各位老鐵,來一波美女,看看你的目光停在哪個分佈的地方。
美女也看了,現在該專注學習了吧。現在,我們已經知道了兩件事情:
離散數據類型(例如拋硬幣的結果),連續數據類型(例如時間)
現在我們來看看什麼是概率。概率分佈就是將上面兩個東東(數據類型+分佈)組合起來的一種表現手段:
概率分佈就是在統計圖中表示概率,橫軸是數據的值,縱軸是橫軸上對應數據值的概率。
很顯然的,根據數據類型的不同,概率分佈分爲兩種:
1、 離散概率分佈
2、 連續概率分佈
那麼,問題就來了。爲什麼你要關心數據類型呢?
因爲數據類型會影響求概率的方法。
對於離散概率分佈,我們關心的是取得一個特定數值的概率。例如拋硬幣正面向上的概率爲:p(x=正面)=1/2
而對於連續概率分佈來說,我們無法給出每一個數值的概率,因爲我們不可能列舉每一個精確數值。
例如,你在咖啡館約妹子出來,你提前到了。爲了給妹子留下好印象,你估計妹子會在5分鐘之內出現,有可能是在4分鐘10秒以後出現,或者在4分鐘10.5秒以後出現,你不可能數清楚所有的可能時間,你更關心的是在妹子出現前的1-5分鐘內(範圍),你把髮型重新整理下(雖然你因爲加班頭髮 已經禿頂了,但是髮型不能亂),給妹子留個好印象。所以,對於像時間這樣的連續型數據,你更關心的是一個特定範圍的概率是多少。
2、概率分佈能當飯吃嗎?學了對我有啥用?
當統計學家們開始研究概率分佈時,他們看到,有幾種形狀反覆出現,於是就研究他們的規律,根據這些規律來解決特定條件下的問題。
想起,當年爲了備戰高考,我是準備了一個自己的“萬能模板”,任何作文題目過來,我都可以套用該模板,快速解決作文這個難題。
同樣的,記住概率裏這些特殊分佈的好處就是:下次遇到類似的問題,你就可以直接套用“萬能模板”(這些特殊分佈的規律)來解決問題了。
3、接下里,我們一起來聊聊常見的4種概率分佈。
1)3種離散概率分佈
- 二項分佈
- 泊松分佈
- 幾何何分佈
2)1種連續概率分佈
- 正態分佈
在開始介紹之前,你先回顧下這兩個知識(不明白的,看我之前的《如何看懂數據》):
期望:概率的平均值
標準差:衡量數據的波動大小。
1)1) 二項分佈
我們從下面3個問題開聊:
- 二項分佈有啥用?
- 如何判斷是不是二項分佈?
- 二項分佈如何計算概率?
1)1)1. 二項分佈有啥用呢?
當你遇到一個事情,如果該事情發生次數固定,而你感興趣的是成功的次數,那麼就可以用二項分佈的公式快速計算出概率來。
例如你按我之前的《投資賺錢與概率》買了這5家公司的股票(谷歌,Facebook,蘋果,阿里巴巴,騰訊),爲了保底和計算投入進去多少錢,你想知道只要其中3個股票幫你賺到錢(成功的次數)的概率多大,那麼這時候就可以用二項分佈計算出來。
牛掰吧?
1)1)2. 如何判斷是不是二項分佈?
首先,爲啥叫二項,不叫三項,或者二愣子呢?
故明思義,二項代表事件有2種可能的結果,把一種稱爲成功,另外一種稱爲失敗。
生活中有很多這樣2種結果的二項情況,例如你表白是二項的,一種成功(恭喜你表白成功,可以戀愛了,興奮吧?),一種是失敗(被拒絕了,傷不傷心?)。
你向老闆提出加薪的要求,結果也有兩種(二項)。一種是成功(加薪成功,老闆我愛你),一種是失敗(麻蛋,不給漲薪老子不幹了,像是這種有統計概率思維的人,是很稀缺的,明天就投簡歷出去)
- 那麼,什麼是二項分佈呢?只要符合下面3個特點就可以判斷某事件是二項分佈了:
1)做某件事的次數(也叫試驗次數)是固定的,用n表示。
(例如拋硬幣3次,投資5支股票),
2)每一次事件都有兩個可能的結果(成功,或者失敗)
(例如每一次拋硬幣有2個結果:正面表示成功,反面表示失敗。
每一次投資美股有2個結果:投資成功,投資失敗)。
3)每一次成功的概率都是相等的,成功的概率用p表示
(例如每一次拋硬幣正面朝上的概率都是1/2。
你投資了5家公司的股票,假設每一家投資盈利成功的概率都相同)
4)你感興趣的是成功x次的概率是多少。那麼就可以用二項分佈的公式快速計算出來了。
(你已經知道了我前面講的5家美股的賺錢概率最大,所以你買了這5家公司的股票,假設投資的這5家公司成功的概率都相同,那麼你關心其中只要有3個投資成功,你就可以賺翻了,所以想知道成功3次的概率)
根據這4個特點,我們就知道拋硬幣是一個典型的二項分佈,還有你投資的這5支股票也是一個典型的二項分佈(在假設每家公司投資成功的前提下)。
1)1)3. 二項分佈如何計算概率?
怎麼計算符合二項分佈事件的概率呢?也就是你想知道下面的問題:
你拋硬幣3次,2次正面朝上的概率是多少?你買了這5家公司的股票,3支股票賺錢的概率是多大?
上面我們已經知道了二項分佈的4個特點,並知道每個特點的表示方法:
1)做某件事次數是固定的,用n表示
2)每一次事件都有兩個可能的結果(成功,或者失敗)
3)每一次成功的概率都是相等的,成功的概率用p表示 4)你感興趣的是成功x次的概率是多少
這時候,二項分佈的公式就可以發揮威力了:
這裏你也別害怕數學公式,每一項的含義我前面已經講的很清楚了。這個公式就是計算做某件事情n次,成功x次的概率的。很多數據分析工具(Excel,Python,R)都提供工具讓你帶入你研究問題的數值,就能得到結果。
例如,拋硬幣5次(n),恰巧有3次正面朝上(x=3,拋硬幣正面朝上概率p=1/2),可以用上面的公式計算出出概率爲31.25%(用Excel的BINOM.DIST函數,Python,R都可以快速計算)
二項分佈經常要計算的概率還有這樣一種情況:
拋硬幣5次,硬幣至少有3次正面朝上(即x>=3)的概率是多少?
你能直接想到的簡單方法是:將恰巧有3次,恰巧有4次,恰巧有5次的概率相加,結果便是至少3次,爲50%。
但是如果次數很多,這樣的辦法簡直是給自己挖了一個大大的坑。
我們用逆向思維換個思路,至少3次正面朝上的反向思考是什麼呢?
反向思路就是最多2次正面朝上。只要我們先計算出最多2次正面朝上的概率p(x<=2),那麼至少3次正面朝上的概率就是1-p(x<=2)。
這樣用逆向思維,就把一個複雜的問題,化解爲簡單的問題。因爲求做多2次朝上的概率比較簡單:
p(x<=2)=p(0)+p(1)+p(2)
最後提下二項分佈的:
期望E(x)=np (表示某事情發生n次,預期成功多少次。)
知道這個期望有啥用呢?
做任何事情之前,知道預期結果肯定對你後面的決策有幫助。比如你拋硬幣5次,每次概率是1/2,那麼期望E(x)=51/2=2.5次,也就是有大約3次你可以拋出正面。
在比如你之前投資的那5支股票,假設每支股票幫你賺到錢的概率是80%,那麼期望E(x)=580%=4,也就是預期會有4只股票投資成功幫你賺到錢。
1)2) 幾何分佈
其實我一直把幾何分佈,叫做二項分佈的孿生兄弟,因爲他兩太像了。只有1點不同,就像海爾兄弟只有內褲不同一樣。
- 我們還是從下面這個套路聊起來一起找出這個不同的“勁爆點”:
- 幾何分佈有啥用?
- 如何判斷是不是幾何分佈?
- 幾何分佈如何計算概率?
1.幾何分佈有啥用?
如果你需要知道嘗試多次能取得第一次成功的概率,則需要幾何分佈。
- 如何判斷是不是幾何分佈?
只要符合下面4個特點就可以判別你做的事情是就是幾何分佈了:
1)做某事件次數(也叫試驗次數)是固定的,用n表示(例如拋硬幣3次,表白5次),
2)每一次事件都有兩個可能的結果(成功,或者失敗)(例如每一次拋硬幣有2個結果:正面表示成功,反面表示失敗。 每一次表白有2個結果:表白成功,表白失敗)。
3)每一次“成功”的概率都是相等的,成功的概率用p表示(例如每一次拋硬幣正面朝上的概率都是1/2。 假設你是初出茅廬的小夥子,還不是老油條,所以你表白每一次成功的概率是一樣的)
4)你感興趣的是,進行x次嘗試這個事情,取得第1次成功的概率是多大。(例如你在玩拋硬幣的遊戲,想知道拋5次硬幣,只有第5次(就是滴1次成功)正面朝上的概率是多大。
你表白你的暗戀對象,你希望知道要表白3次,心儀對象答應和你手牽手的概率多大。)
正如你上面看到的,幾何分佈和二項分佈只有第4點,也就是解決問題目的不同。這個點夠不夠勁爆?(嘻嘻)
- 幾何分佈如何計算概率?
用下面公式就可以了:
p爲成功概率,即爲了在第x次嘗試取得第1次成功,首先你要失敗(x-1)次。
假如在表白之前,你計算出即使你嘗試表白3次,在最後1次成功的概率還是小於50%,還沒有拋硬幣的概率高。那你就要考慮換個追求對象。或者首先提升下自己,提高自己每一次表白的概率,比如別讓自己的鼻毛長出來。我之前讀書的一個師兄,每天鼻毛長出來,看的我都噁心,何況其他人呢。
幾何分佈的期望是E(x)=1/p。代表什麼意思呢?
假如你每次表白的成功概率是60%,同時你也符合幾何分佈的特點,所以期望E(x)=1/p=1/0.6=1.67
所以你可以期望自己表白1.67次(約等於2次)會成功。這樣的期望讓你信息倍增,起碼你不需要努力上100次才能成功,2次還是能做到的,有必要嘗試下。
幾何分佈的標準差:
1)2)泊松分佈
- 還是同樣的味道,還是同樣的討論,我們一起通過下面3個問題了解這個泊松分佈。
- 泊松分佈有啥用?
- 如何判斷是不是泊松分佈?
- 泊松分佈如何計算概率?
- 泊松分佈有啥用?
如果你想知道某個時間範圍內,發生某件事情x次的概率是多大。這時候就可以用泊松分佈輕鬆搞定。比如一天內中獎的次數,一個月內某機器損壞的次數等。
知道這些事情的概率有啥用呢?
當然是根據概率的大小來做出決策了。比如你搞了個抽獎活動,最後算出來一天內中獎10次的概率都超過了90%,然後你順便算了下期望,再和你的活動成本比一下,發現要賠不少錢。那這個活動就別搞了。
泊松分佈的形狀會隨着平均值的不同而有所變化,無論是一週內多少人能贏得彩票,還是每分鐘有多少人會打電話到呼叫中心,泊松分佈都可以告訴我們它們的概率。
- 什麼是泊松分佈?
符合以下3個特點就是泊松分佈:
1)事件是獨立事件(之前如果你看過我的《投資賺錢與概率》已經知道賭徒謬論了,所以類似抽獎這樣的就是獨立事件)
2)在任意相同的時間範圍內,事件發的概率相同(例如1天內中獎概率,與第2天內中間概率相同)
3)你想知道某個時間範圍內,發生某件事情x次的概率是多大(例如你搞了個促銷抽獎活動,想知道一天內10人中獎的概率)
用x代表事情發的次數(例如中獎10個人中獎),u代表給定時間範圍內事情發生的平均次數(例如你搞的抽獎活動1天平均中獎人數是5人),概率計算公式爲:
可別被上面的公式嚇到,數學公式就是紙老虎,現在有很多工具(Excel,Python,R)都可以直接計算出來這個概率,所以也別記住這個公式,用的時候知道泊松分佈適合啥時候用就妥了。
例如你搞了個促銷抽獎活動,只知道1天內中獎的平均個數爲5個,你想知道1天內恰巧中獎次數爲7的概率是多少?
此時x=7,u=5(區間內發生的平均次數),代入公式求出概率爲10.44%。Excel中的函數爲POISSON.DIST就可以立馬算出來。
泊松概率還有一個重要性質,它的數學期望和方差相等,都等於u
- 什麼是概率分佈?
概率分佈就是在統計圖中表示概率,橫軸是數據的值,縱軸是橫軸上對應數據值的概率。
- 概率分佈能當飯吃嗎?學了對我有啥用?
下次遇到類似的問題,你就可以直接套用“模板”(這些特殊分佈的規律)來求得概率了。
3.特殊的概率分佈有哪些?
3種離散概率分佈,分別代表瞭解決3種問題的“萬能模板”
1)3)二項分佈(Binomial distribution)
符合以下4個特點的就是二項分佈
1)做某件事的次數是固定的。
2)每一次事件都有兩個可能的結果(成功,或者失敗)
3)每一次成功的概率都是相等的
4)你感興趣的是成功x次的概率是多少
案例:
拋5次硬幣,有2次正面朝上的概率是多少
你買了之前我介紹你的5家公司的股票,假設投資的這5家公司成功的概率都相同,那麼你關心其中只要有3個投資成功,你就可以賺翻了,所以想知道成功3次的概率多大。
幾何何分佈(Geometric distribution)
只要符合下面4個特點就可以判別你做的事情是就是幾何分佈了:
1)做某事件次數(也叫試驗次數)是固定
2)每一次事件都有兩個可能的結果
3)每一次“成功”的概率都是相等的,成功的概率用p表示
4)你感興趣的是,進行x次嘗試這個事情,取得第1次成功的概率是多大。
案例:例如你在玩拋硬幣的遊戲,想知道拋5次硬幣,只有第5次(就是滴1次成功)正面朝上的概率是多大。
表白3次,第3次成功的概率多大
泊松分佈(poisson distribution)
- 符合以下3個特點就是泊松分佈:
1)事件是獨立事件
2)在任意相同的時間範圍內,事件發的概率相同
3)你想知道某個時間範圍內,發生某件事情x次的概率是多大
案例:例如你搞了個促銷抽獎活動,想知道一天內10人中獎的概率
例如你是公司質檢管理員,想知道一個月內某機器損壞的10次(假如超過10次一句認爲不合格)的概率是多少。
1種連續概率分佈:正態分佈(Normal distribution)
這個分佈在生活中太有用了,給我一種相見恨晚的“勁爆感”,留着下次聊
參考:
https://blog.csdn.net/yangzhongblog/article/details/77162906