一看題目就知道本文內容較多,但因爲放在一起討論才能互相比較理解異同。本文主要討論重尾分佈,長尾分佈,肥尾分佈三者的聯繫,同時順帶討論了一下 Random walk 中的 Lévy flight 和 Brownian motion。主要內容參考自 Wikipedia 和 Rick Wicklin 的博文 Fat-tailed and long-tailed distributions。其實我們討論重尾長尾肥尾,數學上並沒有一個明確的對於尾(tail)的定義,但這也並不妨礙我們進行一些推導和分析。
重尾分佈(Heavy-tailed distribution)
從博文 概率論基礎概念總結 Basic Concepts in Statistics 中我們瞭解到指數分佈在
重尾分佈更適用於對那些離峯值較遠的稀有事件也會有相當的概率發生的情況。重尾分佈作爲一個大的類別,還包含三個重要的子類別,分別是肥尾分佈(Fat-tailed distribution),長尾分佈(Long-tailed distribution)和次指數分佈(Subexponential distribution)。後文會對前兩者進行討論。
長尾分佈(Long-tailed distribution)
長尾分佈,或者說長尾理論是一個與互聯網發展分不開的概念。說到這裏就不得不先提一下傳統商業中的帕累托法則(Pareto principle),又稱爲二八定律。比如80%的財富集中在20%的人手裏,圖書館裏20%的書可以滿足80%的顧客。於是大家往往只關注在PDF圖中最左面的20%的顧客,以期滿足80%,如下圖綠色的部分,來實現效益的最大化。
(注:圖片來源 Wikipedia)
但在一些網上零售業中,如Amazon和Netflix,數據表明右端黃色的尾巴雖然平均需求小但是由於數量巨大,導致其總的營銷收益甚至超過主流的商品。這一發現似乎對商業界的觸動極大,也說明了正確建模的重要性。如果用指數分佈進行建模,這些遠端的需求也許就會被忽視;而用長尾分佈進行建模就可以發現這些新的需求從而帶來效益的提高。
長尾分佈的數學定義爲:
這兩個定義帶給人的一個有趣的直覺是,當一個長尾分佈的變量超過一個閾值時,那麼很有可能它也會超過一個更高的閾值。也就是說,如果你發現情況很糟糕了,那麼情況很有可能比你想象的更糟糕。
肥尾分佈(Fat-tailed distribution)
從建模的角度來看,肥尾分佈就是針對那些罕見事件雖然發生的概率低,但也必須要考慮到的情況。比如一個保險公司考慮災害的發生和保險的定價,那麼像自然災害這種情況,如果不考慮的話就可能面臨真的發生時要賠很多的情況。因爲正如肥尾分佈的名字所體現的,即使在遠離峯值的遠端,那些罕見事件還是有相當的概率會發生的。雖然我們常常用正態分佈對很多時間進行建模,但當一個事件的本質是肥尾分佈而我們誤用了正態分佈或指數分佈時,就存在着對“小概率事件真的發生”這種危險的低估。據說美國股市歷史上的黑色星期五,千禧年的互聯網泡沫破滅,以及2008年前後的金融危機都是這種錯誤的真實案例(來源:Wikipedia, Fat-tailed distribution)。
肥尾分佈的數學定義爲:
隨機遊走(Random walk)
所謂隨機遊走,是統計學中一個很廣泛的概念,包含了很多內容。我沒能找到一個統一的數學模型來描述隨機遊走,但大意就是在任意維度的空間裏,一個點隨機地向任意方向前進隨機長度的距離,然後重複這一步驟的過程。有一個有名的醉漢回家問題就是一個典型的一維隨機遊走的問題。
Lévy flight 是隨即遊走的一種,它的每一步方向完全隨機而各向同性,但步長的分佈是重尾分佈(heavy-tailed)。Brownian motion(好像)也算是隨即遊走的一種,它的步長的分佈取正態分佈。下面兩張圖來自Wikipedia,分別描述了1000次的基於柯西分佈的 Lévy flight (左)和基於正態分佈的Brownian motion(右)。
從這張圖上也可以比較明顯地看出 Lévy flight 出現大跨步的頻率確實要比 Brownian motion 要多一些。
已經有相當多的研究表明很多動物的移動模式可以用 Lévy flight 來描述。而近些年通過對人類的移動數據(通話記錄、出租車等)的挖掘,我們驚奇地發現人類的移動模式也和 Lévy flight 高度吻合[1]。也就是說,雖然我們每個人急功近利地去追求自己的目標,但在宏觀的尺度上,我們和山裏的猴子沒什麼區別[2]。
Ref.
[1] Brockmann, D., Hufnagel, L., & Geisel, T. (2006). The scaling laws of human travel. Nature. https://doi.org/10.1038/nature04292
[2] Rhee, I., Shin, M., Hong, S., Lee, K., & Chong, S. (2008). On the Levy-walk Nature of Human Mobility: Do Humans Walk like Monkeys? INFOCOM, 19(3), 630–643. https://doi.org/10.1109/TNET.2011.2120618