重尾分佈,長尾分佈,肥尾分佈 和 隨機遊走 (Heavy-tailed, Long-tailed, Fat-tailed distribution and Random walk)

一看題目就知道本文內容較多,但因爲放在一起討論才能互相比較理解異同。本文主要討論重尾分佈,長尾分佈,肥尾分佈三者的聯繫,同時順帶討論了一下 Random walk 中的 Lévy flight 和 Brownian motion。主要內容參考自 Wikipedia 和 Rick Wicklin 的博文 Fat-tailed and long-tailed distributions。其實我們討論重尾長尾肥尾,數學上並沒有一個明確的對於尾(tail)的定義,但這也並不妨礙我們進行一些推導和分析。

重尾分佈(Heavy-tailed distribution)

從博文 概率論基礎概念總結 Basic Concepts in Statistics 中我們瞭解到指數分佈在 x 的時候是以指數的速度趨近於0,那麼以指數分佈爲分界線,我們把 x 時下降速度更快的稱爲 Thin-tailed distribution (好像還沒有中文翻譯),比如正態分佈。也就是說,在遠離峯值的尾部區域,時間發生的概率更低一些。所以正態分佈用來對那些主流事件發生較多,非主流事件發生較少的情況進行建模更爲合適。與此相對的,把 x 時下降速度慢於指數分佈的成爲重尾分佈(Heavy-tailed distribution)。其數學定義爲:

limxeλxF¯(x)=,for all λ>0
其中,F¯(x)Pr(X>x) 是所謂的尾分佈函數。

重尾分佈更適用於對那些離峯值較遠的稀有事件也會有相當的概率發生的情況。重尾分佈作爲一個大的類別,還包含三個重要的子類別,分別是肥尾分佈(Fat-tailed distribution),長尾分佈(Long-tailed distribution)和次指數分佈(Subexponential distribution)。後文會對前兩者進行討論。

長尾分佈(Long-tailed distribution)

長尾分佈,或者說長尾理論是一個與互聯網發展分不開的概念。說到這裏就不得不先提一下傳統商業中的帕累托法則(Pareto principle),又稱爲二八定律。比如80%的財富集中在20%的人手裏,圖書館裏20%的書可以滿足80%的顧客。於是大家往往只關注在PDF圖中最左面的20%的顧客,以期滿足80%,如下圖綠色的部分,來實現效益的最大化。

這裏寫圖片描述

(注:圖片來源 Wikipedia)

但在一些網上零售業中,如Amazon和Netflix,數據表明右端黃色的尾巴雖然平均需求小但是由於數量巨大,導致其總的營銷收益甚至超過主流的商品。這一發現似乎對商業界的觸動極大,也說明了正確建模的重要性。如果用指數分佈進行建模,這些遠端的需求也許就會被忽視;而用長尾分佈進行建模就可以發現這些新的需求從而帶來效益的提高。
長尾分佈的數學定義爲:

limxPr(X>x+t|X>x)=1,
就是說,當 x 很大的時候,很有可能 x 實際上更大。另一個等效的定義是:
F¯(x+t)F¯(x)

這兩個定義帶給人的一個有趣的直覺是,當一個長尾分佈的變量超過一個閾值時,那麼很有可能它也會超過一個更高的閾值。也就是說,如果你發現情況很糟糕了,那麼情況很有可能比你想象的更糟糕。

肥尾分佈(Fat-tailed distribution)

從建模的角度來看,肥尾分佈就是針對那些罕見事件雖然發生的概率低,但也必須要考慮到的情況。比如一個保險公司考慮災害的發生和保險的定價,那麼像自然災害這種情況,如果不考慮的話就可能面臨真的發生時要賠很多的情況。因爲正如肥尾分佈的名字所體現的,即使在遠離峯值的遠端,那些罕見事件還是有相當的概率會發生的。雖然我們常常用正態分佈對很多時間進行建模,但當一個事件的本質是肥尾分佈而我們誤用了正態分佈或指數分佈時,就存在着對“小概率事件真的發生”這種危險的低估。據說美國股市歷史上的黑色星期五,千禧年的互聯網泡沫破滅,以及2008年前後的金融危機都是這種錯誤的真實案例(來源:Wikipedia, Fat-tailed distribution)。
肥尾分佈的數學定義爲:

limxPr[X>x]xα,α>0
也就是說,在 x 較大的地方,肥尾分佈趨於0的速度是明顯慢於指數分佈和正態分佈的。柯西分佈(Cauchy distribution)就是一類有名的肥尾分佈。關於柯西分佈,有幾個有趣的性質,首先它是穩定的(stable),也有着顯式的PDF和CDF,但是它的均值和方差確是無法定義的(undefined)。於是中心極限定理在這裏就不適用了。如果試着做一下仿真,我們也可以發現,隨着實驗次數的增大,樣本的均值並不會逐漸收斂到某個值上,而出現這種情況的原因就是時不時出現的“異常大值”會明顯改變樣本的均值。關於柯西分佈,穩定分佈和正態分佈的關係,以後可能會再寫博文來闡述。

隨機遊走(Random walk)

所謂隨機遊走,是統計學中一個很廣泛的概念,包含了很多內容。我沒能找到一個統一的數學模型來描述隨機遊走,但大意就是在任意維度的空間裏,一個點隨機地向任意方向前進隨機長度的距離,然後重複這一步驟的過程。有一個有名的醉漢回家問題就是一個典型的一維隨機遊走的問題。
Lévy flight 是隨即遊走的一種,它的每一步方向完全隨機而各向同性,但步長的分佈是重尾分佈(heavy-tailed)。Brownian motion(好像)也算是隨即遊走的一種,它的步長的分佈取正態分佈。下面兩張圖來自Wikipedia,分別描述了1000次的基於柯西分佈的 Lévy flight (左)和基於正態分佈的Brownian motion(右)。


這裏寫圖片描述這裏寫圖片描述

從這張圖上也可以比較明顯地看出 Lévy flight 出現大跨步的頻率確實要比 Brownian motion 要多一些。

已經有相當多的研究表明很多動物的移動模式可以用 Lévy flight 來描述。而近些年通過對人類的移動數據(通話記錄、出租車等)的挖掘,我們驚奇地發現人類的移動模式也和 Lévy flight 高度吻合[1]。也就是說,雖然我們每個人急功近利地去追求自己的目標,但在宏觀的尺度上,我們和山裏的猴子沒什麼區別[2]。

Ref.
[1] Brockmann, D., Hufnagel, L., & Geisel, T. (2006). The scaling laws of human travel. Nature. https://doi.org/10.1038/nature04292
[2] Rhee, I., Shin, M., Hong, S., Lee, K., & Chong, S. (2008). On the Levy-walk Nature of Human Mobility: Do Humans Walk like Monkeys? INFOCOM, 19(3), 630–643. https://doi.org/10.1109/TNET.2011.2120618

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章