概率論數理統計 挺全的

轉自  http://www.cnblogs.com/v-July-v/archive/2012/12/17/3125418.html


數據挖掘中所需的概率論與數理統計知識、上

關鍵詞:微積分、概率分佈、期望、方差、協方差、數理統計簡史、大數定律、中心極限定理、正態分佈


導言:本文從微積分相關概念,梳理到概率論與數理統計中的相關知識,但本文之壓軸戲在本文第4節徹底顛覆以前讀書時大學課本灌輸給你的觀念,一探正態分佈之神祕芳蹤,知曉其前後發明歷史由來),相信,每一個學過概率論與數理統計的朋友都有必要了解數理統計學簡史,因爲,只有瞭解各個定理.公式的發明歷史,演進歷程.相關聯繫,才能更好的理解你眼前所見到的知識,才能更好的運用之。


前言

一個月餘前,在微博上感慨道,不知日後是否有無機會搞DM,微博上的朋友只看不發的圍脖評論道:算法研究領域,那裏要的是數學,你可以深入學習數學,將算法普及當興趣。想想,甚合我意。自此,便從rickjin寫的“正態分佈的前世今生”開始研習數學。

如之前微博上所說,“今年5月接觸DM,循序學習決策樹.貝葉斯,SVM.KNN,感數學功底不足,遂補數學,從‘正態分佈的前後今生’中感到數學史有趣,故買本微積分概念發展史讀,在歎服前人偉大的創造之餘,感微積分概念模糊,複習高等數學上冊,完後學概率論與數理統計,感概道:微積分是概數統計基礎,概數統計則是DM&ML之必修課。”包括讀者相信也已經感覺到,我在寫這個Top 10 Algorithms in Data Mining系列的時候,其中涉及到諸多的數學概念與基礎知識(例如此篇SVM文章內諸多max.s.t.對偶.KKT條件.拉格朗日.鬆弛因子等問題則皆屬於數學內一分支:最優化理論與算法範疇內),特別是概率論與數理統計部分。更進一步,在寫上一篇文章的時候,看到機器學習中那麼多距離度量的表示法,發現連最起碼的期望,方差,標準差等基本概念都甚感模糊,於此,便深感數學之重要性。

很快,我便買了一本高等教育出版社出版的概率論與數理統計一書,此書從0-1分佈、到二項分佈、正態分佈,概率密度函數,從期望到方差、標準差、協方差,中心極限定理,樣本和抽樣,從最大似然估計量到各種置信區間,從方差分析到迴歸分析,bootstrap方法,最後到馬爾可夫鏈,以前在學校沒開概率論與數理統計這門課,現在有的學有的看了”。且人類發明計算機,是爲了輔助人類解決現實生活中遇到的問題,然計算機科學畢竟只發展了數十年,可在數學.統計學中,諸多現實生活問題已經思考了數百年甚至上千年,故,計算機若想更好的服務人類解決問題,須有效借鑑或參考數學.統計學。世間萬事萬物,究其本質乃數學,於變化莫測中尋其規律謂之統計學。

話休絮煩。本文結合高等數學上下冊微積分概念發展史概率論與數理統計數理統計學簡史等書,及rickjin寫的“正態分佈的前世今生”系列(此文亦可看作讀書筆記或讀後感)與wikipedia整理而成,對數據挖掘中所需的概率論與數理統計相關知識概念作個總結梳理,方便你我隨時查看複習相關概念,而欲深入學習研究的課後還需參看相關專業書籍.資料。同時,本文篇幅會比較長,簡單來說:

  1. 第一節、介紹微積分中極限、導數,微分、積分等相關概念;
  2. 第二節、介紹隨機變量及其分佈;
  3. 第三節、介紹數學期望.方差.協方差.相關係數.中心極限定理等概念;
  4. 第四節、依據數理統計學簡史介紹正態分佈的前後由來;
  5. 第五節、論道正態,介紹正態分佈的4大數學推導。

5部分起承轉合,彼此依託,層層遞進。且在本文中,會出現諸多並不友好的大量各種公式,但基本的概念.定理是任何複雜問題的根基,所以,你我都有必要硬着頭皮好好細細閱讀。最後,本文若有任何問題或錯誤,懇請廣大讀者朋友們不吝批評指正,謝謝。


第一節、微積分的基本概念

開頭前言說,微積分是概數統計基礎,概數統計則是DM&ML之必修課”,是有一定根據的,包括後續數理統計當中,如正態分佈的概率密度函數中用到了相關定積分的知識,包括最小二乘法問題的相關探討求證都用到了求偏導數的等概念,這些都是跟微積分相關的知識。故咱們第一節先複習下微積分的相關基本概念。

事實上,古代數學中,單單無窮小、無窮大的概念就討論了近200年,而後才由無限發展到極限的概念。

1.1、極限

極限又分爲兩部分:數列的極限和函數的極限。

1.1.1、數列的極限

定義 如果數列{xn}與常a 有下列關係:對於任意給定的正數e (不論它多麼小), 總存在正整數N , 使得對於n >N 時的一切xn, 不等式 |xn-a |<e都成立, 則稱常數a 是數列{xn}的極限, 或者稱數列{xn}收斂於a , 記爲

也就是說,

1.1.2、函數的極限

設函數f(x)在點x0的某一去心鄰域內有定義. 如果存在常數A, 對於任意給定的正數e (不論它多麼小), 總存在正數d, 使得當x滿足不等式0<|x-x0|<d 時, 對應的函數值f(x)都滿足不等式|f(x)-A|<e , 那麼常數A就叫做函數f(x)時的極限, 記爲

也就是說,

幾乎沒有一門新的數學分支是某個人單獨的成果,如笛卡兒和費馬的解析幾何不僅僅是他們兩人研究的成果,而是若干數學思潮在16世紀和17世紀匯合的產物,是由許許多多的學者共同努力而成。

甚至微積分的發展也不是牛頓與萊布尼茨兩人之功。在17世紀下半葉,數學史上出現了無窮小的概念,而後才發展到極限,到後來的微積分的提出。然就算牛頓和萊布尼茨提出了微積分,但微積分的概念尚模糊不清,在牛頓和萊布尼茨之後,後續經過一個多世紀的發展,諸多學者的努力,才真正清晰了微積分的概念。

也就是說,從無窮小到極限,再到微積分定義的真正確立,經歷了幾代人幾個世紀的努力,而課本上所呈現的永遠只是冰山一角。

1.2、導數

設有定義域和取值都在實數域中的函數。若在點的某個鄰域內有定義,則當自變量處取得增量(點仍在該鄰域內)時,相應地函數取得增量;如果之比當時的極限存在,則稱函數在點處可導,並稱這個極限爲函數在點處的導數,記爲
即:

也可記爲:

1.3、微分

設函數在某區間內有定義。對於內一點,當變動到附近的也在此區間內)時。如果函數的增量可表示爲(其中是不依賴於的常數),而是比高階的無窮小,那麼稱函數在點是可微的,且稱作函數在點相應於自變量增量的微分,記作,即的線性主部。通常把自變量的增量稱爲自變量的微分,記作,即
實際上,前面講了導數,而微積分則是在導數的基礎上加個後綴,即爲:

1.4、積分

積分是微積分學與數學分析裏的一個核心概念。通常分爲定積分和不定積分兩種。
不定積分的定義
一個函數的不定積分,也稱爲原函數或反導數,是一個導數等於的函數,即
不定積分的有換元積分法,分部積分法等求法。
定積分的定義
直觀地說,對於一個給定的正實值函數,在一個實數區間上的定積分
定積分與不定積分區別在於不定積分便是不給定區間,也就是說,上式子中,積分符號沒有a、b。下面,介紹定積分中值定理。
如果函數f(x)在閉區間[a,b]上連續, 則在積分區間[a,b]上至少存在一個點,使下式成立:
這個公式便叫積分中值公式。
牛頓-萊布尼茨公式
接下來,咱們講介紹微積分學中最重要的一個公式:牛頓-萊布尼茨公式。
如果函數F (x)是連續函數f(x)在區間[a, b]上的一個原函數, 則
此公式稱爲牛頓-萊布尼茨公式, 也稱爲微積分基本公式。這個公式由此便打通了原函數與定積分之間的聯繫,它表明:一個連續函數在區間[a, b]上的定積分等於它的任一個原函數在區間[a, b]上的增量,如此,便給定積分提供了一個有效而極爲簡單的計算方法,大大簡化了定積分的計算手續。
下面,舉個例子說明如何通過原函數求取定積分。
如要計算,由於的一個原函數,所以

1.5、偏導數

對於二元函數z = f(x,y) 如果只有自變量x 變化,而自變量y固定 這時它就是x的一元函數,這函數對x的導數,就稱爲二元函數z = f(x,y)對於x的偏導數。
定義 設函數z = f(x,y)在點(x0,y0)的某一鄰域內有定義,當y固定在y0而x在x0處有增量時,相應地函數有增量
如果極限
存在,則稱此極限爲函數z = f(x,y)在點(x0,y0)處對 x 的偏導數,記作:
例如。類似的,二元函數對y求偏導,則把x當做常量。
此外,上述內容只講了一階偏導,而有一階偏導就有二階偏導,這裏只做個簡要介紹,具體應用具體分析,或參看高等數學上下冊相關內容。接下來,進入本文的主題,從第二節開始。


第二節、離散.連續.多維隨機變量及其分佈

2.1、幾個基本概念點

(一)樣本空間

定義:隨機試驗E的所有結果構成的集合稱爲E的 樣本空間,記爲S={e},
稱S中的元素e爲樣本點,一個元素的單點集稱爲基本事件.

(二)條件概率

  1. 條件概率就是事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示爲P(A|B),讀作“在B條件下A的概率”。
  2. 聯合概率表示兩個事件共同發生的概率。A與B的聯合概率表示爲或者
  3. 邊緣概率是某個事件發生的概率。邊緣概率是這樣得到的:在聯合概率中,把最終結果中不需要的那些事件合併成其事件的全概率而消失(對離散隨機變量用求和得全概率,對連續隨機變量用積分得全概率)。這稱爲邊緣化(marginalization)。A的邊緣概率表示爲P(A),B的邊緣概率表示爲P(B)。
在同一個樣本空間Ω中的事件或者子集A與B,如果隨機從Ω中選出的一個元素屬於B,那麼這個隨機選擇的元素還屬於A的概率就定義爲在B的前提下A的條件概率。從這個定義中,我們可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到
有時候也稱爲後驗概率。
同時,P(A|B)與P(B|A)的關係如下所示:

(三)全概率公式和貝葉斯公式

1、全概率公式
假設{ Bn : n = 1, 2, 3, ... } 是一個概率空間的有限或者可數無限的分割,且每個集合Bn是一個可測集合,則對任意事件A有全概率公式:
又因爲
所以,此處Pr(A | B)是B發生後A的條件概率,所以全概率公式又可寫作:

在離散情況下,上述公式等於下面這個公式:。但後者在連續情況下仍然成立:此處N是任意隨機變量。這個公式還可以表達爲:"A的先驗概率等於A的後驗概率的先驗期望值。
2、貝葉斯公式
貝葉斯定理(Bayes' theorem),是概率論中的一個結果,它跟隨機變量的條件概率以及邊緣概率分佈有關。在有些關於概率的解說中,貝葉斯定理(貝葉斯更新)能夠告知我們如何利用新證據修改已有的看法。
通常,事件A在事件B(發生)的條件下的概率,與事件B在事件A的條件下的概率是不一樣的;然而,這兩者是有確定的關係,貝葉斯定理就是這種關係的陳述。
此篇blog第二部分所述“據維基百科上的介紹,貝葉斯定理實際上是關於隨機事件A和B的條件概率和邊緣概率的一則定理。
如上所示,其中P(A|B)是在B發生的情況下A發生的可能性。在貝葉斯定理中,每個名詞都有約定俗成的名稱:
  • P(A)是A的先驗概率或邊緣概率。之所以稱爲"先驗"是因為它不考慮任何B方面的因素。
  • P(A|B)是已知B發生後A的條件概率(直白來講,就是先有B而後=>纔有A),也由於得自B的取值而被稱作A的後驗概率。
  • P(B|A)是已知A發生後B的條件概率(直白來講,就是先有A而後=>纔有B),也由於得自A的取值而被稱作B的後驗概率。
  • P(B)是B的先驗概率或邊緣概率,也作標準化常量(normalized constant)。
按這些術語,Bayes定理可表述爲:後驗概率 = (相似度*先驗概率)/標準化常量,也就是說,後驗概率與先驗概率和相似度的乘積成正比。另外,比例P(B|A)/P(B)也有時被稱作標準相似度(standardised likelihood),Bayes定理可表述爲:後驗概率 = 標準相似度*先驗概率。”
綜上,自此便有了一個問題,如何從從條件概率推導貝葉斯定理呢?

根據條件概率的定義,在事件B發生的條件下事件A發生的概率是

同樣地,在事件A發生的條件下事件B發生的概率

整理與合併這兩個方程式,我們可以找到

這個引理有時稱作概率乘法規則。上式兩邊同除以P(B),若P(B)是非零的,我們可以得到貝葉斯 定理:

2.2、隨機變量及其分佈

2.2.1、何謂隨機變量

何謂隨機變量?即給定樣本空間,其上的實值函數稱爲(實值)隨機變量。

如果隨機變量的取值是有限的或者是可數無窮盡的值,則稱爲離散隨機變量(用白話說,此類隨機變量是間斷的)。
如果由全部實數或者由一部分區間組成,則稱爲連續隨機變量,連續隨機變量的值是不可數及無窮盡的(用白話說,此類隨機變量是連續的,不間斷的):

也就是說,隨機變量分爲離散型隨機變量,和連續型隨機變量,當要求隨機變量的概率分佈的時候,要分別處理之,如:

  • 針對離散型隨機變量而言,一般以加法的形式處理其概率和;
  • 而針對連續型隨機變量而言,一般以積分形式求其概率和。

再換言之,對離散隨機變量用求和得全概率,對連續隨機變量用積分得全概率。這點包括在第4節中相關期望.方差.協方差等概念會反覆用到,望讀者注意之。

2.2.2、離散型隨機變量的定義

定義:取值至多可數的隨機變量爲離散型的隨機變量。概率分佈(分佈律)爲

(一)(0-1)分佈

若X的分佈律爲:
同時,p+q=1,p>0,q>0,則則稱X服從參數爲p的0-1分佈,或兩點分佈。
此外,(0-1)分佈的分佈律還可表示爲:
我們常說的拋硬幣實驗便符合此(0-1)分佈。

(二)、二項分佈

二項分佈是n個獨立的是/非試驗中成功的次數的離散概率分佈,其中每次試驗的成功概率爲p。這樣的單次成功/失敗試驗又稱爲伯努利試驗。舉個例子就是,獨立重複地拋n次硬幣,每次只有兩個可能的結果:正面,反面,概率各佔1/2。
設A在n重貝努利試驗中發生X次,則
並稱X服從參數爲p的二項分佈,記爲:
與此同時,

(三)、泊松分佈(Poisson分佈)

Poisson分佈(法語:loi de Poisson,英語:Poisson distribution),即泊松分佈,是一種統計與概率學裏常見到的離散概率分佈,由法國數學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時發表。
若隨機變量X的概率分佈律爲
稱X服從參數爲λ的泊松分佈,記爲:
有一點提前說一下,泊松分佈中,其數學期望與方差相等,都爲參數λ。
泊松分佈的來源
在二項分佈的伯努力試驗中,如果試驗次數n很大,二項分佈的概率p很小,且乘積λ= n p比較適中,則事件出現的次數的概率可以用泊松分佈來逼近。事實上,二項分佈可以看作泊松分佈在離散時間上的對應物。證明如下。
首先,回顧e的定義:
二項分佈的定義:
如果令趨於無窮時的極限:
上述過程表明:Poisson(λ) 分佈可以看成是二項分佈 B(n,p) 在 np=λ,n→∞ 條件下的極限分佈。
最大似然估計
給定n個樣本值ki,希望得到從中推測出總體的泊松分佈參數λ的估計。爲計算最大似然估計值, 列出對數似然函數:
對函數L取相對於λ的導數並令其等於零:
解得λ從而得到一個駐點(stationary point):
檢查函數L的二階導數,發現對所有的λ 與ki大於零的情況二階導數都爲負。因此求得的駐點是對數似然函數L的極大值點:
證畢。OK,上面內容都是針對的離散型隨機變量,那如何求連續型隨機變量的分佈律呢?請接着看以下內容。

2.2.3、隨機變量分佈函數定義的引出

實際中,如上2.2.2節所述,
  • 對於離散型隨機變量而言,其所有可能的取值可以一一列舉出來,
  • 可對於非離散型隨機變量,即連續型隨機變量X而言,其所有可能的值則無法一一列舉出來,
故連續型隨機變量也就不能像離散型隨機變量那般可以用分佈律來描述它,那怎麼辦呢(事實上,只有因爲連續,所以纔可導,所以纔可積分,這些東西都是相通的。當然了,連續不一定可導,但可導一定連續)?
既然無法研究其全部,那麼我們可以轉而去研究連續型隨機變量所取的值在一個區間(x1,x2] 的概率:P{x1 < X <=x2 },同時注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1},故要求P{x1 < X <=x2 } ,我們只需求出P{X <=x2} 和 P{X <=x1} 即可。
針對隨機變量X,對應變量x,則P(X<=x) 應爲x的函數。如此,便引出了分佈函數的定義。
定義:隨機變量X,對任意實數x,稱函數F(x) = P(X <=x ) 爲X 的概率分佈函數,簡稱分佈函數。
F(x)的幾何意義如下圖所示:
且對於任意實數x1,x2(x1<x2),有P{x1<X<=x2} = P{X <=x2} - P{X <= x1} = F(x2) - F(x1)。
同時,F(X)有以下幾點性質:

2.2.4、連續型隨機變量及其概率密度

定義:對於隨機變量X的分佈函數F(x),若存在非負的函數f(x),使對於任意實數x,有:
則稱X爲連續型隨機變量,其中f(x)稱爲X的概率密度函數,簡稱概率密度。連續型隨機變量的概率密度f(x)有如下性質:



(針對上述第3點性質,我重點說明下:
    1. 在上文第1.4節中,有此牛頓-萊布尼茨公式:如果函數F (x)是連續函數f(x)在區間[a, b]上的一個原函數, 則
    2. 在上文2.2.3節,連續隨機變量X 而言,對於任意實數a,b(a<b),有P{a<X<=b} = P{X <=b} - P{X <= a} = F(b) - F(a);
故結合上述兩點,便可得出上述性質3)

且如果概率密度函數在一點上連續,那麼累積分佈函數可導,並且它的導數:。如下圖所示:
接下來,介紹三種連續型隨機變量的分佈,由於均勻分佈及指數分佈比較簡單,所以,一圖以概之,下文會重點介紹正態分佈。
(一)、均勻分佈
若連續型隨機變量X具有概率密度
則稱X 在區間(a,b)上服從均勻分佈,記爲X~U(a,b)。
易知,f(x) >= 0,且其期望值爲(a + b)/ 2。
(二)、指數分佈
若連續型隨機變量X 的概率密度爲
其中λ>0爲常數,則稱X服從參數爲λ的指數分佈。記爲
(三)、正態分佈
在各種公式紛至沓來之前,我先說一句:正態分佈沒有你想的那麼神祕,它無非是研究誤差分佈的一個理論,因爲實踐過程中,測量值和真實值總是存在一定的差異,這個不可避免的差異即誤差,而誤差的出現或者分佈是有規律的,而正態分佈不過就是研究誤差的分佈規律的一個理論。
OK,若隨機變量服從一個位置參數爲、尺度參數爲的概率分佈,記爲:
則其概率密度函數爲
我們便稱這樣的分佈爲正態分佈或高斯分佈,記爲:
正態分佈的數學期望值或期望值等於位置參數,決定了分佈的位置;其方差的開平方,即標準差等於尺度參數,決定了分佈的幅度。正態分佈的概率密度函數曲線呈鐘形,因此人們又經常稱之爲鐘形曲線。它有以下幾點性質,如下圖所示:
正態分佈的概率密度曲線則如下圖所示:

當固定尺度參數,改變位置參數的大小時,f(x)圖形的形狀不變,只是沿着x軸作平移變換,如下圖所示:
而當固定位置參數,改變尺度參數的大小時,f(x)圖形的對稱軸不變,形狀在改變,越小,圖形越高越瘦,越大,圖形越矮越胖。如下圖所示:
故有咱們上面的結論,在正態分佈中,稱μ爲位置參數(決定對稱軸位置),而 σ爲尺度參數(決定曲線分散性)。同時,在自然現象和社會現象中,大量隨機變量服從或近似服從正態分佈。
而我們通常所說的標準正態分佈是位置參數, 尺度參數的正態分佈,記爲:
相關內容如下兩圖總結所示(來源:大嘴巴漫談數據挖掘):

2.2.5、各種分佈的比較

上文中,從離散型隨機變量的分佈:(0-1)分佈、泊松分佈、二項分佈,講到了連續型隨機變量的分佈:均勻分佈、指數分佈、正態分佈,那這麼多分佈,其各自的期望.方差(期望方差的概念下文將予以介紹)都是多少呢?雖說,還有不少分佈上文尚未介紹,不過在此,提前總結下,如下兩圖所示(摘自盛驟版的概率論與數理統計一書後的附錄中):
本文中,二維.多維隨機變量及其分佈不再論述。



第三節、從數學期望、方差、協方差到中心極限定理

3.1、數學期望、方差、協方差

3.1.1、數學期望

如果X是在概率空間(Ω, P)中的一個隨機變量,那麼它的期望值E[X]的定義是:
並不是每一個隨機變量都有期望值的,因爲有的時候這個積分不存在。如果兩個隨機變量的分佈相同,則它們的期望值也相同。
在概率論和統計學中,數學期望分兩種(依照上文第二節相關內容也可以得出),一種爲離散型隨機變量的期望值,一種爲連續型隨機變量的期望值。
  • 一個離散性隨機變量的期望值(或數學期望、或均值,亦簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和。換句話說,期望值是隨機試驗在同樣的機會下重複多次的結果計算出的等同“期望”的平均值。
例如,擲一枚六面骰子,得到每一面的概率都爲1/6,故其的期望值是3.5,計算如下:
承上,如果X 是一個離散的隨機變量,輸出值爲x1, x2, ..., 和輸出值相應的概率爲p1, p2, ...(概率和爲1),若級數絕對收斂,那麼期望值E[X]是一個無限數列的和:
上面擲骰子的例子就是用這種方法求出期望值的。
  • 而對於一個連續型隨機變量來說,如果X的概率分佈存在一個相應的概率密度函數f(x),若積分絕對收斂,那麼X 的期望值可以計算爲:
實際上,此連續隨機型變量的期望值的求法與離散隨機變量的期望值的算法同出一轍,由於輸出值是連續的,只不過是把求和改成了積分。

3.1.2、方差與標準差

方差
在概率論和統計學中,一個隨機變量的方差(Variance)描述的是它的離散程度,也就是該變量離其期望值的距離。一個實隨機變量的方差也稱爲它的二階矩或二階中心動差,恰巧也是它的二階累積量。方差的算術平方根稱爲該隨機變量的標準差。
其定義爲:如果是隨機變量X的期望值(平均數) 設爲服從分佈的隨機變量,則稱爲隨機變量或者分佈的方差:
其中,μ爲平均數,N爲樣本總數。
分別針對離散型隨機變量和連續型隨機變量而言,方差的分佈律和概率密度如下圖所示:
標準差
標準差(Standard Deviation),在概率統計中最常使用作爲統計分佈程度(statistical dispersion)上的測量。標準差定義爲方差的算術平方根,反映組內個體間的離散程度。
簡單來說,標準差是一組數值自平均值分散開來的程度的一種測量觀念。一個較大的標準差,代表大部分的數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。例如,兩組數的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二個集合具有較小的標準差。
前面說過,方差的算術平方根稱爲該隨機變量的標準差,故一隨機變量的標準差定義爲:
須注意並非所有隨機變量都具有標準差,因爲有些隨機變量不存在期望值。 如果隨機變量具有相同概率,則可用上述公式計算標準差。
上述方差.標準差等相關內容,可用下圖總結之:
樣本標準差
在真實世界中,除非在某些特殊情況下,找到一個總體的真實的標準差是不現實的。大多數情況下,總體標準差是通過隨機抽取一定量的樣本並計算樣本標準差估計的。說白了,就是數據海量,想計算總體海量數據的標準差無異於大海撈針,那咋辦呢?抽取其中一些樣本作爲抽樣代表唄。
而從一大組數值當中取出一樣本數值組合,進而,我們可以定義其樣本標準差爲:
樣本方差是對總體方差的無偏估計。中分母爲 n-1 是因爲的自由度爲n-1(且慢,何謂自由度?簡單說來,即指樣本中的n個數都是相互獨立的,從其中抽出任何一個數都不影響其他數據,所以自由度就是估計總體參數時獨立數據的數目,而平均數是根據n個獨立數據來估計的,因此自由度爲n),這是由於存在約束條件

3.1.3、協方差與相關係數

協方差
下圖即可說明何謂協方差,同時,引出相關係數的定義:

相關係數

如上篇kd樹blog所述相關係數 ( Correlation coefficient )的定義是:


(其中,E爲數學期望或均值,D爲方差,D開根號爲標準差,E{ [X-E(X)] [Y-E(Y)]}稱爲隨機變量X與Y的協方差,記爲Cov(X,Y),即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},而兩個變量之間的協方差和標準差的商則稱爲隨機變量X與Y的相關係數,記爲)
相關係數衡量隨機變量X與Y相關程度的一種方法,相關係數的取值範圍是[-1,1]。相關係數的絕對值越大,則表明X與Y相關度越高。當X與Y線性相關時,相關係數取值爲1(正線性相關)或-1(負線性相關)。
具體的,如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:

  1. 當相關係數爲0時,X和Y兩變量無關係。
  2. 當X的值增大(減小),Y值增大(減小),兩個變量爲正相關,相關係數在0.00與1.00之間。
  3. 當X的值增大(減小),Y值減小(增大),兩個變量爲負相關,相關係數在-1.00與0.00之間。
根據相關係數,相關距離可以定義爲:

這裏只對相關係數做個簡要介紹,欲瞭解機器學習中更多相似性距離度量表示法,可以參看上篇kd樹blog第一部分內容。
自此,已經介紹完期望方差協方差等基本概念,但一下子要讀者接受那麼多概念,怕是有難爲讀者之嫌,不如再上幾幅圖鞏固下上述相關概念吧(來源:大嘴巴滿談數據挖掘):

3.1.4、協方差矩陣與主成成分分析

協方差矩陣

由上,我們已經知道:協方差是衡量兩個隨機變量的相關程度。且隨機變量之間的協方差可以表示爲

故根據已知的樣本值可以得到協方差的估計值如下:

可以進一步地簡化爲:

如此,便引出了所謂的協方差矩陣:

主成成分分析

儘管從上面看來,協方差矩陣貌似很簡單,可它卻是很多領域裏的非常有力的工具。它能導出一個變換矩陣,這個矩陣能使數據完全去相關(decorrelation)。從不同的角度看,也就是說能夠找出一組最佳的基以緊湊的方式來表達數據。這個方法在統計學中被稱爲主成分分析(principal components analysis,簡稱PCA),在圖像處理中稱爲Karhunen-Loève 變換(KL-變換)。

根據wikipedia上的介紹,主成分分析PCA由卡爾·皮爾遜於1901年發明,用於分析數據及建立數理模型。其方法主要是通過對協方差矩陣進行特徵分解,以得出數據的主成分(即特徵矢量)與它們的權值(即特徵值)。PCA是最簡單的以特徵量分析多元統計分佈的方法。其結果可以理解爲對原數據中的方差做出解釋:哪一個方向上的數據值對方差的影響最大。

然爲何要使得變換後的數據有着最大的方差呢?我們知道,方差的大小描述的是一個變量的信息量,我們在講一個東西的穩定性的時候,往往說要減小方差,如果一個模型的方差很大,那就說明模型不穩定了。但是對於我們用於機器學習的數據(主要是訓練數據),方差大才有意義,不然輸入的數據都是同一個點,那方差就爲0了,這樣輸入的多個數據就等同於一個數據了。

簡而言之,主成分分析PCA,留下主成分,剔除噪音,是一種降維方法,限高斯分佈,n維眏射到k維,
  1. 減均值,
  2. 求特徵協方差矩陣,
  3. 求協方差的特徵值和特徵向量,
  4. 取最大的k個特徵值所對應的特徵向量組成特徵向量矩陣,
  5. 投影數據=原始樣本矩陣x特徵向量矩陣。其依據爲最大方差,最小平方誤差或座標軸相關度理論,及矩陣奇異值分解SVD(即SVD給PCA提供了另一種解釋)。
也就是說,高斯是0均值,其方差定義了信噪比,所以PCA是在對角化低維表示的協方差矩陣,故某一個角度而言,只需要理解方差、均值和協方差的物理意義,PCA就很清晰了。

再換言之,PCA提供了一種降低數據維度的有效辦法;如果分析者在原數據中除掉最小的特徵值所對應的成分,那麼所得的低維度數據必定是最優化的(也即,這樣降低維度必定是失去訊息最少的方法)。主成分分析在分析複雜數據時尤爲有用,比如人臉識別。

3.2、中心極限定理

本節先給出現在一般的概率論與數理統計教材上所介紹的2個定理,然後簡要介紹下中心極限定理的相關歷史。

3.2.1、獨立同分布的中心極限定理

獨立中心極限定理如下兩圖所示:

3.2.2、棣莫弗-拉普拉斯中心極限定理

此外,據wikipedia上的介紹,包括上面介紹的棣莫弗-拉普拉斯定理在內,歷史上前後發展了三個相關的中心極限定理,它們得出的結論及內容分別是:

  • 棣莫弗-拉普拉斯(de Movire - Laplace)定理是中心極限定理的最初版本,討論了服從二項分佈的隨機變量序列。
其內容爲:若是n次伯努利實驗中事件A出現的次數,,則對任意有限區間
(i)當時,一致地有

(ii)當時,一致地有
,其中
它指出,參數爲n, p的二項分佈以np爲均值、np(1-p)爲方差的正態分佈爲極限
  • 林德伯格-列維(Lindeberg-Levy)定理,是棣莫佛-拉普拉斯定理的擴展,討論獨立同分布隨機變量序列的中心極限定理。
其內容爲:設隨機變量獨立同分布, 且具有有限的數學期望和方差
,則其中是標準正態分佈的分佈函數。
它表明,獨立同分布、且數學期望和方差有限的隨機變量序列的標準化和以標準正態分佈爲極限
  • 林德伯格-費勒定理,是中心極限定理的高級形式,是對林德伯格-列維定理的擴展,討論獨立,但不同分佈的情況下的隨機變量和。
其內容爲:記隨機變量序列獨立但不一定同分布,且有有限方差)部分和爲
如果對每個,序列滿足
則稱它滿足林德伯格(Lindeberg)條件。
滿足此條件的序列趨向於正態分佈,即
與之相關的是李雅普諾夫(Lyapunov)條件:
滿足李雅普諾夫條件的序列必滿足林德伯格條件。

它表明,滿足一定條件時,獨立,但不同分佈的隨機變量序列的標準化和依然以標準正態分佈爲極限

3.2.3、歷史

1776年,拉普拉斯開始考慮一個天文學中的彗星軌道的傾角的計算問題,最終的問題涉及獨立隨機變量求和的概率計算,也就是計算如下的概率值
令 Sn=X1+X2+⋯+Xn, 那麼
在這個問題的處理上,拉普拉斯充分展示了其深厚的數學分析功底和高超的概率計算技巧,他首次引入了特徵函數(也就是對概率密度函數做傅立葉變換)來處理概率分佈的神妙方法,而這一方法經過幾代概率學家的發展,在現代概率論裏面佔有極其重要的位置。基於這一分析方法,拉普拉斯通過近似計算,在他的1812年的名著《概率分析理論》中給出了中心極限定理的一般描述:
[定理Laplace,1812]設 ei(i=1,⋯n)爲獨立同分布的測量誤差,具有均值μ和方差σ2。如果λ1,⋯,λn爲常數,a>0,則有
這已經是比棣莫弗-拉普拉斯中心極限定理更加深刻的一個結論了,在現在大學本科的教材上,包括包括本文主要參考之一盛驟版的概率論與數理統計上,通常給出的是中心極限定理的一般形式:
[Lindeberg-Levy中心極限定理] 設X1,⋯,Xn獨立同分布,且具有有限的均值μ和方差σ2,則在n→∞時,有

多麼奇妙的性質,隨意的一個概率分佈中生成的隨機變量,在序列和(或者等價的求算術平均)的操作之下,表現出如此一致的行爲,統一的規約到正態分佈。
概率學家們進一步的研究結果更加令人驚訝,序列求和最終要導出正態分佈的條件並不需要這麼苛刻,即便X1,⋯,Xn並不獨立,也不具有相同的概率分佈形式,很多時候他們求和的最終歸宿仍然是正態分佈。
在正態分佈、中心極限定理的確立之下,20世紀之後,統計學三大分佈χ2分佈、t分佈、F分佈也逐步登上歷史舞臺:

如上所述,中心極限定理的歷史可大致概括爲:

  1. 中心極限定理理的第一版被法國數學家棣莫弗發現,他在1733年發表的卓越論文中使用正態分佈去估計大量拋擲硬幣出現正面次數的分佈;
  2. 1812年,法國數學家拉普拉斯在其鉅著 Théorie Analytique des Probabilités中擴展了棣莫弗的理論,指出二項分佈可用正態分佈逼近;
  3. 1901年,俄國數學家李雅普諾夫用更普通的隨機變量定義中心極限定理並在數學上進行了精確的證明。

如今,中心極限定理被認爲是(非正式地)概率論中的首席定理。


第四節、從數理統計簡史中看正態分佈的歷史由來

本節將結合數理統計學簡史一書,從早期概率論的發展、棣莫弗的二項概率逼近講到貝葉斯方法、最小二乘法、誤差與正態分佈等問題,有詳有略,其中,重點闡述正態分佈的歷史由來。

相信,你我可以想象得到,我們現在眼前所看到的正態分佈曲線雖然看上去很美,但數學史上任何一個定理的發明幾乎都不可能一蹴而就,很多往往經歷了幾代人的持續努力。因爲在科研上諸多觀念的革新和突破是有着很多的不易的,或許某個定理在某個時期由某個人點破了,現在的我們看來一切都是理所當然,但在一切沒有發現之前,可能許許多多的頂級學者畢其功於一役,耗盡一生,努力了幾十年最終也是無功而返。
如上文前三節所見,現在概率論與數理統計的教材上,一上來介紹正態分佈,然後便給出其概率密度分佈函數,卻從來沒有說明這個分佈函數是通過什麼原理推導出來的。如此,可能會導致你我在內的很多人一直搞不明白數學家當年是怎麼找到這個概率分佈曲線的,又是怎麼發現隨機誤差服從這個奇妙的分佈的。我們在實踐中大量的使用正態分佈,卻對這個分佈的來龍去脈知之甚少。
本文接下來的第四節將結合陳希儒院士的《數理統計學簡史》及“正態分佈的前世今生”爲你揭開正態分佈的神祕面紗。

4.1、正態分佈的定義

上文中已經給出了正態分佈的相關定義,咱們先再來回顧下。如下兩圖所示(來源:大嘴巴漫談數據挖掘):

相信,經過上文諸多繁雜公式的轟炸,讀者或有些許不耐其煩,咱們接下來講點有趣的內容:歷史。下面,咱們來結合數理統計簡史一書,即正態分佈的前世今生系列,從古至今論述正態分佈的歷史由來。

4.2、早期概率論:從萌芽到推測術

4.2.1、惠更新的三個關於期望的定理

(一)惠更新的論賭博的計算
所謂概率,即指一個事件發生,一種情況出現的可能性大小的數量指標,介於0和1之間,這個概念最初形成於16世紀,說來可能令你意想不到,凡事無絕對,早期很多概率論中的探討卻與擲骰子等當今看來是違法犯罪的賭博活動有着不可分割的聯繫,可以說,這些賭博活動反而推動了概率論的早期發展。
歷史是紛繁多雜的,咱們從惠更斯的機遇的規律一書入手,此人指導過微積分的奠基者之一的萊布尼茲學習數學,與牛頓等人也有交往,終生未婚。如諸多歷史上有名的人物一般,他們之所以被後世的人們記住,是因爲他們在某一個領域的傑出貢獻,這個貢獻可能是提出了某一個定理或者公式,換句話來說,就是現今人們口中所說的代表作,一個意思。
而惠更新爲當代人們所熟知的應該是他在《擺式時鐘或用於時鐘上的擺的運動的幾何證明》、《擺鐘》等論文中提出了物理學史上鐘擺擺動週期的公式:
(二)創立數學期望
與此同時,惠更斯1657年發表了《論賭博中的計算》,被認爲是概率論誕生的標誌。同時對二次曲線、複雜曲線、懸鏈線、曳物線、對數螺線等平面曲線都有所研究。
《論賭博中的計算》中,惠更斯先從關於公平賭博值的一條公理出發,推導出有關數學期望的三個基本定理,如下述內容所示:
  • 公理:每個公平博弈的參與者願意拿出經過計算的公平賭注冒險而不願拿出更多的數量。即賭徒願意押的賭注不大於其獲得賭金的數學期望數。
對這一公理至今仍有爭議。所謂公平賭注的數額並不清楚,它受許多因素的影響。但惠更斯由此所得關於數學期望的3 個命題具有重要意義。這是數學期望第一次被提出,由於當時概率的概念還不明確,後被拉普拉斯( Laplace ,1749 —1827) 用數學期望來定義古典概率。在概率論的現代表述中,概率是基本概念,數學期望則是二級概念,但在歷史發展過程中卻順序相反。
關於數學期望的三個命題爲:
  • 命題1  若某人在賭博中以等概率1/2獲得賭金a元、b元,則其數學期望值爲:a*1/2+b*1/2,即爲( a + b)/2;
  • 命題2  若某人在賭博中以等概率1/3獲得賭金a 、b 元和c元 ,則其數學期望值爲( a + b + c)/3元;
  • 命題3  若某人在賭博中以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 獲得賭金a元、b元 ,則獲得賭金的數學期望值爲p*a + q*b 元。
這些今天看來都可作爲數學期望定義,不準確的說,數學期望來源於取平均值。同時,根據上述惠更斯的3個命題不難證明:若某人在賭博中分別以概率p1...,pk(p1+..+pk=1)分別贏得a1,..ak元,那麼其期望爲p1*a1+...+pk*ak,這與本文第一節中關於離散型隨機變量的期望的定義完全一致(各值與各值概率乘積之和)。
但惠更新關於概率論的討論侷限於賭博中,而把概率論由侷限於對賭博機遇的討論擴展出去的則得益於伯努利,他在惠更新的論賭博中的計算一書出版的56年,即1733年出版了劃時代的著作:推測術。伯努利在此書中,不僅對惠更斯的關於擲骰子等賭博活動中出現的額各種情況的概率進行了計算,而且還提出了著名的“大數定律”,這個定律在歷史上甚至到今天,影響深遠,後續諸多的統計方法和理論都是建立在大數定律的基礎上。
(三) 伯努利的大數定律及其如何而來
同樣,咱們在讀中學的時候,之所以記住了伯努利這個人,恐怕是因爲物理課上,老師所講的伯努利方程C,(C爲常量)。我當時的物理老師叫劉新見,記得他在講伯努利方程的時候,曾開玩笑說,“’伯努利‘好記好記,‘白努力‘嘛”。
當然,伯努利的貢獻不僅在此,而在於他的大數定律。那何謂伯努利大數定律呢?
設在n次獨立重複試驗中,事件X發生的次數爲。事件X在每次試驗中發生的概率爲P。則對任意正數,下式成立:
定理表明事件發生的頻率依概率收斂於事件的概率。定理以嚴格的數學形式表達了頻率的穩定性。就是說當n很大時,事件發生的頻率於概率有較大偏差的可能性很小。
這個定理如何而來的呢?
咱們來看一個簡單的袋中抽球的模型,袋中有a個白球,b個黑球,則從袋中取出白球的概率爲p=a/(a+b),有放回的充袋中抽球N次(每次抽取時保證袋中a+b個球的每一個都有同等機會被抽出),記得抽到的白球的次數爲X,然後以X/N 這個值去估計p,這個估計方法至今仍是數理統計學中最基本的方法之一。
伯努利試圖證明的是:用X/N 估計p 可以達到事實上的確定性,即:任意給定兩個數ε>0和η>0,取足夠大的抽取次數N,使得事件的概率不超過η,這意思是,表面估計誤差未達到制定的接近程度η
換句話說,我們需要證明的是當N充分無限大時,X/N 無限逼近於p,用公式表達即爲:
(N趨於無窮大)
儘管現在我們看來,上述這個結論毫無疑問是理所當然的,但直到1909年纔有波萊爾證明。此外,此伯努利大數定律是我們今天所熟知的契比雪夫不等式的簡單推論,但須注意的是在伯努利那個時代,並無“方差”這個概念,更不用說從這個不等式而推論出伯努利大數定律了。
此外,常用的大數定律除了伯努利大數定律之外,還有辛欽大數定律、柯爾莫哥洛夫強大數定律和重對數定律等定律。這裏稍微提下辛欽大數定律,如下圖所示。
在1733年,棣莫弗發展了用正態分佈逼近二項分佈的方法,這對於當時而言,是一實質性的深遠改進。

4.3、棣莫弗的二項概率逼近

同上文中的惠更新,伯努利一樣,人們熟悉棣莫弗,想必是因爲著名的棣莫弗公式,如下:
據數理統計學簡史一書上的說明,棣莫弗之所以投身到二項概率的研究,非因伯努利之故,而又是賭博問題(賭博貢獻很大丫哈)。有一天一個哥們,也許是個賭徒,向棣莫弗提了一個和賭博相關的一個問題:A,B兩人在賭場裏賭博,A,B各自的獲勝概率是p和q=1−p,賭n局,若A贏的局數X>np,則A付給賭場X−np元,否則B付給賭場np−X元。問賭場掙錢的期望值是多少?按定義可知,此期望值爲:
上式的b(N,平,i)爲二項概率,棣莫弗最終在Np爲整數的條件下得到:
當m=N/2時,N趨於無窮,
也就是說上述問題的本質上是上文第一節中所講的一個二項分佈。雖然從上述公式可以集結此問題,但在N很大時,計算不易,故棣莫弗想找到一個更方便於計算的近似公式。
棣莫弗後來雖然做了一些計算並得到了一些近似結果,但是還不夠,隨後有人講棣莫弗的研究工作告訴給了斯特林,於是,便直接催生了在數學分析中必學的一個重要公式斯特林公式(斯特林公式最初發表於1730年,而後棣莫弗改進了斯特林公式):
(其中,m= N/2)
1733年,棣莫弗有了一個決定性意義的舉動,他證明了當N趨於去窮時,有下列式子成立:
不要小瞧了這個公式。當它與上面給出的這個公式結合後,便有了:
根據上面式子,近似地以定積分代替和,得到下式:
不知道,當讀者讀到這裏的時候,是否從上式看出了些許端倪,此式可隱藏了一個我們習以爲常卻極其重要的概念。OK,或許其形式不夠明朗,借用rickjin的式子轉化下:
沒錯,正態分佈的概率密度(函數)在上述的積分公式中出現了!於此,我們得到了一個結論,原來二項分佈的極限分佈便是正態分佈。與此同時,還引出了統計學史上佔據重要地位的中心極限定理。
棣莫弗-拉普拉斯定理設隨機變量Xn(n=1,2...)服從參數爲p的二項分佈,則對任意的x,恆有下式成立:
我們便稱此定理爲中心極限定理。而且還透露着一個極爲重要的信息:1730年,棣莫弗用二項分佈逼近竟然得到了正太密度函數,並首次提出了中心極限定理。
還沒完,隨後,在1744年,拉普拉斯證明了:
最終,1780年,拉普拉斯建立了中心極限定理的一般形式(也就是上文3.2節中所講的中心極限定理的一般形式):
Lindeberg-Levy中心極限定理」設X1,⋯,Xn獨立同分布,且具有有限的均值μ和方差σ2,則在n→∞時,有

棣莫弗的工作對數理統計學有着很大的影響,棣莫弗40年之後,拉普拉斯建立中心極限定理的一般形式,20世紀30年代最終完成獨立和中心極限定理最一般的形式,在中心極限定理的基礎之上,統計學家們發現當樣本量趨於無窮時,一系列重要統計量的極限分佈如二項分佈,都有正態分佈的形式,也就是說,這也構成了數理統計學中大樣本方法的基礎。
此外,從上面的棣莫弗-拉普拉斯定理,你或許還沒有看出什麼蹊蹺。但我們可以這樣理解:若取c充分大,則對足夠大的N,事件|的概率可任意接近於1,由於,故對於任意給定的ε>0, 有下式成立:
而這就是上文中所講的伯努利大數定律(注:上面討論的是對稱情況,即p=1/2的情況)。
我之所以不厭其煩的要論述這個棣莫弗的二項概率逼近的相關過程,是想說明一點:各個定理.公式彼此之前是有着緊密聯繫的,要善於發現其中的各種聯繫。
同時,還有一個問題,相信讀者已經意識到了,如本文第一節內容所述,咱們的概率論與數理統計教材講正態分佈的時候,一上來便給出正態分佈的概率密度(函數),然後告訴我們說,符合這個概率密度(函數)的稱爲正態分佈,緊接着闡述和證明相關性質,最後說了一句:”在自然現象和社會現象中,大量隨機變量都服從或近似服從正態分佈,如人的身高,某零件長度的誤差,海洋波浪的高度“,然後呢?然後什麼也沒說了。連正態分佈中最基本的兩個參數爲、和的的意義都不告訴我們(位置參數即爲數學期望,尺度參數爲即爲方差,換句話說,有了期望和方差,即可確定正態分佈)。
隨後,教材上便開始講數學期望,方差等概念,最後纔講到中心極限定理。或許在讀者閱讀本文之後,這些定理的先後發明順序才得以知曉。殊不知:正態分佈的概率密度(函數)形式首次發現於棣莫弗-拉普拉斯中心極限定理中,即先有中心極限定理,而後纔有正態分佈(通過閱讀下文4.6節你將知道,高斯引入正太誤差理論,才成就了正態分佈,反過來,拉普拉斯在高斯的工作之上用中心極限定理論證了正態分佈)。如rickjin所言:’‘學家研究數學問題的進程很少是按照我們數學課本的安排順序推進的,現代的數學課本都是按照數學內在的邏輯進行組織編排的,雖然邏輯結構上嚴謹優美,卻把數學問題研究的歷史痕跡抹得一乾二淨。DNA雙螺旋結構的發現者之一James Waston在他的名著《DNA雙螺旋》序言中說:‘科學的發現很少會像門外漢所想象的一樣,按照直接了當合乎邏輯的方式進行的。’ ’‘

4.4、貝葉斯方法

前面,介紹了惠更斯、伯努利和棣莫弗等人的重大成果,無疑在這些重要發明中,二項分佈都佔據着舉重輕重的地位。這在早期的概率統計史當中,也是唯一一個研究程度很深的分佈。但除了伯努利的大數定律及棣莫弗的二項逼近的研究成果外,在18世紀中葉,爲了解決二項分佈概率的估計問題,出現了一個影響極爲廣泛的貝葉斯方法,貝葉斯方法經過長足的發展,如今已經成爲數理統計學中的兩個主要學派之一:貝葉斯學派,牢牢佔據數理統計學領域的半壁江山。
據數理統計學簡史一書,托馬斯.貝葉斯,此人在18世紀上半葉的歐洲學術界,並不算得上很知名,在提出貝葉斯定理之前,也未發表過片紙隻字的科學論著,套用當今的話來說,他便是活生生一個民間學術屌絲。
未發表過任何科學著作,但一個人如果熱愛研究,喜好學術的話,必找人交流。於此,諸多重大發明定理都出現在學者之間的一些書信交流中。奇怪的是,貝葉斯這方面的書信材料也不多。或許讀者讀到此處,已知我意,會說這一切在他提出貝葉斯定理之後有了改變,但讀者朋友只猜對了一半。
貝葉斯的確發表了一篇題爲An essay towards solving a problem in the doctrine of chances(機遇理論中一個問題的解)的遺作,此文在他發表後很長一段時間起,在學術界沒有引起什麼反響,直到20世紀以來,突然受到人們的重視,此文也因此成爲貝葉斯學派最初的奠基石(又一個梵高式的人物)。
有人說貝葉斯發表此文的動機是爲了解決伯努利和棣莫弗未能解決的二項分佈概率P的“逆概率”問題。所謂逆概率,顧名思義,就是求概率問題的逆問題:已知時間的概率爲P,可由之計算某種觀察結果的概率如何;反過來,給定了觀察結果,問由之可以對概率P作何推斷。也就是說,正概率是由原因推結果,稱之爲概率論;而逆概率是結果推原因,稱之爲數理統計。
由於本文中,重點不在貝葉斯定理,而本文第一節之2.1小節已對其做簡要介紹,再者,此文從決策樹學習談到貝葉斯分類算法、EM、HMM第二部分也詳細介紹過了貝葉斯方法,故爲本文篇幅所限,不再做過多描述。

4.5、最小二乘法,數據分析的瑞士軍刀

事實上,在成百上千的各式各樣的攻擊方法中,取算術平均恐怕是最廣爲人知使用也最爲廣泛的方法,因爲可能一個小學生都知道使用算術平均來計算自己每天平均花了多少零花錢而以此作爲向爸媽討要零花錢的依據。而我們大多數成年人也經常把“平均說來”掛在嘴邊。故此節要講的最小二乘法其實並不高深,它的本質思想即是來源於此算術平均的方法。
不太精確的說,一部數理統計學的歷史,就是從縱橫兩個方向對算術平均進行不斷深入研究的歷史,
  • 縱的方面指平均值本身,諸如伯努利及其後衆多的大數定律,棣莫弗-拉普拉斯中心極限定理,高斯的正太誤差理論,這些在很大程度上都可以視爲對算術平均的研究成果,甚至到方差,標準差等概念也是由平均值發展而來;
  • 橫的方面中最爲典型的就是此最小二乘法。
而算術平均也是解釋最小二乘法的最簡單的例子。使誤差平方和達到最小以尋求估計值的方法,則稱爲最小二乘估計(當然,取平方和作爲目標函數知識衆多可取的方法之一,例如也可以取誤差4次方或絕對值和,取平方和是人類千百年實踐中被證實行之有效的方法,因此被普遍採用)。
何謂最小二乘法?實踐中,常需尋找兩變量之間的函數關係,比如測定一個刀具的磨損速度,也就是說,隨着使用刀具的次數越多,刀具本身的厚度會逐漸減少,故刀具厚度與使用時間將成線性關係,假設符合f(t)=at + b(t代表時間,f(t)代表刀具本身厚度),a,b是待確定的常數,那麼a、b如何確定呢?
最理想的情形就是選取這樣的a、b,能使直線y = at + b 所得到的值與實際中測量到的刀具厚度完全符合,但實際上這是不可能的,因爲誤差總是存在難以避免的。故因誤差的存在,使得理論值與真實值存在偏差,爲使偏差最小通過偏差的平方和最小確定係數a、b,從而確定兩變量之間的函數關係f(t)= at + b。
這種通過偏差的平方和爲最小的條件來確定常數a、b的方法,即爲最小二乘法。最小二乘法的一般形式可表述爲:
在此,說點後話,最小二乘法是與統計學有着密切聯繫的,因爲觀測值有隨機誤差,所以它同正態分佈一樣與誤差論有着密切聯繫(說實話,最小二乘法試圖解決的是誤差最小的問題,而正態分佈則是試圖尋找誤差分佈規律的問題,無論是最小二乘法,還是正態分佈的研究工作,至始至終都圍繞着誤差進行)。
那麼,最小二乘法是如何發明的呢?據史料記載,最小二乘法最初是由法國數學家勒讓德於1805年發明的。那勒讓德發明它的動機來源於哪呢?
18世紀中葉,包括勒讓德、歐拉、拉普拉斯、高斯在內的許多天文學家和數學家都對天文學上諸多問題的研究產生了濃厚的興趣。比如以下問題:
  • 土星和木星是太陽系中的大行星,由於相互吸引對各自的運動軌道產生了影響,許多大數學家,包括歐拉和拉普拉斯都在基於長期積累的天文觀測數據計算土星和木星的運行軌道。
  • 勒讓德承擔了一個政府給的重要任務,測量通過巴黎的子午線的長度。
  • 海上航行經緯度的定位。主要是通過對恆星和月面上的一些定點的觀測來確定經緯度。
這些問題都可以用如下數學模型描述:我們想估計的量是β0,⋯,βp,另有若干個可以測量的量x1,⋯,xp,y,這些量之間有線性關係
如何通過多組觀測數據求解出參數β0,⋯,βp呢?歐拉和拉普拉斯採用的都是求解線性方程組的方法。
但是面臨的一個問題是,有n組觀測數據,p+1個變量,如果n>p+1,則得到的線性矛盾方程組,無法直接求解。所以歐拉和拉普拉斯採用的方法都是通過一定的對數據的觀察,把n個線性方程分爲p+1組,然後把每個組內的方程線性求和後歸併爲一個方程,從而就把n個方程的方程組化爲p+1個方程的方程組,進一步解方程求解參數。這些方法初看有一些道理,但是都過於經驗化,無法形成統一處理這一類問題的一個通用解決框架。
以上求解線性矛盾方程的問題在現在的本科生看來都不困難,就是統計學中的線性迴歸問題,直接用最小二乘法就解決了,可是即便如歐拉、拉普拉斯這些數學大牛,當時也未能對這些問題提出有效的解決方案。可見在科學研究中,要想在觀念上有所突破並不容易。有效的最小二乘法是勒讓德在1805年發表的,基本思想就是認爲測量中有誤差,所以所有方程的累積誤差爲:
我們求解出導致累積誤差最小的參數即可。
上面我們已經看到,是勒讓德最初發明的最小二乘法,那爲何歷史上人們常常把最小二乘法的發明與高斯的名字聯繫起來呢?(:勒讓德時期的最小二乘法還只是作爲一個處理測量數據的代數方法來討論的,實際上與統計學並無多大關聯,只有建立在了測量誤差分佈的概率理論之後,這個方法才足以成爲一個統計學方法。儘管拉普拉斯用他的中心極限定理定理也可以推導出最小二乘法,但無論是之前的棣莫弗,還是當時的勒讓德,還是拉普拉斯,此時他們這些研究成果都還只是一個數學表達式而非概率分佈)。
因爲1829年,高斯提供了最小二乘法的優化效果強於其他方法的證明,即爲高斯-馬爾可夫定理。也就是說勒讓德最初提出了最小二乘法,而卻是高斯讓最小二乘法得以鞏固而影響至今。且高斯對最小二乘法的最大貢獻在於他是建立在正太誤差分佈的理論基礎之上的(後續更是導出了誤差服從正態分佈的結論),最後,1837年,統計學家們正式確立誤差服從正態分佈,自此,人們方纔真正確信:觀測值與理論值的誤差服從正態分佈。

4.6、誤差分佈曲線的建立

十八世紀,天文學的發展積累了大量的天文學數據需要分析計算,應該如何來處理數據中的觀測誤差成爲一個很棘手的問題。我們在數據處理中經常使用平均的常識性法則,千百年來的數據使用經驗說明算術平均能夠消除誤差,提高精度。平均有如此的魅力,道理何在,之前沒有人做過理論上的證明。算術平均的合理性問題在天文學的數據分析工作中被提出來討論:測量中的隨機誤差應該服從怎樣的概率分佈?算術平均的優良性和誤差的分佈有怎樣的密切聯繫?
伽利略在他著名的《關於兩個主要世界系統的對話》中,對誤差的分佈做過一些定性的描述,主要包括:
  • 誤差是對稱分佈的分佈在0的兩側;
  • 大的誤差出現頻率低,小的誤差出現頻率高。
用數學的語言描述,也就是說誤差分佈函數f(x)關於0對稱分佈,概率密度隨|x|增加而減小,這兩個定性的描述都很符合常識。

4.6.1、辛普森的工作

許多天文學家和數學家開始了尋找誤差分佈曲線的嘗試。托馬斯•辛普森(Thomas Simpson,1710-1761)先走出了有意義的一步。
  • 設真值爲θ,而爲n次測量值,現在用測量值去估計真值,那麼每次測量的誤差爲
  • 但若用算術平均去估計θ呢,則其誤差爲
Simpson證明了,對於如下的一個概率分佈,
Simpson的誤差態分佈曲線
有這樣的估計:
也就是說,相比於取小值的機會更大。辛普森的這個工作很粗糙,但是這是第一次在一個特定情況下,從概率論的角度嚴格證明了算術平均的優良性。

4.6.2、拉普拉斯的工作

在1772-1774年間,拉普拉斯也加入到了尋找誤差分佈函數的隊伍中。與辛普森不同,拉普拉斯不是先假定一種誤差分後去設法證明平均值的優良性,而是直接射向應該去怎麼的分佈爲誤差分佈,以及在確定了誤差分佈之後,如何根據觀測值去估計真值
拉普拉斯假定誤差密度函數f(x)滿足如下性質:
m>0,且爲常數,上述方程解出,C>0且爲常數,由於,得。故當x<0,結合概率密度的性質之一(參看上文2.2.4節):,解得c=m/2。
由此,最終1772年,拉普拉斯求得的分佈密度函數爲:
這個概率密度函數現在被稱爲拉普拉斯分佈:
以這個函數作爲誤差密度,拉普拉斯開始考慮如何基於測量的結果去估計未知參數的值,即用什麼方法通過觀測值去估計真值呢?要知道咱們現今所熟知的所謂點估計方法、矩估計方法,包括所謂的極大似然估計法之類的,當時可是都還沒有發明。
拉普拉斯可以算是一個貝葉斯主義者,他的參數估計的原則和現代貝葉斯方法非常相似:假設先驗分佈是均勻的,計算出參數的後驗分佈後,取後驗分佈的中值點,即1/2分位點,作爲參數估計值。可是基於這個誤差分佈函數做了一些計算之後,拉普拉斯發現計算過於複雜,最終沒能給出什麼有用的結果,故拉普拉斯最終還是沒能搞定誤差分佈的問題。
至此,整個18世紀,可以說,尋找誤差分佈的問題,依舊進展甚微,下面,便將輪到高斯出場了,歷史總是出人意料,高斯以及其簡單的手法,給了這個誤差分佈的問題一個圓滿的解決,其結果也就成爲了數理統計發展史上的一塊重要的里程碑。

4.6.3、高斯導出誤差正態分佈

事實上,棣莫弗早在1730年~1733年間便已從二項分佈逼近的途徑得到了正態密度函數的形式,到了1780年後,拉普拉斯也推出了中心極限定理的一般形式,但無論是棣莫弗,還是拉普拉斯,此時他們這些研究成果都還只是一個數學表達式而非概率分佈,也就是壓根就還沒往誤差概率分佈的角度上去思索,而只有到了1809年,高斯提出“正太誤差”的理論之後,它正太理論才得以“概率分佈“的身份進入科學殿堂,從而引起人們的重視。
追本溯源,正態分佈理論這條大河的源頭歸根結底是測量誤差理論。那高斯到底在正態分佈的確立做了哪些貢獻呢?請看下文。
1801年1月,天文學家Giuseppe Piazzi發現了一顆從未見過的光度8等的星在移動,這顆現在被稱作穀神星(Ceres)的小行星在夜空中出現6個星期,掃過八度角後在就在太陽的光芒下沒了蹤影,無法觀測。而留下的觀測數據有限,難以計算出他的軌道,天文學家也因此無法確定這顆新星是彗星還是行星,這個問題很快成了學術界關注的焦點。高斯當時已經是很有名望的年輕數學家了,這個問題也引起了他的興趣。高斯一個小時之內就計算出了行星的軌道,並預言了它在夜空中出現的時間和位置。1801年12月31日夜,德國天文愛好者奧伯斯(Heinrich Olbers)在高斯預言的時間裏,用望遠鏡對準了這片天空。果然不出所料,穀神星出現了!
高斯爲此名聲大震,但是高斯當時拒絕透露計算軌道的方法直到1809年高斯系統地完善了相關的數學理論後,纔將他的方法公佈於衆,而其中使用的數據分析方法,就是以正態誤差分佈爲基礎的最小二乘法。那高斯是如何推導出誤差分佈爲正態分佈的呢?請看下文。
跟上面一樣,還是設真值爲,而爲n次獨立測量值,每次測量的誤差爲,假設誤差ei的密度函數爲f(e),則測量值的聯合概率爲n個誤差的聯合概率,記爲
到此爲止,高斯的作法實際上與拉普拉斯相同,但在繼續往下進行時,高斯提出了兩個創新的想法。
第一個創新的想法便是:高斯並沒有像前面的拉普拉斯那樣採用貝葉斯的推理方式,而是直接取L(θ)達到最小值的作爲的估計值,這也恰恰是他解決此問題採用的創新方法,即
現在我們把L(θ)稱爲樣本的似然函數,而得到的估計值θˆ稱爲極大似然估計。高斯首次給出了極大似然的思想,這個思想後來被統計學家R.A.Fisher系統地發展成爲參數估計中的極大似然估計理論。
高斯的第二點創新的想法是:他把整個問題的思考模式倒過來,既然千百年來大家都認爲算術平均是一個好的估計,那麼就直接先承認算術平均就是極大似然估計(換言之,極大似然估計導出的就應該是算術平均),所以高斯猜測:
然後高斯再去尋找相應的誤差密度函數以迎合這一點。即尋找這樣的概率分佈函數,使得極大似然估計正好是算術平均。通過應用數學技巧求解這個函數f,高斯證明了所有的概率密度函數中,唯一滿足這個性質的就是(記爲(11)式):
而這恰巧是我們所熟知的正態分佈的密度函數,就這樣,誤差的正態分佈就被高斯給推導出來了!
但,高斯是如何證明的呢?也就是說,高斯是如何一下子就把上面(11)式所述的概率密度函數給找出來的呢?如下圖所示(摘自數理統計學簡史第127頁注2,圖中開頭所說的高斯的第2原則就是上面所講的高斯的第二點創新的想法,而下圖最後所說的(11)式就是上面推導出來的概率密度函數):
進一步,高斯基於這個誤差分佈函數對最小二乘法給出了一個很漂亮的解釋。對於最小二乘公式中涉及的每個誤差ei,有,則結合高斯的第一個創新方法:極大似然估計及上述的概率密度,(e1,⋯,en)的聯合概率分佈爲
要使得這個概率最大,必須使得取最小值,這正好就是最小二乘法的要求。
高斯的這項工作對後世的影響極大,它使正態分佈同時有了”高斯分佈“的名稱,不止如此,後世甚至也把最小二乘法的發明權也歸功於他,由於他的這一系列突出貢獻,人們 採取了各種形式紀念他,如現今德國10馬克的鈔票上便印有這高斯頭像及正態分佈的密度曲線,藉此表明在高斯的一切科學貢獻中,尤以此”正太分佈“的確立對人類文明的進程影響最大。
至此,咱們來總結下:
  1. 如你所見,相比于勒讓德1805給出的最小二乘法描述,高斯基於誤差正態分佈的最小二乘理論顯然更高一籌,高斯的工作中既提出了極大似然估計的思想,又解決了誤差的概率密度分佈的問題,由此我們可以對誤差大小的影響進行統計度量了。
  2. 但事情就完了麼?沒有。高斯設定了準則“最大似然估計應該導出優良的算術平均”,並導出了誤差服從正態分佈,推導的形式上非常簡潔優美。但是高斯給的準則在邏輯上並不足以讓人完全信服,因爲算術平均的優良性當時更多的是一個經驗直覺,缺乏嚴格的理論支持。高斯的推導存在循環論證的味道:因爲算術平均是優良的,推出誤差必須服從正態分佈;反過來,又基於正態分佈推導出最小二乘和算術平均,來說明最小二乘法和算術平均的優良性,故其中無論正反論點都必須藉助另一方論點作爲其出發點,可是算術平均到並沒有自行成立的理由。
也就是上面說到的高斯的第二點創新的想法他把整個問題的思考模式倒過來:既然千百年來大家都認爲算術平均是一個好的估計,那麼就直接先承認算術平均就是極大似然估計(換言之,極大似然估計導出的就應該是算術平均)”存在着隱患,而這一隱患的消除又還得靠咱們的老朋友拉普拉斯解決了。
受高斯啓發,拉普拉斯將誤差的正態分佈理論和中心極限定理聯繫起來,提出了元誤差解釋。他指出如果誤差可以看成許多微小量的疊加,則根據他的中心極限定理,隨機誤差理應當有高斯分佈(換言之,按中心極限定理來說,正態分佈是由大量的但每一個作用較小的因素的作用導致而成)。而20世紀中心極限定理的進一步發展,也給這個解釋提供了更多的理論支持。
至此,誤差分佈曲線的尋找塵埃落定,正態分佈在誤差分析中確立了自己的地位。在整個正態分佈被發現與應用的歷史中,棣莫弗、拉普拉斯、高斯各有貢獻,拉普拉斯從中心極限定理的角度解釋它,高斯把它應用在誤差分析中,殊途同歸。不過因爲高斯在數學家中的名氣實在是太大,正態分佈的桂冠還是更多的被戴在了高斯的腦門上,目前數學界通行的用語是正態分佈、高斯分佈,兩者並用。

4.6.4、正態分佈的時間簡史

至此,正態分佈從首次出現到最終確立,其時間簡史爲:
  1. 1705年,伯努力的著作推測術問世,提出伯努利大數定律;
  2. 1730-1733年,棣莫弗從二項分佈逼近得到正態密度函數,首次提出中心極限定理;
  3. 1780年,拉普拉斯建立中心極限定理的一般形成;
  4. 1805年,勒讓德發明最小二乘法;
  5. 1809年,高斯引入正態誤差理論,不但補充了最小二乘法,而且首次導出正態分佈;
  6. 1811年,拉普拉斯利用中心極限定理論證正態分佈;
  7. 1837年,海根提出元誤差學說,自此之後,逐步正式確立誤差服從正態分佈。
如上所見,是先有的中心極限定理,而後纔有的正態分佈(當然,最後拉普拉斯用中心極限定理論證了正態分佈),能瞭解這些歷史,想想,都覺得是一件無比激動的事情。所以,我們切勿以爲概率論與數理統計的教材上是先講的正態分佈,而後纔講的中心極限定理,而顛倒原有歷史的發明演進過程。


第五節、論道正態,正態分佈的4大數學推導

如本blog內之前所說:凡是涉及到要證明的東西.理論,便一般不是怎麼好惹的東西。絕大部分時候,看懂一個東西不難,但證明一個東西則需要點數學功底,進一步,證明一個東西也不是特別難,難的是從零開始發明創造這個東西的時候,則更顯艱難(因爲任何時代,大部分人的研究所得都不過是基於前人的研究成果,前人所做的是開創性工作,而這往往是最艱難最有價值的,他們被稱爲真正的先驅。牛頓也曾說過,他不過是站在巨人的肩上。你,我則更是如此)。
上述第4節已經介紹了正態分佈的歷史由來,但尚未涉及數學推導或證明,下面,參考概率論沉思錄,引用“正態分佈的前世今生”等相關內容,介紹推導正太分佈的4種方法,曲徑通幽,4條小徑,殊途同歸,進一步領略正態分佈的美妙。
注:本節主要整編自rickjin寫的"正態分佈的前後今生"系列

5.1、 高斯的推導(1809)

第一條小徑是高斯找到的,高斯以如下準則作爲小徑的出發點
誤差分佈導出的極大似然估計 = 算術平均值
設真值爲,而次獨立測量值,每次測量的誤差爲,假設誤差的密度函數爲,則測量值的聯合概率爲n個誤差的聯合概率,記爲
爲求極大似然估計,令
整理後可以得到
,由上式可以得到
由於高斯假設極大似然估計的解就是算術平均,把解帶入上式,可以得到
在上式中取,有
由於此時有,並且是任意的,由此得到:.再在(6)式中取,並且要求,且,則有,並且
所以得到而滿足上式的唯一的連續函數就是,從而進一步可以求解出
由於是概率分佈函數,把正規化一下就得到正態分佈密度函數

5.2、Herschel(1850)和麥克斯韋(1860)的推導

第二條小徑是天文學家John Hershcel和物理學家麥克斯韋(Maxwell)發現的。1850年,天文學家Herschel在對星星的位置進行測量的時候,需要考慮二維的誤差分佈,爲了推導這個誤差的概率密度分佈f(x,y),Herschel設置了兩個準則:
  1. x軸和y軸的誤差是相互獨立的,即誤差的概率在正交的方向上相互獨立;
  2. 誤差的概率分佈在空間上具有旋轉對稱性,即誤差的概率分佈和角度沒有關係。
這兩個準則對於Herschel考慮的實際測量問題看起來都很合理。由準則1,可以得到應該具有如下形式
把這個函數轉換爲極座標,在極座標下的概率密度函數設爲,有
由準則2,具有旋轉對稱性,也就是應該和無關,所以,綜合以上,我們可以得到
,得到,所以上式可以轉換爲
,則有
從這個函數方程中可以解出,從而可以得到的一般形式如下
就是正態分佈,而就是標準二維正態分佈函數。

1860年,我們偉大的物理學家麥克斯韋在考慮氣體分子的運動速度分佈的時候,在三維空間中基於類似的準則推導出了氣體分子運動的分佈是正態分佈。這就是著名的麥克斯韋分子速率分佈定律。大家還記得我們在普通物理中學過的麥克斯韋-波爾茲曼氣體速率分佈定律嗎?
所以這個分佈其實是三個正態分佈的乘積。你的物理老師是否告訴過你其實這個分佈就是三維正態分佈?反正我是一直不知道,直到今年才明白。
Herschel-Maxwell推導的神妙之處在於,沒有利用任何概率論的知識,只是基於空間幾何的不變性,就推導出了正態分佈。美國諾貝爾物理學獎得主費曼(Feymann)每次看到一個有的數學公式的時候,就會問:圓在哪裏?這個推導中使用到了,也就是告訴我們正態分佈密度公式中有個,其根源來在於二維正態分佈中的等高線恰好是個圓。

5.3、Landon的推導(1941)

第三條道是一位電氣工程師,Vernon D. Landon 給出的。1941年,Landon 研究通信電路中的噪聲電壓,通過分析經驗數據他發現噪聲電壓的分佈模式很相似,不同的是分佈的層級,而這個層級可以使用方差來刻畫。因此他推理認爲噪聲電壓的分佈函數形式是。現在假設有一個相對於而言很微小的誤差擾動,且的分佈函數是,那麼新的噪聲電壓是。Landon提出瞭如下的準則
  1. 隨機噪聲具有穩定的分佈模式
  2. 累加一個微小的隨機噪聲,不改變其穩定的分佈模式,只改變分佈的層級(用方差度量)
用數學的語言描述:如果
則有.現在我們來推導函數應該長成啥樣。按照兩個隨機變量和的分佈的計算方式,的分佈函數將是的分佈函數和的分佈函數的卷積,即有
在x′處做泰勒級數展開(爲了方便,展開後把自變量由x′替換爲x),上式可以展開爲
,則有
對於微小的隨機擾動,我們認爲他取正值或者負值是對稱的,所以。所以有
(8)
對於新的噪聲電壓是x′=x+e,方差由增加爲,所以按照Landon的分佈函數模式不變的假設,新的噪聲電壓的分佈函數應該爲。把處做泰勒級數展開,得到
(9)
比較(8)和(9)這兩個式子,可以得到如下偏微分方程
而這個方程就是物理上著名的擴散方程(diffusion equation),求解該方程就得到

又一次,我們推導出了正態分佈!
概率論沉思錄作者E.T.Jaynes對於這個推導的評價很高,認爲Landon的推導本質上給出了自然界的噪音形成的過程。他指出這個推導基本上就是中心極限定理的增量式版本,相比於中心極限定理來說,是一次性累加所有的因素,Landon的推導是每次在原有的分佈上去累加一個微小的擾動。而在這個推導中,我們看到,正態分佈具有相當好的穩定性;只要數據中正態的模式已經形成,他就容易繼續保持正態分佈,無論外部累加的隨機噪聲是什麼分佈,正態分佈就像一個黑洞一樣把這個累加噪聲喫掉。

5.4、正態分佈和最大熵

還有一條小徑是基於最大熵原理的,物理學家E.T.Jaynes在最大熵原理上有非常重要的貢獻,他在《概率論沉思錄》裏面對這個方法有描述和證明,沒有提到發現者,不過難以確認這條道的發現者是否是Jaynes本人。
熵在物理學中由來已久,信息論的創始人香農(Claude Elwood Shannon)把這個概念引入了信息論,讀者中很多人可能都知道目前機器學習中有一個非常好用的分類算法叫最大熵分類器。要想把熵和最大熵的來龍去脈說清楚可不容易,不過這條道的風景是相當獨特的,E.T.Jaynes對這條道也是偏愛有加。
對於一個概率分佈,我們定義它的熵爲
如果給定一個分佈函數的均值和方差(給定均值和方差這個條件,也可以描述爲給定一階原點矩和二階原點矩,這兩個條件是等價的)則在所有滿足這兩個限制的概率分佈中,熵最大的概率分佈就是正態分佈
這個結論的推導數學上稍微有點複雜,不過如果已經猜到了給定限制條件下最大熵的分佈是正態分佈,要證明這個猜測卻是很簡單的,證明的思路如下。
考慮兩個概率分佈,使用不等式,得
於是
讀者注意:經好友白石指正,上述等式,右邊的第一項p(x)之後,1/p(x) 之前少畫了個log符號
所以

熟悉信息論的讀者都知道,這個式子是信息論中的很著名的結論:一個概率分佈的熵總是小於相對熵。上式要取等號只有取
對於,在給定的均值和方差下,我們取,則可以得到
由於的均值方差有如下限制:,於是
而當的時候,上式可以取到等號,這就證明了結論。

E.T.Jaynes顯然對正態分佈具有這樣的性質極爲讚賞,因爲這從信息論的角度證明了正態分佈的優良性。而我們可以看到,正態分佈熵的大小,取決於方差的大小。這也容易理解,因爲正態分佈的均值和密度函數的形狀無關,正態分佈的形狀是由其方差決定的,而熵的大小反應概率分佈中的信息量,顯然和密度函數的形狀相關。
所謂橫看成嶺側成峯,遠近高低各不同,正態分佈給人們提供了多種欣賞角度和想象空間。法國菩薩級別的大數學家龐加萊對正態分佈說過一段有意思的話,引用來作爲這個小節的結束:
Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
—Henri Poincaré

OK,雖然上文已經花了如此多的篇幅講了那麼多的概念,然事實上,在概率論與數理統計中,上文所講的概念尚不到1/3,限於篇幅,還有諸多概念沒有闡述完畢(這些知識將放於數據挖掘中所需的概率論與數理統計知識、下中介紹),如下圖所示:


So,如上,之前微博上http://weibo.com/1580904460/z9htU9VzT 說要寫的概率論與數理統計的科普blog、上部分已經初步整理完成(當然,後續一個星期之內會繼續修補完善)。從前天晚上開始,連續寫了兩天,花了半身力氣,文章若有任何問題,歡迎指正,尤能給出批評修訂意見,則倍感榮幸,謝謝。.同時,但所有以上這些絕大部分都只是概率論與數理統計的基礎知識,因此本文只能作個科普之效,若要深入學習,還是煩請讀者朋友們閱讀相關書籍,或加以動手實踐。


參考文獻及推薦閱讀

  1. 高等數學第六版上下冊,同濟大學數學系編;
  2. 微積分概念發展史,[美] 卡爾·B·波耶 著,唐生 譯;
  3. 概率論與數理統計,高教版,盛驟等編;
  4. 浙大版概率論與數理統計電子PPT課件;
  5. 數理統計學簡史,陳希孺院士著;
    (極力推薦上書,相信每一個學概率統計的朋友都有必要看一看,同時,此書也是正態分佈的前後今生這一系列的主要參考)
  6. rickjin,正態分佈的前後今生:http://t.cn/zlH3Ygc
  7. 正態分佈的前後今生系列集成版上:http://t.cn/zjJStYq,下:http://t.cn/zjoAtUQ
  8. 大嘴巴漫談數據挖掘:http://vdisk.weibo.com/s/bUbzJ
  9. 誤差論與最小平方法 & 數學傳播,蔡聰明;
  10. 正態分佈進入統計學的歷史演化,吳江霞;
  11. Probability Theory & The Logic of Science (概率論沉思錄),E.T. Jaynes 著;
  12. 手寫數學公式編輯器:http://webdemo.visionobjects.com/equation.html?locale=zh_CN
  13. wikipedia上標準差:http://zh.wikipedia.org/wiki/%E6%A0%87%E5%87%86%E5%B7%AE
  14. 泊松分佈與概率分佈:http://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88
  15. wikipedia上一堆概念;
  16. ....

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章