人工智能數學基礎——概率論

    除了線性代數之外,概率論(probability theory)也是人工智能研究中必備的數學基礎。隨着連接主義學派的興起,概率統計已經取代了數理邏輯,成爲人工智能研究的主流工具。

    同線性代數一樣,概率論也代表了一種看待世界的方式,其關注的焦點是無處不在的可能性。對隨機事件發生的可能性進行規範的數學描述就是概率論的公理化過程。概率的公理化結構體現出的是對概率本質的一種認識。

    將同一枚硬幣拋擲 10 次,其正面朝上的次數既可能一次沒有,也可能全部都是,換算成頻率就分別對應着 0% 和 100%。頻率本身顯然會隨機波動,但隨着重複試驗的次數不斷增加,特定事件出現的頻率值就會呈現出穩定性,逐漸趨近於某個常數。

    從事件發生的頻率認識概率的方法被稱爲“頻率學派”(frequentist probability),頻率學派口中的“概率”,其實是一個可獨立重複的隨機實驗中單個結果出現頻率的極限。因爲穩定的頻率是統計規律性的體現,因而通過大量的獨立重複試驗計算頻率,並用它來表徵事件發生的可能性是一種合理的思路。

    在概率的定量計算上,頻率學派依賴的基礎是古典概率模型。在古典概率模型中,試驗的結果只包含有限個基本事件,且每個基本事件發生的可能性相同。假設所有基本事件的數目爲 n,待觀察的隨機事件 A 中包含的基本事件數目爲 k,則古典概率模型下事件概率的計算公式爲:

P(A)=kn

    從這個基本公式就可以推導出複雜的隨機事件的概率。

    前文中的概率定義針對都是單個隨機事件,可如果要刻畫兩個隨機事件之間的關係,這就需要引入條件概率的概念。

    條件概率(conditional probability)是根據已有信息對樣本空間進行調整後得到的新的概率分佈。假定有兩個隨機事件 AB ,條件概率就是指事件 A 在事件 B 已經發生的條件下發生的概率,用以下公式表示:

P(A|B)=P(AB)P(B)

    上式中的P(AB) 稱爲聯合概率(joint probability),表示的是 AB 兩個事件共同發生的概率。如果聯合概率等於兩個事件各自概率的乘積,即P(AB)=P(A)P(B) ,說明這兩個事件的發生互不影響,即兩者相互獨立。對於相互獨立的事件,條件概率就是自身的概率,即P(A|B)=P(A)

    基於條件概率可以得出全概率公式(law of total probability)。全概率公式的作用在於將複雜事件的概率求解轉化爲在不同情況下發生的簡單事件的概率求和,即:

P(A)=i=1NP(A|Bi).P(Bi)

i=1NP(Bi)=1

    全概率公式代表了頻率學派解決概率問題的思路,即先做出一些假設(P(Bi)) ,再在這些假設下討論隨機事件的概率P(A|Bi)

    對全概率公式 進行整理,就演化出了求解“逆概率”問題。所謂“逆概率”解決的是在事件結果已經確定的條件下(P(A)) ,推斷各種假設發生的可能性(P(Bi|A)) 。其通用的公式形式被稱爲貝葉斯公式

P(Bi|A)=P(A|Bi).P(Bi)j=1NP(A|Bj).P(Bj)

    貝葉斯公式可以進一步抽象爲貝葉斯定理(Bayes’ theorem)

P(H|D)=P(D|H).P(H)P(D)

    式中的 P(H) 被稱爲先驗概率(prior probability),即預先設定的假設成立的概率;P(D|H) 被稱爲似然概率(likelihood function),是在假設成立的前提下觀測到結果的概率;P(H|D) 被稱爲後驗概率(posterior probability),即在觀測到結果的前提下假設成立的概率。

    從科學研究的方法論來看,貝葉斯定理提供了一種全新的邏輯。它根據觀測結果尋找合理的假設,或者說根據觀測數據尋找最佳的理論解釋,其關注的焦點在於後驗概率。概率論的貝葉斯學派(Bayesian probability)正是誕生於這種理念。

    在貝葉斯學派眼中,概率描述的是隨機事件的可信程度。

    頻率學派認爲假設是客觀存在且不會改變的,即存在固定的先驗分佈。因而在計算具體事件的概率時,要先確定概率分佈的類型和參數,以此爲基礎進行概率推演。

    相比之下,貝葉斯學派則認爲固定的先驗分佈是不存在的,參數本身也是隨機數。換句話說,假設本身取決於觀察結果,是不確定並且可以修正的。數據的作用就是對假設做出不斷的修正,使觀察者對概率的主觀認識更加接近客觀實際。

    概率論是線性代數之外,人工智能的另一個理論基礎,多數機器學習模型採用的都是基於概率論的方法。但由於實際任務中可供使用的訓練數據有限,因而需要對概率分佈的參數進行估計,這也是機器學習的核心任務。

    概率的估計有兩種方法:最大似然估計法(maximum likelihood estimation)和最大後驗概率法(maximum a posteriori estimation),兩者分別體現出頻率學派和貝葉斯學派對概率的理解方式。

    最大似然估計法的思想是使訓練數據出現的概率最大化,依此確定概率分佈中的未知參數,估計出的概率分佈也就最符合訓練數據的分佈。最大後驗概率法的思想則是根據訓練數據和已知的其他條件,使未知參數出現的可能性最大化,並選取最可能的未知參數取值作爲估計值。在估計參數時,最大似然估計法只需要使用訓練數據,最大後驗概率法除了數據外還需要額外的信息,就是貝葉斯公式中的先驗概率。

    具體到人工智能這一應用領域,基於貝葉斯定理的各種方法與人類的認知機制吻合度更高,在機器學習等領域中也扮演着更加重要的角色。

    概率論的一個重要應用是描述隨機變量(random variable)。根據取值空間的不同,隨機變量可以分成兩類:離散型隨機變量(discrete random variable)和連續型隨機變量(continuous random variable)。在實際應用中,需要對隨機變量的每個可能取值的概率進行描述。

    離散變量的每個可能的取值都具有大於 0 的概率,取值和概率之間一一對應的關係就是離散型隨機變量的分佈律,也叫概率質量函數(probability mass function)。概率質量函數在連續型隨機變量上的對應就是概率密度函數(probability density function)。

    概率密度函數體現的並非連續型隨機變量的真實概率,而是不同取值可能性之間的相對關係。對連續型隨機變量來說,其可能取值的數目爲不可列無限個,當歸一化的概率被分配到這無限個點上時,每個點的概率都是個無窮小量,取極限的話就等於零。而概率密度函數的作用就是對這些無窮小量加以區分。雖然在x 時,1/x2/x 都是無窮小量,但後者永遠是前者的 2 倍。這類相對意義而非絕對意義上的差別就可以被概率密度函數所刻畫。對概率密度函數進行積分,得到的纔是連續型隨機變量的取值落在某個區間內的概率。

    定義了概率質量函數與概率密度函數後,就可以給出一些重要分佈的特性。重要的離散分佈包括兩點分佈、二項分佈和泊松分佈,重要的連續分佈則包括均勻分佈、指數分佈和正態分佈

  • 兩點分佈(Bernoulli distribution):適用於隨機試驗的結果是二進制的情形,事件發生 / 不發生的概率分別爲 p/(1p) 。任何只有兩個結果的隨機試驗都可以用兩點分佈描述,拋擲一次硬幣的結果就可以視爲等概率的兩點分佈。

  • 二項分佈(Binomial distribution):將滿足參數爲 p 的兩點分佈的隨機試驗獨立重複 n 次,事件發生的次數即滿足參數爲(n,p) 的二項分佈。二項分佈的表達式爲:P(X=k)=Cnkpk(1p)(nk),0kn

  • 泊松分佈(Poisson distribution):放射性物質在規定時間內釋放出的粒子數所滿足的分佈,參數爲 λ 的泊松分佈表達式爲 P(X=k)=λkeλ/(k!) 。當二項分佈中的n 很大且p 很小時,其概率值可以由參數爲λ=np 的泊松分佈的概率值近似。

  • 均勻分佈(uniform distribution):在區間 (a,b) 上滿足均勻分佈的連續型隨機變量,其概率密度函數爲 1/(ba) ,這個變量落在區間(a,b) 內任意等長度的子區間內的可能性是相同的。

  • 指數分佈(exponential distribution):滿足參數爲θ 指數分佈的隨機變量只能取正值,其概率密度函數爲 ex/θ/θ,x>0 。指數分佈的一個重要特徵是無記憶性:即 P(X>s+t|X>s)=P(X>t)

  • 正態分佈(normal distribution):參數爲正態分佈的概率密度函數爲:

    f(x)=12π.δ.e(xμ)22δ2

    當 μ=0,σ=1 時,上式稱爲標準正態分佈。正態分佈是最常見最重要的一種分佈,自然界中的很多現象都近似地服從正態分佈。

    除了概率質量函數 / 概率密度函數之外,另一類描述隨機變量的參數是其數字特徵。數字特徵是用於刻畫隨機變量某些特性的常數,包括數學期望(expected value)、方差(variance)和協方差(covariance)

    數學期望即均值,體現的是隨機變量可能取值的加權平均,即根據每個取值出現的概率描述作爲一個整體的隨機變量的規律。方差表示的則是隨機變量的取值與其數學期望的偏離程度。方差較小意味着隨機變量的取值集中在數學期望附近,方差較大則意味着隨機變量的取值比較分散。

    數學期望和方差描述的都是單個隨機變量的數字特徵,如果要描述兩個隨機變量之間的相互關係,就需要用到協方差和相關係數協方差度量了兩個隨機變量之間的線性相關性,即變量 Y 能否表示成以另一個變量 X 爲自變量的 aX+b 的形式。

    根據協方差可以進一步求出相關係數(correlation coefficient),相關係數是一個絕對值不大於 1 的常數,它等於 1 意味着兩個隨機變量滿足完全正相關,等於 -1 意味着兩者滿足完全負相關,等於 0 則意味着兩者不相關。無論是協方差還是相關係數,刻畫的都是線性相關的關係。如果隨機變量之間的關係滿足 Y=X2 ,這樣的非線性相關性就超出了協方差的表達能力。

發佈了79 篇原創文章 · 獲贊 64 · 訪問量 14萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章