廣義線性模型總結(GLM)

上一篇:線性迴歸和邏輯迴歸總結

在這篇廣義線性模型的總結中主要會解決上一篇中的幾個問題,這樣會有一個整體的理解。

指數族分佈(The exponential family distribution)

通俗來講,指數分佈族就是一組分佈,這些分佈的概率密度函數可以通過一系列的代數運算後,表示成一個通式,如下:

其中包含了四個未知的函數,b(y)\etaT(y)a(\eta),這四個未知量決定了這個分佈究竟是指數分佈族中的哪一個分佈。

\eta:分佈的自然參數(natural parameter)或標準參數(canonical parameter)

T(y)充分統計量(sufficient statistic),一般等於y

a(\eta)對數分配函數(log partition function),這部分確保Y的分佈p(y:η) 計算的結果加起來(連續函數是積分)等於1。

b(y)基礎度量值(base measure)

現在可能對這四個未知量的含義不理解,現在只需要知道,對於一個指數族分佈,有四個量來決定它究竟是哪一個分佈,高斯分佈、伯努利分佈、泊松分佈等等。

現在可以將之前用到的伯努利分佈套入這個指數分佈族的概率密度函數中,可以一一對應的找到b(y)\etaT(y)a(\eta)四個值。伯努利分佈是特殊的二項分佈,概率密度函數可以寫爲:

 其中標出的分別是:

\eta=log(\frac{\phi }{1-\phi }),反解出:\phi =\frac{1}{1+e^{-\eta}}

T(y)=y

\phi帶入a(\eta)可以求解出:

a(\eta)=-log(1-\phi)=log(1+e^{\eta})

b(y)=1

同樣,高斯分佈也可以這樣寫出b(y)\etaT(y)a(\eta)

 廣義線性模型

現在可以根據上面的指數族分佈結合實際問題創造廣義線性模型了,建立一個廣義線性模型需要滿足如下三個假設:

1. y服從一個指數族分佈,這個分佈的自然參數是\eta

2. 假設函數h_{\theta}(x)=E[y|x]

3. 自然參數\etax滿足線性關係:\eta=\theta^{T}x

同時,指數族分佈有如下幾個性質:

1. 期望是a(\eta)的一階偏導:E[y|x]=\frac{\partial}{\partial \eta}a(\eta)

2 方差是a(\eta)的二階偏導:Var[y|\eta]=\frac{\partial ^{2}}{\partial \eta^{2}}a(\eta)

因此,我們可以根據上面的假設和性質得到:

當y服從伯努利分佈時,假設函數h_{\theta}(x)是:

h_{\theta}(x)=E[y|\eta]=a'(\eta)=\frac{e^{\eta}}{1+e^{\eta}}=\frac{1}{1+e^{-\eta}}

這個假設函數剛好是邏輯迴歸的假設函數,在假設二中,\eta=\theta^{T}x,所以:

h_{\theta}(x)=\frac{1}{1+e^{-\theta^{T}x}},這也就解釋了爲什麼邏輯迴歸的假設函數是這樣的。

同理,高斯分佈,

h_{\theta}(x)=E[y|\eta]=a'(\eta)=\eta

在假設二中,\eta=\theta^{T}x,所以,

h_{\theta}(x)=\theta^{T}x,這就是線性迴歸的假設函數,這也就是最小二乘法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章