在這篇廣義線性模型的總結中主要會解決上一篇中的幾個問題,這樣會有一個整體的理解。
指數族分佈(The exponential family distribution)
通俗來講,指數分佈族就是一組分佈,這些分佈的概率密度函數可以通過一系列的代數運算後,表示成一個通式,如下:
其中包含了四個未知的函數,、、、,這四個未知量決定了這個分佈究竟是指數分佈族中的哪一個分佈。
:分佈的自然參數(natural parameter)或標準參數(canonical parameter)
:充分統計量(sufficient statistic),一般等於y
:對數分配函數(log partition function),這部分確保Y的分佈p(y:η) 計算的結果加起來(連續函數是積分)等於1。
:基礎度量值(base measure)
現在可能對這四個未知量的含義不理解,現在只需要知道,對於一個指數族分佈,有四個量來決定它究竟是哪一個分佈,高斯分佈、伯努利分佈、泊松分佈等等。
現在可以將之前用到的伯努利分佈套入這個指數分佈族的概率密度函數中,可以一一對應的找到、、、四個值。伯努利分佈是特殊的二項分佈,概率密度函數可以寫爲:
其中標出的分別是:
,反解出:
把帶入可以求解出:
=1
同樣,高斯分佈也可以這樣寫出、、、:
廣義線性模型
現在可以根據上面的指數族分佈結合實際問題創造廣義線性模型了,建立一個廣義線性模型需要滿足如下三個假設:
1. y服從一個指數族分佈,這個分佈的自然參數是
2. 假設函數
3. 自然參數和滿足線性關係:
同時,指數族分佈有如下幾個性質:
1. 期望是的一階偏導:
2 方差是的二階偏導:
因此,我們可以根據上面的假設和性質得到:
當y服從伯努利分佈時,假設函數是:
這個假設函數剛好是邏輯迴歸的假設函數,在假設二中,,所以:
,這也就解釋了爲什麼邏輯迴歸的假設函數是這樣的。
同理,高斯分佈,
,
在假設二中,,所以,
,這就是線性迴歸的假設函數,這也就是最小二乘法。