廣義線性模型總結（GLM）

原創

我对算法一无所知

2020-06-30 22:34

上一篇：線性迴歸和邏輯迴歸總結

在這篇廣義線性模型的總結中主要會解決上一篇中的幾個問題，這樣會有一個整體的理解。

指數族分佈（The exponential family distribution）

通俗來講，指數分佈族就是一組分佈，這些分佈的概率密度函數可以通過一系列的代數運算後，表示成一個通式，如下：

其中包含了四個未知的函數，、 $\eta$ 、、 $a(\eta)$ ，這四個未知量決定了這個分佈究竟是指數分佈族中的哪一個分佈。

$\eta$ ：分佈的自然參數（natural parameter）或標準參數（canonical parameter）

：充分統計量（sufficient statistic），一般等於y

$a(\eta)$ ：對數分配函數（log partition function），這部分確保Y的分佈p(y:η) 計算的結果加起來（連續函數是積分）等於1。

：基礎度量值（base measure）

現在可能對這四個未知量的含義不理解，現在只需要知道，對於一個指數族分佈，有四個量來決定它究竟是哪一個分佈，高斯分佈、伯努利分佈、泊松分佈等等。

現在可以將之前用到的伯努利分佈套入這個指數分佈族的概率密度函數中，可以一一對應的找到、 $\eta$ 、、 $a(\eta)$ 四個值。伯努利分佈是特殊的二項分佈，概率密度函數可以寫爲：

其中標出的分別是：

$\eta=log(\frac{\phi }{1-\phi })$ ，反解出： $\phi =\frac{1}{1+e^{-\eta}}$

把 $\phi$ 帶入 $a(\eta)$ 可以求解出：

$a(\eta)=-log(1-\phi)=log(1+e^{\eta})$

=1

同樣，高斯分佈也可以這樣寫出、 $\eta$ 、、 $a(\eta)$ ：

廣義線性模型

現在可以根據上面的指數族分佈結合實際問題創造廣義線性模型了，建立一個廣義線性模型需要滿足如下三個假設：

1. y服從一個指數族分佈，這個分佈的自然參數是 $\eta$

2. 假設函數 $h_{\theta}(x)=E[y|x]$

3. 自然參數 $\eta$ 和滿足線性關係： $\eta=\theta^{T}x$

同時，指數族分佈有如下幾個性質：

1. 期望是 $a(\eta)$ 的一階偏導： $E[y|x]=\frac{\partial}{\partial \eta}a(\eta)$

2 方差是 $a(\eta)$ 的二階偏導： $Var[y|\eta]=\frac{\partial ^{2}}{\partial \eta^{2}}a(\eta)$

因此，我們可以根據上面的假設和性質得到：

當y服從伯努利分佈時，假設函數 $h_{\theta}(x)$ 是:

$h_{\theta}(x)=E[y|\eta]=a'(\eta)=\frac{e^{\eta}}{1+e^{\eta}}=\frac{1}{1+e^{-\eta}}$

這個假設函數剛好是邏輯迴歸的假設函數，在假設二中， $\eta=\theta^{T}x$ ，所以：

$h_{\theta}(x)=\frac{1}{1+e^{-\theta^{T}x}}$ ，這也就解釋了爲什麼邏輯迴歸的假設函數是這樣的。

同理，高斯分佈，

$h_{\theta}(x)=E[y|\eta]=a'(\eta)=\eta$ ，

在假設二中， $\eta=\theta^{T}x$ ，所以，

$h_{\theta}(x)=\theta^{T}x$ ，這就是線性迴歸的假設函數，這也就是最小二乘法。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

CART實現

基於R的CART的實現包有tree,rpart. tree rpart

2020-07-07 22:26:30

Ridge regression

參考文獻 1.Hoerl A E, Kennard R W. Ridge regression: Biased estimation for nonorthogonal problems[J]. Technometrics, 19

2020-07-07 22:26:30

Python實現kd樹

kd樹的數據結構和二叉樹類似，每個節點存有當前節點的數值，左右子樹的節點，和以當前節點爲根節點的子樹的劃分維度。 class KdNode: def __init__(self, dim, val, left=None, ri

2020-07-07 00:33:04

PCA方法Python代碼實現

關於PCA方法的原理這裏就不介紹了，網絡上很多文章寫得都很好，這裏給出以三維點集的PCA爲例，在python裏實現PCA方法。 PCA方法的主要步驟是：數據中心化計算協方差矩陣根據協方差矩陣計算出特徵值和特徵向量 python代碼如

2020-07-07 00:33:04

hadoop 簡單入門與streaming常用配置參數說明

1. Hadoop包含兩核心部分 hdfs Hadoop distribute file system -- hadoop分佈式文件系統，存儲數據 Namenode、Datanode 常用命令形式：hadoop fs -ls / h

2020-07-06 23:19:09

假設空間版本空間&查全率查準率

一、假設空間版本空間根據P4表1.1和P5圖1.1得，假設空間爲： 1 色澤＝＊，根蒂＝＊，敲聲＝＊2 色澤＝青綠，根蒂＝＊，敲聲＝＊3 色澤＝烏黑，根蒂＝＊，敲聲＝＊4 色澤

liangyingyi1006

2020-07-04 10:41:01

Transformers與圖神經網絡的關係，我們能從transformer學習到什麼？

1、導讀這個觀點的目的是構建Transformer結構背後的NLP上的直覺，以及與圖神經網絡的聯繫。圖深度學習”聽起來很厲害，但有什麼大的商業成功的故事嗎？它有沒有被部署在實際app中？除了Pinterest、阿里巴巴和Tw

BUAA～冬之恋

2020-07-04 03:47:48

機器學習——分類算法之決策樹

機器學習——分類算法之決策樹前言1、信息熵2、條件熵ID3算法C4.5決策樹CART決策樹1、CART決策樹的分類算法2、CART決策樹的迴歸算法剪枝1、預剪枝2、後剪枝連續值和缺失值的處理1、連續值的處理2、缺失值的處理前言

2020-07-03 16:48:56

機器學習——分類算法之感知機

機器學習——分類算法之感知機前言符號函數感知機模型感知機算法1、原始形式2、對偶形式代碼前言感知機算法（perceptron）是用於二分類的線性分類模型，將輸入實例劃分爲正例和負例的一個超平面，屬於判別模型。感知機算法旨在求出

2020-07-03 16:10:50

機器學習——貝葉斯算法和樸素貝葉斯算法

機器學習——分類算法之貝葉斯算法和樸素貝葉斯算法前言一、貝葉斯算法算法示例二、樸素貝葉斯分類器1、貝葉斯決策論2、多元正太分佈參數的極大似然估計3、樸素貝葉斯分類器前言這部分的公式推導較多，涉及到了極大似然估計和貝葉斯估計，要

2020-07-03 16:10:50

機器學習——分類算法之邏輯迴歸

機器學習——分類算法之邏輯迴歸前言邏輯迴歸(Logistic Regression)1、Sigmoid函數2、算法推導3、代碼前言邏輯迴歸也被稱爲對數機率迴歸，注意這裏面說的迴歸並不是真正意義上的迴歸算法，其實它是一個經典的分

2020-07-03 16:10:50

邏輯迴歸解決多分類問題

邏輯迴歸解決多分類問題第一種方式：從類別入手1、OVO(one vs one)2、OVR(One Vs Rest)第二種方法：從算法入手傳統的邏輯迴歸只能處理二分類問題，對於多分類任務，主要有如下兩種方案。第一種方式：從類別入

2020-07-03 16:10:50

機器學習---線性迴歸算法梳理

線性迴歸算法梳理任務1 - 線性迴歸算法梳理一、基本概念二、線性迴歸的原理三、線性迴歸損失函數、代價函數、目標函數四、優化方法(梯度下降法、牛頓法、擬牛頓法等)五、線性迴歸的評估指標六、sklearn參數詳解任務1 - 線性迴歸

2020-07-03 16:09:47

windows系統下python快速註釋多行

以下才做適合於Windows系統。除了對每一行前面添加#的註釋方式外（如若要註釋多行，這種方式較慢），我們還可以考慮另外兩種註釋方式： 1、Ctrl + / （先選中要註釋的代碼，再按Ctrl + /） 2、用’’’ ‘’'或者

2020-07-03 16:09:36

隱馬爾科夫模型HMM（三）鮑姆-韋爾奇算法求解HMM參數

文章目錄HMM模型參數求解概述鮑姆-韋爾奇算法的推導鮑姆-韋爾奇算法流程總結 HMM模型參數求解概述 HMM模型參數求解根據已知的條件可以分爲兩種情況。第一種情況較爲簡單，就是我們已知D個長度爲T的觀測序列和對應的隱藏狀態序列，

2020-07-03 13:01:58

24小時熱門文章

最新文章

最新評論文章