logistic regression--sas逐步迴歸推導驗證

原創

jin_tmac

2020-06-01 08:13

邏輯迴歸定義事件發生的概率爲：

其中：

因此對於輸入x分類結果爲類別1和類別0的概率分別爲：

（1）式綜合起來可以寫成：

取似然函數爲：

對數似然函數爲：

實際求解中通常取 -2log L
求解變量係數就是使用梯度下降法求 -2log L 的最小值，sas logistic 採用牛頓法和Fisher scoring法（默認）。

先說幾個概念

1、似然方程

公式-2log L 對於模型參數直接微分，使這些導數等於0 ，得到p+1個等式：

這些函數可以寫成擴展形式如下：

矢量形式如下：

上式中的矩陣X被稱爲數據矩陣或設計矩陣，其維度爲 n x (p+1)。

這些函數的解是模型最大似然參數估計的向量β。由於這些函數是非線性的，求解它們需要使用迭代的方法。常用牛頓迭代法，如下：

I 是函數 -log L對於β的二階導數的矩陣，即下面的hessian矩陣。

2、信息矩陣（hessian矩陣）

對 - log L 求二階偏導數，即Hessian矩陣爲

如果寫成矩陣形式，以Ｈ表示Hessian矩陣，
令

則 $H=X^TVX$
下面以sas proc logistic的輸出爲例，計算下統計量指標。

只含截距項的參數統計量：

上圖包括樣本數量，從第0步輸入截距開始滿足收斂狀態表示模型已經輸出了變量係數，下面的都是進行模型變量的參數估計、擬合統計量等。

-2log L = -2 * [ n1ln(n1/n) + n0 ln(n0/n) ]= -2 [(886*ln(886/10615) + 9726 * ln(9726/10615))] =6096.319

截距項的係數來自於先驗概率 log（p/1-p）= log (886/9726)=-2.3961

然後模型參數估計的部分任務是計算出標準誤差，模型參數的方差和協方差由信息矩陣的逆給出 $\sum(\beta)=I^{-1}$ 。估計的參數的標準誤由對角線元素的平方根給出，即： $SE(\beta_j)=(var(\beta_j))^{\frac 12}$
參照上式

沃爾德卡方統計量 $W=[\hat{\beta_j}/\hat{SE}(\hat{\beta_j})]^2$ =（-2.3961/0.0351）^2 = 4662.4021

篩選變量進入時用的是評分卡方，是否剔除變量時用的是wald卡方（等於極大似然估計時的wald統計量）？？

模型擬合統計量:

logistic 模型評估分成幾個階段進行，首先考慮檢查似然函數值得統計量。通過與僅含截距項的模型比較，這些統計量可以評估將自變量引入模型的效應。

模型擬合統計量中 -2 log L 就是上面似然函數的對數，分爲只含截距項的和截距項加自變量的兩個值， $L_1=\prod_{i=1}^n[\pi_i^{y^i}][(1-\pi_i)^{1-y^i}]$
取對數形式並兩邊同時乘以-2，得到：
$-2logL=-2[y_iln(\pi_i)+(1-y_i)ln(1-\pi_i)]$ ,除了用 -2 log L 評估模型中所有自變量對模型的貢獻，在逐步建模的情況下，還可以用 -2 log L 判斷每一個變量被納入模型時的增加值（注意：-2 log L 是似然函數乘以-2，所以在似然函數越大越好的情況下，-2 logL 越小越好。因此，逐步迴歸中，模型擬合統計量含自變量的-2 log L最好是越來越小的）。

注意到模型的變量越多，包含和不包含該自變量的 -2 log L 差別越大，即使這些變量的中的某些係數已經接近0，爲了懲罰包含大量自變量的模型，制定了以下兩個標準：AIC（赤池信息準則）和SC（舒爾茨準則）。舒爾茨準則也被稱爲貝葉斯信息準則（BIC）。
AIC = -2 log L + 2 r

SC = -2 log L + r ln(n)

檢驗全局零假設：

零假設 $β＝0$ （表示自變量 $X_k$ 對事件發生可能性無影響作用）。如果零假設被拒絕，說明事件發生可能性依賴於 $X_k$ 的變化。通常，樣本量越大，自變量和違約變量之間的關聯性指標就越強，得到一個所有參數都是0的模型的可能性就越低。
用於檢驗零假設的統計量有三個：
1.似然比統計量
2.分數統計量
3.wald統計量

似然比統計量 $G=-2ln(\frac {不含x_i似然} {含有x_i似然})$ ，結果就是上面擬合統計量只含截距項的 -2 log L 減去包含自變量的 -2 log L，等於6096.319-5911.975=184.3449

後面的wald統計量和分數統計量計算參見博文。

模型參數的解釋：

邏輯迴歸發生比 $odds=\frac p {1-p}=e^{\beta_0+\beta_1 x_1+...\beta_k x_k+...+\beta_p x_p}$ 即事件發生的概率與不發生的概率之比。而發生比率(odds ration),即 $OR=\frac {odds_i} {odds_j}$

對於自變量 $X_k$ ，每增加一個單位，odds ration爲

因此，優比估計裏面的變量name_6點估計實際上就是e^1.189=3.284。因爲模型自變量的係數不等於0，所有概率比應該不等於1。如果模型自變量係數爲負，概率比小於1。不論變量係數是大於0還是小於0，概率比的置信區間都不應該覆蓋1。

參考：
1、logistic迴歸
2、邏輯迴歸
3、信用風險評分卡研究:基於SAS的開發與實施【Mamdouh Refaat】

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

logistic regression--sas逐步迴歸推導驗證

1、似然方程

2、信息矩陣（hessian矩陣）

只含截距項的參數統計量：

模型擬合統計量:

檢驗全局零假設：

模型參數的解釋：

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

理解xgboost

xgboost的原生接口與sklearn接口輸出feature_importance

Python連續變量分箱--woe值單調分箱

Python ： satasmodels & sklearn LogisticRegression

logistic regression--sas逐步迴歸推導驗證

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結