logistic regression--sas逐步迴歸推導驗證

邏輯迴歸定義事件發生的概率爲:
這裏寫圖片描述
其中:
這裏寫圖片描述
因此對於輸入x分類結果爲類別1和類別0的概率分別爲:
這裏寫圖片描述

(1)式綜合起來可以寫成:
這裏寫圖片描述
取似然函數爲:
這裏寫圖片描述
對數似然函數爲:
這裏寫圖片描述

實際求解中通常取 -2log L
求解變量係數就是使用梯度下降法求 -2log L 的最小值,sas logistic 採用牛頓法 和Fisher scoring法(默認)。

先說幾個概念

1、似然方程

公式-2log L 對於模型參數直接微分,使這些導數等於0 ,得到p+1個等式:
這裏寫圖片描述
這些函數可以寫成擴展形式如下:
這裏寫圖片描述
矢量形式如下:
這裏寫圖片描述
上式中的矩陣X被稱爲數據矩陣或設計矩陣,其維度爲 n x (p+1)。
這裏寫圖片描述
這些函數的解是模型最大似然參數估計的向量β。由於這些函數是非線性的,求解它們需要使用迭代的方法。常用牛頓迭代法,如下:
這裏寫圖片描述
I 是函數 -log L對於β的二階導數的矩陣,即下面的hessian矩陣。

2、信息矩陣(hessian矩陣)

對 - log L 求二階偏導數,即Hessian矩陣爲
這裏寫圖片描述
這裏寫圖片描述
如果寫成矩陣形式,以H表示Hessian矩陣,

這裏寫圖片描述
H=XTVXH=X^TVX
下面以sas proc logistic的輸出爲例,計算下統計量指標。

只含截距項的參數統計量:

這裏寫圖片描述

上圖包括樣本數量,從第0步輸入截距開始滿足收斂狀態表示模型已經輸出了變量係數,下面的都是進行模型變量的參數估計、擬合統計量等。

-2log L = -2 * [ n1ln(n1/n) + n0 ln(n0/n) ]= -2 [(886*ln(886/10615) + 9726 * ln(9726/10615))] =6096.319

截距項的係數來自於先驗概率 log(p/1-p)= log (886/9726)=-2.3961

然後模型參數估計的部分任務是計算出標準誤差,模型參數的方差和協方差由信息矩陣的逆給出(β)=I1\sum(\beta)=I^{-1}。估計的參數的標準誤由對角線元素的平方根給出,即:SE(βj)=(var(βj))12SE(\beta_j)=(var(\beta_j))^{\frac 12}
參照上式
這裏寫圖片描述 這裏寫圖片描述
這裏寫圖片描述
這裏寫圖片描述
沃爾德卡方統計量 W=[βj^/SE^(βj^)]2W=[\hat{\beta_j}/\hat{SE}(\hat{\beta_j})]^2=(-2.3961/0.0351)^2 = 4662.4021

這裏寫圖片描述

這裏寫圖片描述
篩選變量進入時用的是評分卡方,是否剔除變量時用的是wald卡方(等於極大似然估計時的wald統計量)??

這裏寫圖片描述

模型擬合統計量:

logistic 模型評估分成幾個階段進行,首先考慮檢查似然函數值得統計量。通過與僅含截距項的模型比較,這些統計量可以評估將自變量引入模型的效應。

模型擬合統計量中 -2 log L 就是上面似然函數的對數,分爲只含截距項的和截距項加自變量的兩個值,L1=i=1n[πiyi][(1πi)1yi]L_1=\prod_{i=1}^n[\pi_i^{y^i}][(1-\pi_i)^{1-y^i}]
取對數形式並兩邊同時乘以-2,得到:
2logL=2[yiln(πi)+(1yi)ln(1πi)]-2logL=-2[y_iln(\pi_i)+(1-y_i)ln(1-\pi_i)] ,除了用 -2 log L 評估模型中所有自變量對模型的貢獻,在逐步建模的情況下,還可以用 -2 log L 判斷每一個變量被納入模型時的增加值(注意:-2 log L 是似然函數乘以-2,所以在似然函數越大越好的情況下,-2 logL 越小越好。因此,逐步迴歸中,模型擬合統計量含自變量的-2 log L最好是越來越小的)。

注意到模型的變量越多,包含和不包含該自變量的 -2 log L 差別越大,即使這些變量的中的某些係數已經接近0,爲了懲罰包含大量自變量的模型,制定了以下兩個標準:AIC(赤池信息準則)和SC(舒爾茨準則)。舒爾茨準則也被稱爲貝葉斯信息準則(BIC)。
AIC = -2 log L + 2 r

SC = -2 log L + r ln(n)

檢驗全局零假設:

零假設β0β=0(表示自變量XkX_k對事件發生可能性無影響作用)。如果零假設被拒絕,說明事件發生可能性依賴於XkX_k的變化。通常,樣本量越大,自變量和違約變量之間的關聯性指標就越強,得到一個所有參數都是0的模型的可能性就越低。
用於檢驗零假設的統計量有三個:
1.似然比統計量
2.分數統計量
3.wald統計量

似然比統計量G=2ln(xixi)G=-2ln(\frac {不含x_i似然} {含有x_i似然}),結果就是上面擬合統計量 只含截距項的 -2 log L 減去 包含自變量的 -2 log L,等於6096.319-5911.975=184.3449

後面的wald統計量和分數統計量計算參見博文

這裏寫圖片描述

模型參數的解釋:

邏輯迴歸發生比odds=p1p=eβ0+β1x1+...βkxk+...+βpxpodds=\frac p {1-p}=e^{\beta_0+\beta_1 x_1+...\beta_k x_k+...+\beta_p x_p}即事件發生的概率與不發生的概率之比。而發生比率(odds ration),即OR=oddsioddsjOR=\frac {odds_i} {odds_j}

對於自變量XkX_k,每增加一個單位,odds ration爲
這裏寫圖片描述
因此,優比估計裏面的變量name_6點估計實際上就是e^1.189=3.284。因爲模型自變量的係數不等於0,所有概率比應該不等於1。如果模型自變量係數爲負,概率比小於1。不論變量係數是大於0還是小於0,概率比的置信區間都不應該覆蓋1。

參考:
1、logistic迴歸
2、邏輯迴歸
3、信用風險評分卡研究:基於SAS的開發與實施【Mamdouh Refaat】

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章