邏輯迴歸在個人信用評估模型上的運用

摘自《邏輯迴歸在個人信用評估模型上的運用》——胡濱

一、邏輯迴歸模型的概念

    非線性概率模型,又稱邏輯模型(Logistic Regression),其基本形式爲一種非線性函數——邏輯函數:


    其中, 爲採取某選擇的概率, 爲自變量。這個函數具有我們希望的良好性質,它的圖形是一條S型曲線。
   

    我們可以把左端整體看作一個變量,於是便有線性迴歸模型:

      

    邏輯迴歸模型作爲一種概率模型,可用於預測某事件發生的概率,主要解決二值變量的預測或分類問題。

二、模型所解決的問題

    生活中面臨着許多二值(dichotomous)變量,需要去判斷它的歸屬。所謂二值變量,是指僅取兩個值的變量,可以賦予任何兩個不同的記號,一般用0和1標記。

    判斷二值變量的歸屬問題,要基於概率論和統計的知識。

    假定有一個二值變量y,僅取0和1兩個值,我們研究的對象是probability=P(y=1),簡記爲p=P(y=1)。

    個人信用評估領域,在已知影響消費者信用品質的各種預測指標(也稱中間變量)後,需要預測申請人的信貸風險概率(或申請人的“好”與“壞”)。

    申請人的“好”與“壞”(outcome flag)用y表示,y=1 表示“壞”,y=0表示“好”,現在要預測 P(y=1)。

三、模型的形式

    假定有 s個開發樣本,他們的預測指標X1,X2…Xn以及二值結果記號y已知,數據結構如下表所示:

邏輯迴歸模型的數據結構

      

    有了上面的開發樣本以後,我們就可以建立邏輯 迴歸模型了。

    把具有下面形式的模型稱爲邏輯迴歸模型:

      

    其中:p=P(y=1)是我們感興趣的二值變量中 y=1發生的概率,是需要預測的。 X1, X2…Xn 是影響 y=1發生的 n 個預測變量。B0,B1,…Bn是我們需要估計的模型參數。

四、模型的解釋

    1、p=P(y=1)的計算

    我們建立 邏輯 迴歸模型的最終目的是爲了預測P(y=1),通過對開發樣本數據的建模,待估計出 B0,B1,…Bn後,根據上面的模型表達式,對其進行簡單的數學變換,就可以得到:

      

    2、模型的預測和解釋

    現在有一個新的觀測,他的預測變量 X1,X2,..Xn的值已知,我們把這些值帶入上式就可以得到該觀測的 P(y=1)。

五、模型應用研究舉例

    某銀行在探討消費者有關風險因素的研究中,收集了一批信貸客戶的樣本數據,現從中隨機抽取1000例數據作爲示例進行邏輯迴歸分析:

某銀行樣本數據

      

    其中,i 表示樣本編號;x1表示checking-支票;x2表示property-資產;x3表示duration-持續時間;x4表示history-信貸歷史;x5表示saving-存款;y表示信用的好壞(‘好’y=1;‘壞’y=0)。藉助於SAS軟件,得到模型的參數估計值如下:

舉例模型的參數估計值

      

    於是我們可以得到 p=P(y=1)的計算公式。現在有一個新的申請者,他的各種指標分別爲:x1=1,x2=3,x3=48,x4=2,x5=1,帶入上式,得到他成爲“壞”賬戶的概率爲0.754。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章