邏輯迴歸在個人信用評估模型上的運用

原創

2018-08-22 17:33

摘自《邏輯迴歸在個人信用評估模型上的運用》——胡濱

一、邏輯迴歸模型的概念

非線性概率模型，又稱邏輯模型（Logistic Regression），其基本形式爲一種非線性函數——邏輯函數：

其中，爲採取某選擇的概率，爲自變量。這個函數具有我們希望的良好性質，它的圖形是一條S型曲線。

我們可以把左端整體看作一個變量，於是便有線性迴歸模型：

邏輯迴歸模型作爲一種概率模型，可用於預測某事件發生的概率，主要解決二值變量的預測或分類問題。

二、模型所解決的問題

生活中面臨着許多二值（dichotomous）變量，需要去判斷它的歸屬。所謂二值變量，是指僅取兩個值的變量，可以賦予任何兩個不同的記號，一般用0和1標記。

判斷二值變量的歸屬問題，要基於概率論和統計的知識。

假定有一個二值變量y，僅取0和1兩個值，我們研究的對象是probability＝P(y=1)，簡記爲p＝P(y=1)。

個人信用評估領域，在已知影響消費者信用品質的各種預測指標（也稱中間變量）後，需要預測申請人的信貸風險概率（或申請人的“好”與“壞”）。

申請人的“好”與“壞”（outcome flag）用y表示，y=1 表示“壞”，y=0表示“好”，現在要預測 P(y=1)。

三、模型的形式

假定有 s個開發樣本，他們的預測指標X1,X2…Xn以及二值結果記號y已知，數據結構如下表所示：

邏輯迴歸模型的數據結構

有了上面的開發樣本以後，我們就可以建立邏輯迴歸模型了。

把具有下面形式的模型稱爲邏輯迴歸模型：

其中：p＝P(y=1)是我們感興趣的二值變量中 y=1發生的概率，是需要預測的。 X1, X2…Xn 是影響 y=1發生的 n 個預測變量。B0,B1,…Bn是我們需要估計的模型參數。

四、模型的解釋

1、p＝P(y=1)的計算

我們建立邏輯迴歸模型的最終目的是爲了預測P(y=1)，通過對開發樣本數據的建模，待估計出 B0,B1,…Bn後，根據上面的模型表達式，對其進行簡單的數學變換，就可以得到：

2、模型的預測和解釋

現在有一個新的觀測，他的預測變量 X1,X2,..Xn的值已知，我們把這些值帶入上式就可以得到該觀測的 P(y=1)。

五、模型應用研究舉例

某銀行在探討消費者有關風險因素的研究中，收集了一批信貸客戶的樣本數據，現從中隨機抽取1000例數據作爲示例進行邏輯迴歸分析：

某銀行樣本數據

其中，i 表示樣本編號；x1表示checking-支票；x2表示property-資產；x3表示duration-持續時間；x4表示history-信貸歷史；x5表示saving-存款；y表示信用的好壞（‘好’y=1；‘壞’y=0）。藉助於SAS軟件，得到模型的參數估計值如下：

舉例模型的參數估計值

於是我們可以得到 p＝P(y=1)的計算公式。現在有一個新的申請者，他的各種指標分別爲：x1=1,x2=3,x3=48,x4=2,x5=1，帶入上式，得到他成爲“壞”賬戶的概率爲0.754。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.