信用評分模型詳解（下）之信用評分系統搭建

信用評分問題中一般使用邏輯迴歸作爲主要的模型。過程主要包括變量分箱、變量的WOE（證據權重）變換和變量選擇（IV值）、邏輯迴歸估算。

一個完整的評分卡流程主要包括以下幾個步驟：

數據準備
數據探索性分析
數據預處理，包括缺失值、異常值、數據切分
特徵分箱：
特徵篩選：IV值
單變量分析(IV)和多變量分析(兩兩相關性）
模型訓練
評分卡構建
評分預測

1. 數據準備

數據源主要包含行內行外兩部分：行內的有客戶的基礎人口統計特徵數據、交易歷史數據、信用歷史數據等；
外部數據有人行徵信數據、第三方徵信機構數據及社交行爲數據等。

2. 數據探索

對獲得的原始數據進行進一步的探索，觀察樣本的總體分佈情況，正負樣本是否均衡？
單變量分佈是否滿足正態分佈？變量的缺失情況？是否有異常值？
變量間的共線性情況如何？評分卡模型主要是使用邏輯迴歸算法進行建模，要求變量間共線性儘可能低。可以採用熱力圖觀察變量間共線性、變量規模。
確定數據集分割方法，劃分訓練集和測試集？ --確定壞用戶的標準？比如：逾期多久算違約

3. 數據預處理

一般包括缺失值處理，異常值處理，特徵共線性

4. 評分卡最優分箱

評分卡最優分箱的具體操作參見上篇博文。分箱結束後，需要對分箱後的變量進行WOE編碼。計算公式如下：
$WOE_i = ln(\frac{b_i}{b}/\frac{g_i}{g})$
表示“當前分組中壞客戶佔所有壞客戶的比例”和“當前分組中好客戶佔所有好客戶的比例”的差異。WOE也可以理解爲，當前分組中壞客戶和好客戶的比值，與所有樣本中這個比值的差異。這個差異是用這兩個比值的比值，再取對數來表示的。
WOE越大，這種差異越大，這個分組裏的樣本是壞客戶的可能性就越大；WOE越小，差異越小，這個分組裏的樣本是壞客戶的可能性就越小。

sklearn.reportgen.utils.weightOfEvidence

• WOE 的值越高，代表着該分組中客戶是壞客戶的風險越低。

5. 特徵篩選：IV值計算

IV值是用來衡量某個變量對好壞客戶區分能力的一個指標，IV值公式如下：
$IV = \sum_i(\frac{b_i}{b}-\frac{g_i}{g}))*ln(\frac{b_i}{b}/\frac{g_i}{g})) = \sum_i(\frac{b_i}{b}-\frac{g_i}{g})*WOE_i$

關於更詳細的WOE和IV可見：數據挖掘模型中的IV和WOE詳解。

總體來說，IV的特點如下：
a、對於變量的一個分組，這個分組的好用戶和壞用戶的比例與樣本整體響應和未響應的比例相差越大，IV值越大，否則，IV值越小；
b、極端情況下，當前分組的好用戶和壞用戶的比例和樣本整體的好用戶和壞用戶的比例相等時，IV值爲0；
c、IV值的取值範圍是[0,+∞)，且噹噹前分組中只包含好用戶或者壞用戶時，IV = +∞。

使用IV值有一個缺點，就是不能自動處理變量的分組中出現壞樣本比例爲0或100%的情況。那麼，這種情況下，應該怎麼做呢？建議如下：
（1）如果可能，直接把這個分組做成一個規則，作爲模型的前置條件或補充條件；
（2）重新對變量進行離散化或分組，使每個分組的壞樣本比例都不爲0且不爲100%，尤其是當一個分組個體數很小時（比如小於100個），強烈建議這樣做，因爲本身把一個分組個體數弄得很小就不是太合理。
（3）如果上面兩種方法都無法使用，建議人工把該分組的壞樣本數和好樣本數量進行一定的調整。如果壞樣本數原本爲0，可以人工調整爲1；如果好樣本數原本爲0，可以人工調整爲1.

IV值判斷變量預測能力的標準（一般選取大於0.02的）

IV值	預測能力
< 0.02	unpredictive
0.02 to 0.1	weak
0.1 to 0.3	medium
0.3 to 0.5	strong
>0.5	suspicious

6. 單變量分析和多變量分析，均基於WOE編碼後的值

選擇IV高於0.02的變量
比較兩兩線性相關性,如果相關係數的絕對值高於閾值，剔除IV較低的一個
亦可使用機器學習的特徵選擇方法（RF、Xgboost）

7. 訓練模型

證據權重（Weight of Evidence,WOE）轉換可以將Logistic迴歸模型轉變爲標準評分卡格式，詳情參見信用評分模型詳解（上）之評分卡模型。

引入WOE轉換的目的並不是提高模型效果，只是爲了剔除一些不該被納入模型的變量，因爲它們要麼無法提升模型效果，要麼與模型的相關性過高

其實建立標準信用評分卡也可以不採用WOE轉換。這種情況下，Logistic迴歸模型需要處理更大數量的自變量。儘管這樣會增加建模程序的複雜性，但最終得到的評分卡都是一樣的。

模型訓練時，

要求：
（1）變量顯著
（2）係數爲負
每次迭代中，剔除最不顯著的變量，直到
（1）剩餘所有變量均顯著
（2）沒有特徵可選
亦可嘗試L1或L2約束

8. 模型評估

可以利用KS和AUC等評估指標（亦可使用混淆矩陣）

KS值越大，表示模型能夠將正、負客戶區分開的程度越大。
通常來講，KS>0.2即表示模型有較好的預測準確性。
KS繪製方式與ROC曲線略有相同，都要計算TPR和FPR。但是TPR和FPR都要做縱軸，橫軸爲把樣本分成多少份。

步驟：
（1）按照分類模型返回的概率降序排列
（2）把0-1之間等分N份，等分點爲閾值，計算TPR、FPR
（3）對TPR、FPR描點畫圖即可

KS值即爲Max(TPR-FPR)

9. 評分卡建卡

在建立標準評分卡之前，還需要設定幾個評分卡參數：基礎分值、 PDO（比率翻倍的分值）和好壞比。詳情參見信用評分模型詳解（上）之評分卡模型。
這裏，我們取600分爲基礎分值b，取20爲PDO （每高20分好壞比翻一倍），好壞比O取20。

10. 評分預測

對測試集進行預測和轉化爲信用評分。可直接採用如下公式計算分值：
$Score = A \pm B*log(Odds)$

信用評分模型詳解（下）之信用評分系統搭建

1. 數據準備

2. 數據探索

3. 數據預處理

4. 評分卡最優分箱

5. 特徵篩選：IV值計算

6. 單變量分析和多變量分析，均基於WOE編碼後的值

7. 訓練模型

8. 模型評估

9. 評分卡建卡

10. 評分預測

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

千兆寬帶實際網速能到達多少？

特徵離散化（二）之 Chi2分箱

特徵離散化（一）之卡方分箱

信用評分模型詳解（下）之信用評分系統搭建

不均衡分類問題之 class weight & sample weight

連續特徵離散化的必要性

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

信用評分模型詳解（下）之 信用評分系統搭建

1. 數據準備

2. 數據探索

3. 數據預處理

4. 評分卡最優分箱

5. 特徵篩選：IV值計算

6. 單變量分析和多變量分析，均基於WOE編碼後的值

7. 訓練模型

8. 模型評估

9. 評分卡建卡

10. 評分預測

信用評分模型詳解（下）之信用評分系統搭建