原创 特徵離散化(二) 之 Chi2分箱

特徵離散化(二) 之 Chi2分箱 話接上回,基於ChiMerge的卡方分箱可大致分爲四個部分:1. 排序(連續型根據值大小排序,離散型根據給定的標準(如正例樣本佔比)排序);2. 自底向上計算相鄰兩項的卡方值(這一部分的計算尤其

原创 特徵離散化(一) 之 卡方分箱

離散特徵在數據挖掘的過程中具有重要作用,因此特徵離散化是構建特徵工程的一個很常見、也很重要的環節。 卡方分箱作爲最經典的離散化方法之一,最近做項目需要用到時,卻發現這麼經典的功能python竟然沒有官方的封裝庫。找了許多資料,感覺

原创 信用評分模型詳解(下)之 信用評分系統搭建

信用評分問題中一般使用邏輯迴歸作爲主要的模型。過程主要包括變量分箱、變量的WOE(證據權重)變換和變量選擇(IV值)、邏輯迴歸估算。 一個完整的評分卡流程主要包括以下幾個步驟: 數據準備 數據探索性分析 數據預處理,包括缺失值、

原创 不均衡分類問題 之 class weight & sample weight

分類問題中,當不同類別的樣本量差異很大,即類分佈不平衡時,很容易影響分類結果。因此,需要進行對預測概率進行校正。 sklearn的做法是加權,加權就要涉及到class_weight和sample_weight,當不設置該參數時,默

原创 連續特徵離散化的必要性

在什麼情況下將連續的特徵離散化之後可以獲得更好的效果? 工業界中很少直接將連續值作爲邏輯迴歸模型的特徵輸入,而是將連續特徵離散化爲一系列0、1特徵,這樣做的優點可以歸納爲以下幾點: 1. 特徵魯棒性更強 離散化後的特徵對異常值有

原创 特徵離散化(五) 之 評分卡最優分箱

1. 卡方分箱 之 評分卡最優分箱 評分卡最優分箱在構建評分卡模型時經常使用。其在卡方分箱的基礎上,加入瞭如下箱體約束: 單箱同時包含好壞樣本: 單箱樣本佔比不得低於指定值 Bad Rate單調 跟卡方分箱一致,對於連續型變量

原创 信用評分模型詳解(上)之 評分卡模型

介紹完分箱算法後,就不得不介紹一下評分卡模型了。評分卡模型由於在業務層面具有良好的解釋性,在數據挖掘方面(如風控)仍深受歡迎。 前提假設 目前,主流的評分卡模型仍以邏輯迴歸模型爲主要模型。假設客戶違約的概率爲ppp,則正常的概率爲

原创 特徵離散化(四) 之 bestKS分箱

特徵離散化(四) 之 bestKS分箱 講完了最小熵分箱,隨便也提一下bestKS分箱吧。其實看懂了最小熵分箱,很容易就能理解bestKS分箱了。兩個都是自頂向下的監督分箱方法,區別就在於確定劃分點的指標不同。最小熵採用的是熵值,

原创 特徵離散化(三) 之 最小熵分箱

特徵離散化(三) 之 最小熵分箱 最小熵分箱在很多關於分箱的博客中都有提及,但很少有文章着重介紹該算法。因此,單獨寫篇博客記錄一下對該算法的理解。 1. 信息增益 大部分博客中提到最小熵分箱時,都是一筆帶過的。見得最多的莫不是如下

原创 StanfordParser句法分析輸入輸出

在使用StanfordParser(SD)進行語法分析時,SD默認使用的是從文件讀入和輸出到輸出流,如下: 在cmd的python命令行裏輸入: java -mx150m -cp "*;" edu.stanford.nlp.par

原创 用源碼論述Eclipse學習體會

摘要: java語言作爲一門世界上普及最快的語言,發展如此之快必有其自身特定的優勢。其特點是可移植性強,與平臺無關;面向對象,與C++不同的是,java支持單繼承和多接口的實現,沒有c++中的指針,這也使得java變的更加安全穩定

原创 哈夫曼樹

#include<stdio.h> #include<stdlib.h> #define M 100 typedef struct hufTree{ char symbol ; int weight; s

原创 基於ICMP和TCP協議的網段掃描器

1. 系統描述 1.1. 設計目標 進行網絡管理時,常常需要確定當前網絡中處理活動狀態的主機。本設計的目標就是編制程序,利用ICMP的回送請求和回送應答消息,來發現指定網段中的活動主機,即ping消息的請求和應答。 1.2.

原创 算術表達式的語法分析及語義分析程序設計 —— LR分析法、輸出三元式(續)

#include<iostream> #include<string> #include<vector> #include<cmath> #define MAX 40 using namespace std; typedef s

原创 FN、FP、TN、TP、precision、recall

以下幾個爲在論文中實驗結果統計中經常出現的術語 FN:False Negative,即被判定爲負樣本(Negative),實際爲正樣本(False) FP:False Positive,即被判定爲正樣本(positive),實