原创 ROC、K-S,教你巧妙使用模型評價指標

無論是利用模型對信用申請人進行違約識別,還是對授信申請人進行逾期識別……在各種各樣的統計建模中,永遠必不可少的一步是對模型的評價,這樣我們就可以根據模型評價指標的取值高低,來決定選取哪個模型。 最近在某國內商業銀行的授信項目中,

原创 申請評分卡模型的構建(一)——數據清洗

http://www.cnblogs.com/nxld/p/6364773.html http://blog.csdn.net/csqazwsxedc/article/details/51225156 http://www.c

原创 統計學之三大相關性係數(pearson、spearman、kendall)

(轉自 微信公衆號克里克學苑) 三個相關性係數(pearson, spearman, kendall)反應的都是兩個變量之間變化趨勢的方向以及程度,其值範圍爲-1到+1,0表示兩個變量不相關,正值表示正相關,負值表示負相關,值越

原创 手把手教你用R語言建立信用評分模型(完結篇)— —打分卡轉換

全部代碼請訪問我的Github: http://github.com/frankhlchi/R-scorecard (點擊原文鏈接即可) 打分卡轉換 我們在上一部分,我們已經基本完成了建模相關的工作,並用混淆矩陣驗證了模型的預測

原创 多重共線性的處理方法(轉載)

(一)刪除不重要的自變量 自變量之間存在共線性,說明自變量所提供的信息是重疊的,可以刪除不重要的自變量減少重複信息。但從模型中刪去自變量時應該注意:從實際經濟分析確定爲相對不重要並從偏相關係數檢驗證實爲共線性原因的那些變量中刪除

原创 python數據框基本操作

DataFrame行數:len(data) DataFrame列數:len(data.ix[1]) 查看行數和列數:data.shape from numpy import # m,n =shape(data) #m爲行數,n

原创 在虛擬機上安裝5節點Hadoop分佈式集羣(HA)-環境準備

本文使用的環境爲Centos6.5,安裝好一個系統後,在虛擬機上選擇虛擬機-管理-克隆,克隆剩餘四臺。 克隆後的虛擬機無法上網,需要進行以下配置。 1、修改mac地址 1、修改,如圖: 2、開機,記下mac地址: 3

原创 R語言循環讀取excel並保存爲RData

之前寫過一個循環讀取excel的代碼,最近又有了新的需求:循環讀取xlsx文件中的多個sheet,處理完之後循環輸出到xlsx文件中的多個sheet中,總結一下。 1、循環讀取csv文件並輸出爲RData格式 homedir <

原创 論文畫圖顏色搭配

點贊 收藏 分享 文章舉報 t156xxxx4671 發佈了13 篇原創文章 · 獲贊 28 · 訪問量 15萬+ 私信

原创 使用Python完成公司名稱和地址的模糊匹配

正如題目中說的一樣,這個程序的目的是實現公司名及公司地址的模糊匹配,也可以遷移到房產信息、電話號碼之類的字段上。本來的應用場景是反團伙欺詐以及失聯客戶的修復,大概的意思就是說多個相同公司的同事都在我公司借貸的欺詐可能性要高於其他客

原创 VMware下,虛擬機時間同步設置

本來是從網上摘抄的,可是前前後後轉了3篇文章,組合起來的內容才終於實現了本機多臺虛擬機的時間同步,所以把順序整理一下,這個步驟應該是和系統有關,因爲在6.5中安裝時,並沒有出現沒有介質的錯誤。 1、安裝vmtools Centos

原创 R語言實現隨機森林

轉自簡書 鏈接:http://www.jianshu.com/p/ca09dedb0541 1、讓兩個以及兩個以上組合樹變成一顆樹:combine() combine(...) …:每個隨機森林對象 data(iris) rf1

原创 如何將數據框中,值爲na的日期類型轉換爲0

本來,將數據框中的NA值轉換爲0,這個問題倒是很容易解決的,只需要一句話: a[is.na(a)] <- 0 鬱悶的是,當數據框中有日期格式的字段,且存在NA值時,就出現這麼一條錯誤: Error in as.Date.numer

原创 R語言計算頻數和頻率

首先,篩選出需要的列: data <- data2[,which(colnames(data2) %in% c("產品分類", "期數", "逾期月數"))] 產品分類 期數 逾期月數 委託貸款 24 1 委託貸款

原创 sql篩選重複數據

1、單個字段去除重複值 select distinct '字段名' from '表名' 2、如果需求不僅僅是找出某一個字段的唯一值,我們還想查看一下,這個字段擁有重複值的幾條數據,進一步分析重複的原因,那就需要用到下面的語句: s