原创 模型評估方法-K-S值-附R實現代碼

2019-01-18修改,新增ks值的R語言實現 風控模型中計算K-S值方法: K-S值主要驗證風控模型對違約對象的區分能力,通常是在風控模型預測完全體樣本的風控評分後,將全體樣本按是否違約分爲兩部分,然後用K-S值檢驗兩組樣本的風控評分

原创 HIVE中join連接全解析

續寫:SQL ON Hadoop-Hive(二)-DDL數據定義語言 1.多表join select * from table1 t1 join table2 t2 on t1.id=t2.id join table3 t3 on t

原创 使用tensorflow預測時間序列:TFTS庫

Tensorflow1.3版本中引入tensorflow time series模塊,簡稱TFTS,專門設計一套針對時間序列預測問題的API,提供AR、anomaly mixture AR和LSTM三種預測模型 #項目地址 https:

原创 windows10中使用jupyter lab

1.jupyter lab簡介 jupyter notebook是一種Web應用能將說明文本、數學方程、代碼和可視化內容全部組合到一個易於共享的文檔中,可直接在代碼旁寫敘述性文檔而不是另外編寫單獨的文檔。jupyter是它要服務的三種語言

原创 方差分析

將要檢驗的對象稱爲因素或因子,因素或因子的不同表現稱爲水平,每個因子水平下得到的樣本數據稱爲觀測值。方差分析關注的是三個或更多總體的均值是否相等的問題 基本假設:1.正態假設(W檢驗),因素每個水平的觀測值樣本都來自正態總體;2.方差齊性

原创 Python中深拷貝與淺拷貝詳解

所有Python對象都有三個屬性:身份、類型、值 name='a' id(name) #id-身份唯一標識 type(name) #對象類型 1.可變對象 列表、字典、集合,指可變對象的值可變,身份不變 2.不可變對象 數字、字符串、

原创 相關性分析與餘弦距離

1.pearson相關係數 兩個連續變量間呈線性相關時(兩變量需服從正態分佈),使用pearson積差相關係數,不滿足積差相關分析適用條件時,使用spearman秩相關係數描述 2.spearman秩相關係數 spearman相關係數又

原创 啞變量與魯棒性的理解

若名義變量是有序的,則啞變量編碼替代方法是給類別編號並應用min-max標準化。使用該方法注意點:只有確信類別間步長相等時,才能應用。如果有證據證明類別間步長不相等,那麼啞變量編碼是一種更保險方法 魯棒性即算法穩定性,即被測數據出現“震動

原创 隨機森林模型詳解

1.定義 決策樹+bagging=隨機森林,隨機森林是一種比較新的機器學習模型(非線性基於樹的模型)集成學習方法。上世紀八十年代Breiman等人發明分類樹算法,通過反覆二分數據進行分類或迴歸,計算量大大降低,2001年Breiman把分

原创 RFM模型淺析

RFM模型在客戶管理中常被用來衡量客戶價值和客戶創新能力,主要考量三個指標:最近一次消費-Recency、消費頻率-Frequency、消費金額-Monetary。根據以上三個維度對客戶做細分,假定每個維度劃分五個等級,得到客戶R值(1-

原创 k折交叉驗證概述-附R語言實現

因需要拿出部分數據作爲測試,故總有部分數據不能用於構建模型,一種更好選擇是交叉驗證(簡稱CV)。k折交叉驗證是交叉驗證方法中的一種(是進行模型比較的有效方法),將整體數據集分爲k份(每份近似相等),其中k-1份作爲訓練數據,另外一份作爲驗

原创 R語言中的並行計算彙總

上一篇博文:R語言中的代碼運算性能提升 R語言運行在CPU單核單線程上,使用並行計算原因是程序運行時間太長。大部分程序都可以進行並行化改造以提高運算性能 1.lapply 只需要一個參數(list\vector\array\matrix\

原创 中文分詞工具Rwordseg

Rwordseg是一個R環境下的中文分詞工具,引用Ansj包(使得Ansj可用於人名識別、地名識別、組織機構名識別、多級詞性標註、關鍵詞提取、指紋提取等領域)支持行業詞典、用戶自定義詞典,Ansj是開源的java中文分詞工具,基於中科院i

原创 詞袋模型

1.概述 bag of words詞袋模型是信息檢索領域常見的文檔表示方法,BOW模型假定對於一個文檔,忽略其單詞順序、語法、句法等要素,僅看做是若干詞彙組合(文檔中每個單詞的出現都是相對獨立的,不依賴於其他單詞是否出現),近年來BoW模

原创 TF-IDF算法

計算機提取一篇文章關鍵詞涉及文字處理、信息檢索、數據挖掘等很多計算機領域。從詞頻角度統計出現次數最多的“的”、“是”、“在”這一類最常用的詞稱爲停用詞(表示對找到結果毫無幫助,必須過濾掉的詞) 衡量一個詞是不是常用詞,如果某個詞比較少見,