台部落扯20080808

2019-01-18修改，新增ks值的R語言實現風控模型中計算K-S值方法： K-S值主要驗證風控模型對違約對象的區分能力，通常是在風控模型預測完全體樣本的風控評分後，將全體樣本按是否違約分爲兩部分，然後用K-S值檢驗兩組樣本的風控評分

2020-06-07 00:58:01

續寫：SQL ON Hadoop-Hive（二）-DDL數據定義語言 1.多表join select * from table1 t1 join table2 t2 on t1.id=t2.id join table3 t3 on t

2019-06-11 09:33:49

Tensorflow1.3版本中引入tensorflow time series模塊，簡稱TFTS，專門設計一套針對時間序列預測問題的API，提供AR、anomaly mixture AR和LSTM三種預測模型 #項目地址 https:

2019-06-11 09:33:49

1.jupyter lab簡介 jupyter notebook是一種Web應用能將說明文本、數學方程、代碼和可視化內容全部組合到一個易於共享的文檔中，可直接在代碼旁寫敘述性文檔而不是另外編寫單獨的文檔。jupyter是它要服務的三種語言

2019-05-01 00:54:14

122

將要檢驗的對象稱爲因素或因子，因素或因子的不同表現稱爲水平，每個因子水平下得到的樣本數據稱爲觀測值。方差分析關注的是三個或更多總體的均值是否相等的問題基本假設：1.正態假設(W檢驗)，因素每個水平的觀測值樣本都來自正態總體；2.方差齊性

2019-04-18 03:14:36

所有Python對象都有三個屬性：身份、類型、值 name='a' id(name) #id-身份唯一標識 type(name) #對象類型 1.可變對象列表、字典、集合，指可變對象的值可變，身份不變 2.不可變對象數字、字符串、

2019-04-02 03:16:31

1.pearson相關係數兩個連續變量間呈線性相關時(兩變量需服從正態分佈)，使用pearson積差相關係數，不滿足積差相關分析適用條件時，使用spearman秩相關係數描述 2.spearman秩相關係數 spearman相關係數又

2019-03-27 03:15:55

若名義變量是有序的，則啞變量編碼替代方法是給類別編號並應用min-max標準化。使用該方法注意點：只有確信類別間步長相等時，才能應用。如果有證據證明類別間步長不相等，那麼啞變量編碼是一種更保險方法魯棒性即算法穩定性，即被測數據出現“震動

2019-03-19 03:14:03

1.定義決策樹+bagging=隨機森林，隨機森林是一種比較新的機器學習模型(非線性基於樹的模型)集成學習方法。上世紀八十年代Breiman等人發明分類樹算法，通過反覆二分數據進行分類或迴歸，計算量大大降低，2001年Breiman把分

2019-03-18 03:06:20

RFM模型在客戶管理中常被用來衡量客戶價值和客戶創新能力，主要考量三個指標：最近一次消費-Recency、消費頻率-Frequency、消費金額-Monetary。根據以上三個維度對客戶做細分，假定每個維度劃分五個等級，得到客戶R值(1-

2019-03-03 19:44:10

因需要拿出部分數據作爲測試，故總有部分數據不能用於構建模型，一種更好選擇是交叉驗證(簡稱CV)。k折交叉驗證是交叉驗證方法中的一種(是進行模型比較的有效方法)，將整體數據集分爲k份(每份近似相等)，其中k-1份作爲訓練數據，另外一份作爲驗

2019-03-03 19:44:10

上一篇博文：R語言中的代碼運算性能提升 R語言運行在CPU單核單線程上，使用並行計算原因是程序運行時間太長。大部分程序都可以進行並行化改造以提高運算性能 1.lapply 只需要一個參數(list\vector\array\matrix\

2019-02-27 19:27:17

Rwordseg是一個R環境下的中文分詞工具，引用Ansj包(使得Ansj可用於人名識別、地名識別、組織機構名識別、多級詞性標註、關鍵詞提取、指紋提取等領域)支持行業詞典、用戶自定義詞典，Ansj是開源的java中文分詞工具，基於中科院i

2019-02-22 05:15:05

1.概述 bag of words詞袋模型是信息檢索領域常見的文檔表示方法，BOW模型假定對於一個文檔，忽略其單詞順序、語法、句法等要素，僅看做是若干詞彙組合(文檔中每個單詞的出現都是相對獨立的，不依賴於其他單詞是否出現)，近年來BoW模

2019-02-20 18:57:26

計算機提取一篇文章關鍵詞涉及文字處理、信息檢索、數據挖掘等很多計算機領域。從詞頻角度統計出現次數最多的“的”、“是”、“在”這一類最常用的詞稱爲停用詞(表示對找到結果毫無幫助，必須過濾掉的詞) 衡量一個詞是不是常用詞，如果某個詞比較少見，

2019-02-20 18:57:26