台部落陌上柳寒秋

通過之前的博客可以看出，隨機森林的表現效果比較好。所以本次stacking融合的比較基準就是LR。至於融合，用的是隨機森林和邏輯迴歸進行融合。代碼爲： ##任務六：使用stacking進行模型融合 s_clf = Stackin

2019-08-23 06:04:41

##LR法的優化過程 ltc_param = {‘penalty’:[‘l1’, ‘l2’], ‘C’:[0.0001, 0.001, 0.01, 0.1, 1.0]} ltc_grid = Gri

2019-08-23 06:04:41

可以基於上兩次任務清理過的數據集，進行算法仿真。不同的算法調用的python關鍵語句如下所示邏輯迴歸： logistic = linear_model.LogisticRegression()和pre_lr=logistic.f

2019-08-14 05:38:00

線性迴歸座標系中若干點，找出一條直線y=mx+b，使這些點到該直線上同一橫座標的點的距離的平方和最小，求斜率m與截距b 每個點同迴歸直線的豎直距離決定係數概念：y的波動程度有多少百分比能被x的波動程度所描述協方差概念：兩

2019-08-14 05:38:00

可以基於上兩次任務清理過的數據集，進行算法仿真。不同的算法調用的python關鍵語句如下所示邏輯迴歸： logistic = linear_model.LogisticRegression()和pre_lr=logistic.f

2019-08-14 05:38:00

特徵衍生：在實際工作中，自己用到的是特徵升維，即one-hot encoding。另一種特徵衍生方法是特徵組合，比如拼接年齡+收入區間成爲一個新特徵，但是在金融行業一般不這麼做、因爲可解釋性差容易不符合監管要求。計算IV函數。

2019-08-10 06:48:34

結合一個案例來說明線性歸回的一般步驟預測廣告金額投放和收益 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.

2019-08-10 06:48:34

本人剛剛考完研,研究生方向是智能信息處理,需要很多數學知識,這次參加DataWhale高校集訓,也算是複習回顧一下吧! 一統計學基本知識、二項及泊松分佈 1.基本知識均值：一組數相加後除以個數，分爲樣本均值與總體均值中位數：

2019-08-10 06:48:34

知識點：中心極限定理當樣本量N逐漸趨於無窮大時，N個抽樣樣本的均值的頻數逐漸趨於正態分佈，其對原總體的分佈不做任何要求，意味着無論總體是什麼分佈，其抽樣樣本的均值的頻數的分佈都隨着抽樣數的增多而趨於正態分佈。與大數定律的區

2019-08-10 06:48:34

第一次任務主要是數據預處理,由於不讓公開csv文件.所以就算是交個作業吧,大牛勿噴.廢話不多說.直接上代碼: import numpy as np import pandas as pd import matplotlib.pyp

2019-08-10 06:48:34

假設檢驗基本原理假設檢驗是數理統計中根據一定假設條件由樣本推斷總體的一種方法，依據的原理是小概率事件原理，即小概率事件在一次試驗中是幾乎不可能發生的。基本概念與基本步驟基本步驟 1.建立假設——原假設與備擇假設原假設記作

2019-08-10 06:48:34

Logistic迴歸的一般過程： 1.收集數據：採用任意方法收集數據。 2.準備數據：由於需要進行距離計算，因此要求數據類型爲數值型。另外，結構化數據格式則最佳。 3.分析數據：採用任意方法對數據進行分析。 4.訓練算法：大部分時

2019-08-10 06:48:34