原创 DataWhale數據挖掘Task6

通過之前的博客可以看出,隨機森林的表現效果比較好。所以本次stacking融合的比較基準就是LR。至於融合,用的是隨機森林和邏輯迴歸進行融合。 代碼爲: ##任務六:使用stacking進行模型融合 s_clf = Stackin

原创 DataWhale數據挖掘Task5

##LR法的優化過程 ltc_param = {‘penalty’:[‘l1’, ‘l2’], ‘C’:[0.0001, 0.001, 0.01, 0.1, 1.0]} ltc_grid = Gri

原创 DataWhale數據挖掘Task3

可以基於上兩次任務清理過的數據集,進行算法仿真。不同的算法調用的python關鍵語句如下所示 邏輯迴歸: logistic = linear_model.LogisticRegression()和pre_lr=logistic.f

原创 DataWhale統計學Task4

線性迴歸 座標系中若干點,找出一條直線y=mx+b,使這些點到該直線上同一橫座標的點的距離的平方和最小,求斜率m與截距b 每個點同迴歸直線的豎直距離 決定係數 概念:y的波動程度有多少百分比能被x的波動程度所描述 協方差 概念:兩

原创 DataWhale機器學習Task3

可以基於上兩次任務清理過的數據集,進行算法仿真。不同的算法調用的python關鍵語句如下所示 邏輯迴歸: logistic = linear_model.LogisticRegression()和pre_lr=logistic.f

原创 DataWhale數據挖掘Task2

特徵衍生:在實際工作中,自己用到的是特徵升維,即one-hot encoding。另一種特徵衍生方法是特徵組合,比如拼接年齡+收入區間成爲一個新特徵,但是在金融行業一般不這麼做、因爲可解釋性差容易不符合監管要求。 計算IV函數。

原创 DataWhale機器學習Task1線性迴歸

結合一個案例來說明線性歸回的一般步驟 預測廣告金額投放和收益 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.

原创 DataWhale組隊學習統計學Task1

本人剛剛考完研,研究生方向是智能信息處理,需要很多數學知識,這次參加DataWhale高校集訓,也算是複習回顧一下吧! 一 統計學基本知識、二項及泊松分佈 1.基本知識 均值:一組數相加後除以個數,分爲樣本均值與總體均值 中位數:

原创 DataWhale統計學Task2

知識點: 中心極限定理 當樣本量N逐漸趨於無窮大時,N個抽樣樣本的均值的頻數逐漸趨於正態分佈,其對原總體的分佈不做任何要求,意味着無論總體是什麼分佈,其抽樣樣本的均值的頻數的分佈都隨着抽樣數的增多而趨於正態分佈。 ​與大數定律的區

原创 DataWhale數據挖掘Task1

第一次任務主要是數據預處理,由於不讓公開csv文件.所以就算是交個作業吧,大牛勿噴.廢話不多說.直接上代碼: import numpy as np import pandas as pd import matplotlib.pyp

原创 DataWhale統計學Task3

假設檢驗 基本原理 假設檢驗是數理統計中根據一定假設條件由樣本推斷總體的一種方法,依據的原理是小概率事件原理,即小概率事件在一次試驗中是幾乎不可能發生的。 基本概念與基本步驟 基本步驟 1.建立假設——原假設與備擇假設 原假設記作

原创 DataWhale機器學習Task2

Logistic迴歸的一般過程: 1.收集數據:採用任意方法收集數據。 2.準備數據:由於需要進行距離計算,因此要求數據類型爲數值型。另外,結構化數據格式則最佳。 3.分析數據:採用任意方法對數據進行分析。 4.訓練算法:大部分時