原创 類別變量的數值轉換_獨熱編碼_one-hot

在數據準備階段如果含有類別變量,可以對它進行 one-hot 編譯,將它轉換成數值再進行後續分析考慮放入模型等. 舉個例子,假如 Rank 包含A,B,C三個值: Rank A B C A A B 解決的辦法就是向數據集中再加入三個屬性

原创 Surprise庫的安裝及示例

Surprise 這個庫在今年9月14號又發佈了新版本,與上版本有些差別, 由於國慶假期回家,用家裏的小電腦遇見了幾個坑,就想着記錄下來,方便以後查閱,   首先,家裏電腦麼得 Surprise_(:з」∠)_。。。安裝吧,打開cmd,敲

原创 MySQL_lead()函數_判斷同一id同一列兩行是否相等

假設有一個客戶之前下了訂單,想看看這次訂單距離下一次下單時間相差多少天,這類問題可以通過 lead 函數來求解,Lag和Lead函數可以在同一次查詢中取出同一字段的前N行的數據(Lag)和後N行的數據(Lead)作爲獨立的列。實際應用當中

原创 error: Microsoft Visual C++ 14.0 is required.

https://blog.csdn.net/weixin_42057852/article/details/80857948

原创 TypeError: only size-1 arrays can be converted to Python scalars

遇到Bug及解決辦法_(:з」∠)_

原创 Python2 urllib2 與 Python3 urllib.request API對照

原文地址:Python2 urllib2 與 Python3 urllib.request API對照 Python2 Python3 urllib2.urlopen() urllib.request.urlopen() urllib2.

原创 帶新

每星期都有那麼幾天覺得自己挺傻,只不過這星期早了點,週二就開始犯二了。 受邀加入了python機器學習入門羣,目的大概就是一起夯實基礎順便帶帶新人。羣裏都是不同行業的上班族,一般羣裏活躍的時間都比較晚,畢竟白天大家要上班。 晚上11點一個

原创 判斷同一id同一列兩行是否相等

假設有一個客戶之前下了訂單,想看看這次訂單距離下一次下單時間相差多少天,這類問題可以通過 lead 函數來求解,Lag和Lead函數可以在同一次查詢中取出同一字段的前N行的數據(Lag)和後N行的數據(Lead)作爲獨立的列。實際應用當中

原创 機器學習 - 特徵工程 - 構造多項式特徵Polynomial Features

簡介: 特徵工程包括特徵構建和特徵挑選,個人對特徵構建的興趣要大一些,因爲在實際項目當中我們往往會發現創造有用的特徵比苦苦改進算法的回報率會高很多. 這篇博客想作爲構造多項式特徵的一個筆記,構建多項式特徵是常見的構建新特徵的方法之一. 在

原创 Python3實現Json文件讀寫至DataFrame

收到格式類似下圖的一份數據,需求是將 json 轉化爲 dataframe, 因爲文件包含多個 json 文件,想到的解決思路是循環讀取每一行成爲 json,再將它轉換成 dataframe,建立一個空的 dataframe,再將數據一

原创 數據預處理 _ sklearn.preprocessing中的scale和standardscaler

Sklearn的 Preprocessing模塊提供了常見的將原始特徵向量轉換爲更適合下行估計器表示的函數和類. 一般而言,學習算法受益於數據集的標準化,如果數據集當中存在異常值,一些robust scaler和 transformer會

原创 ValueError: Input contains NaN, infinity or a value too large for dtype('float32')

背景: 在訓練模型 fit(x_train,y_train) 時遇到報錯 ValueError: Input contains NaN, infinity or a value too large for dtype('float32')

原创 名義變量的轉換

對於分類較少的名義變量,可以對它進行dummy轉換,再進行後續分析考慮放入模型等. 舉個例子,假如 Rank 包含A,B,C三個值: Rank A B C A A B 解決的辦法就是向數據集中再加入三個屬性,在此命名爲Rank_A,Ra