劃分數據集之前one-hot，還是劃分之後one-hot

原創

飞奔的帅帅

2020-06-20 06:45

在處理類別型特徵時，有時需要進行one-hot

在進行模型訓練時，需要把數據劃分train和test，類別型數據是在劃分之前one-hot，還是劃分之後？

在劃分之前做one-hot

整體one-hot，train和test 不會出現某個值無法編碼的問題。

train和test的維度都是一致的，可以做訓練和測試。

但，如果給你一份新的數據集，在類別型數據裏出現了新的值，該怎麼表示？

劃分之後做one-hot

這樣會遇到兩個問題

某個值，train中出現，test未出現，怎麼處理？
某個值，train中未出現，test中出現，怎麼處理？

在此之前，我也是對數據整體做one-hot的處理的，但這是不正確。正確的做法：

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

### Correct
train = pd.DataFrame(['A', 'B', 'A', 'C'])
test = pd.DataFrame(['B', 'A', 'D'])

enc = OneHotEncoder(handle_unknown = 'ignore')
enc.fit(train)

enc.transform(train).toarray()
#array([[1., 0., 0.],
#       [0., 1., 0.],
#       [1., 0., 0.],
#       [0., 0., 1.]])

enc.transform(test).toarray()
#array([[0., 1., 0.],
#       [1., 0., 0.],
#       [0., 0., 0.]])


### Incorrect
full = pd.concat((train, test))

enc = OneHotEncoder(handle_unknown = 'ignore')
enc.fit(full)

enc.transform(train).toarray()
#array([[1., 0., 0., 0.],
#       [0., 1., 0., 0.],
#       [1., 0., 0., 0.],
#       [0., 0., 1., 0.]])

enc.transform(test).toarray()
#array([[0., 1., 0., 0.],
#       [1., 0., 0., 0.],
#       [0., 0., 0., 1.]])

參考

https://stackoverflow.com/questions/55525195/do-i-have-to-do-one-hot-encoding-separately-for-train-and-test-dataset

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

用學習曲線 learning curve 來判別過擬合問題

轉載自這篇文章本文結構：學習曲線是什麼？怎麼解讀？怎麼畫？學習曲線是什麼？學習曲線就是通過畫出不同訓練集大小時訓練集和交叉驗證的準確率，可以看到模型在新數據上的表現，進而來判斷模型是否方差偏高或偏差過高，以及增大訓練集是否可

2020-07-06 01:06:21

【機器學習 3】KNN算法實現梳理- Be based on“約會對象”、“手寫識別”

• （1）收集數據 • 提供的文本文件 • （2）準備數據 • 格式轉換 • 將源文件格式化處理爲可處理的向量，如：手寫識別系統 • 處理源文件格式，比如存在大量空格、雜亂符號等，需要進行去除、重

2020-07-04 01:43:51

【機器學習8問】

1、BoostingTree 什麼是提升樹（boostingTree）？答：若干顆決策樹構成了一個弱分類器模型，並給予每一次分錯的樣本更大的權重。 2、GBDT 什麼是 GBDT，與提升樹有什麼關係？ GBDT如何做迴歸問題？

2020-07-04 01:43:41

Python交互模式導入自己寫的模塊的方法

我的python軟件安裝在D:\PyThon，而我想導入的knn文件保存在E:\python_list中如果在交互模式如果直接導入，是會報錯的：所以需要變換目錄，有兩種方法： ①把knn文件保存到D盤python的文件夾內，

2020-07-03 18:22:22

k-近鄰算法——電影類型分類

k-近鄰算法採用測量不同特徵值之間的距離方法進行分類，它的工作原理很好理解。簡單來說就是離x最近的k個點決定了x歸爲哪一類。具體點說： 1.假設有一一個帶有標籤的樣本數據集(訓練樣本集) ,其中包含每條數據與所屬分類的對應關

2020-07-03 18:22:22

啃書——機器學習實戰（Peter Harrington）

終於要認真啃這本書了，特別良心的是書上所得的源代碼都可以到出版社網站下載，網址如下： http://www.manning.com 然後搜索：MAchineLearningAction 點開下載Source Code即可

2020-07-03 18:22:22

【數據挖掘實戰】泰坦尼克號獲救預測

這是一個入門級別的數據分析與挖掘案例，整個過程如下：首先是拿到數據後 (一) 數據讀取（大概看一下數據量啊數據的各項指標啊）讀取數據並展示統計數據各項指標要明確目標是要幹什麼，這樣就可以有目的的查看各項指標（二）特徵理解與分

2020-06-30 22:25:57

Python3《機器學習實戰》代碼筆記（九）--- 樹迴歸

參考資料: 機器學習實戰 ''' @version: 0.0.1 @Author: Huang @dev: python3 vscode @Date: 2019-11-07 23:59:30 @LastEditTime: 2019

2020-06-29 16:40:48

機器學習實戰之 Logistic算法

Logistic 迴歸 1.基本步驟 Logistic迴歸：實際上屬於判別分析，因擁有很差的判別效率而不常使用。邏輯迴歸的一般過程 1) 收集數據：採用任意方法收集數據。 2) 準備數據：由於需要進行距離計算

2020-06-25 22:30:56

基於邊採樣的網絡表示模型

1. 整體過程 2.sigmoid 函數求導過程

2020-06-24 21:56:53

LINE 方法部分

本文有很多問題，LINE方法暫時略過 1. 一階相似性聯合概率：一階相似性實質上是一個sigmoid function函數，向量越接近，點積越大，聯合概率越大（有點硬扯）經驗概率：兩點之間邊的權值越大，經驗概率越大爲了保持一

2020-06-24 21:56:42

機器學習典型算法包含的步驟

訓練過程：已知輸入，根據輸出，運用梯度下降等方法調整參數。驗證過程（使用過程）：最後的效果是根據輸入和中間參數，得到輸出，使輸出最接近現實情況詞向量：訓練過程的中間參數，即中間產物，類似的詞其詞向量也應該類似。一般方法：

2020-06-24 21:56:42

負採樣方法

1. 負採樣方法高頻詞被採樣的概率大，低頻詞被採樣的概率小 2. CBOW模型在這裏插入圖片描述 3. Skip-Gram模型上下文預測當前詞，所以要最後一起更新 CBOW 輔助向量，並不是真正的向量

2020-06-24 21:56:42

《機器學習實戰學習筆記》（五）：練習題（第3章分類）

第3章練習題 1. 爲MNIST數據集構建一個分類器，並在測試集上達成超過97%的精度。(提示：KNeighborsClassifier 對這個任務非常有效，只要找到合適的超參數即可，試試weight和n_neighbors這兩個

2020-06-22 22:42:03

機器學習實戰kNN中的文本轉換爲數組程序心得

機器學習實戰kNN中的文本轉換爲數組程序心得原程序出現的問題解決的辦法原程序在機器學習實戰書中2.2.1章節中，作者在準備數據時，打算從文本文件中解析數據，其代碼爲： def file2matrix(filenam

芳草碧连天lc

2020-06-22 10:00:16

24小時熱門文章

最新文章

最新評論文章