sklearn中的KFold、StratifiedKFold k折交叉切分的區別

sklearn中的Kfold和StratifiedKFold都是k折交叉切分。

但是StratifiedKFold是分層採樣，確保訓練集，測試集中各類別樣本的比例與原始數據集中相同。

例子：

import numpy as np 
from sklearn.model_selection import KFold,StratifiedKFold

X=np.array([
    [1,2,3,4],
    [11,12,13,14],
    [21,22,23,24],
    [31,32,33,34],
    [41,42,43,44],
    [51,52,53,54],
    [61,62,63,64],
    [71,72,73,74]
])

y=np.array([1,1,0,0,1,1,0,0])
#n_folds這個參數沒有，引入的包不同，
floder = KFold(n_splits=4,random_state=0,shuffle=False)
sfolder = StratifiedKFold(n_splits=4,random_state=0,shuffle=False)

for train, test in sfolder.split(X,y):
    print('Train: %s | test: %s' % (train, test))
    print(" ")

for train, test in floder.split(X,y):
    print('Train: %s | test: %s' % (train, test))
    print(" ")

結果：

1.
Train: [1 3 4 5 6 7] | test: [0 2]

Train: [0 2 4 5 6 7] | test: [1 3]

Train: [0 1 2 3 5 7] | test: [4 6]

Train: [0 1 2 3 4 6] | test: [5 7]

2.
Train: [2 3 4 5 6 7] | test: [0 1]

Train: [0 1 4 5 6 7] | test: [2 3]

Train: [0 1 2 3 6 7] | test: [4 5]

Train: [0 1 2 3 4 5] | test: [6 7]

分析：可以看到StratifiedKFold 分層採樣交叉切分，確保訓練集，測試集中各類別樣本的比例與原始數據集中相同。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

sklearn中的KFold、StratifiedKFold k折交叉切分的區別

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

leetcode-根據前序遍歷和中序遍歷重構二叉樹思路與代碼

leetcode-數組的全排列的所有結果思路與代碼

leetcode-滿足連續子數組加和等於目標值的子數組個數思路與代碼

算法面試題：給40億個不重複的unsigned int的整數，沒排過序的，然後再給一個數，如何快速判斷這個數是否在那40億個數當中？

linux下如何用alias給複雜的命令起一個簡單的別名

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結