交叉驗證：評估模型表現

註明：本文章所有代碼均來自scikit-learn官方網站

在實際情況中，如果一個模型要上線，數據分析員需要反覆調試模型，以防止模型僅在已知數據集的表現較好，在未知數據集上的表現較差。即要確保模型的泛化能力，它指機器學習對新鮮樣本的適應能力。只有保證模型的泛化能力，模型的構建纔有意義。因此，交叉驗證在整個建模流程中顯得尤爲重要。

如果不對數據集進行處理，而僅是用含有標籤的已知數據訓練模型會得到很高分數，但卻失效於對未知數據的預測，這種情況稱爲“過擬合”。過擬合的出現表明模型未學習到數據中的本質規律，造成模型的預測能力較差，因此，如何避免模型的過擬合，是一個值得關注且必須解決的問題。在scikit-learn中，可以使用訓練集/測試集拆分和交叉驗證的方法避免該種情況的出現，如下圖所示，將數據集進行訓練集/測試集拆分，在訓練集上進行交叉驗證後得到最佳模型參數，從而在測試集上得到該模型的評分。

在開始分享之前，要搞清楚兩個概念，即過擬合和欠擬合。其中，過擬合爲模型在訓練集的分數較高，在測試集表現的得分較低。欠擬合是指模型擬合程度不高，數據距離擬合曲線較遠，或指模型沒有很好地捕捉到數據特徵，不能夠很好地擬合數據。相對過擬合，欠擬合現象並不經常出現。很容易想到的思路是將模型的擬合能力限制在過擬合和欠擬合之間，就會得到較好的模型預測結果，但訓練集/測試集劃分和交叉驗證只能幫助避免模型的過擬合而不是欠擬合。

以sklearn中自帶的鶯尾花數據集（iris）爲例進行說明：

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> from sklearn import datasets
>>> from sklearn import svm

>>> X, y = datasets.load_iris(return_X_y=True)
>>> X.shape, y.shape
((150, 4), (150,))

將數據集拆分爲60%訓練集，40%測試集，代碼如下：

>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, test_size=0.4, random_state=0)

>>> X_train.shape, y_train.shape
((90, 4), (90,))
>>> X_test.shape, y_test.shape
((60, 4), (60,))

>>> clf = svm.SVC(kernel='linear', C=1).fit(X_train, y_train)
>>> clf.score(X_test, y_test)
0.96...

儘管此時模型在測試集上的得分較高，表現較好，但不能說明找到了最佳的適用模型，譬如支持向量機的超參數C，上例中設置參數C=1，它在訓練集上的表現可能很好，但仍不能避免過擬合現象的出現，因爲不適宜的超參數設置可能導致模型對數據中主要規律的學習，因此，會在測試集上出現過擬合的現象。爲了避免上述情況，scikit-learn提供交叉驗證法（cross-validation, CV）。需要注意的是：k值越大，即褶皺越多，從而越能減少由於偏差而導致的誤差，但訓練集越大，會增加方差從而增加模型的誤差。同時，越大的k值會導致時間成本的開銷較高。因此，k值的選取很重要，常見取值爲k = 10。

下例中的cv值設置爲5，進行5次交叉驗證迭代，得出5個模型評分：

>>> from sklearn.model_selection import cross_val_score
>>> clf = svm.SVC(kernel='linear', C=1)
>>> scores = cross_val_score(clf, X, y, cv=5)
>>> scores
array([0.96..., 1.  ..., 0.96..., 0.96..., 1.        ])

針對不同模型和實際場景，還可以調整交叉驗證的評分策略，需要注意的是：在scikit-learn官方文檔中，指明瞭五種交叉驗證方法（五種方法分別爲：K-fold, Repeated K-fold, Leave One Out, Leave P Out, Random permutations cross-validation a.k.a. Shuffle & Split）的數據應是服從獨立同分布假設的，在此基礎上，交叉驗證的結果較好，但文檔中也說明，獨立同分布假設在現實中很難保證，因此，在應用交叉驗證方法時，可適當放寬假設條件，但可能會讓度一部分結果準確性。

其中，K折交叉驗證（K-fold cross-validation）是交叉驗證大家族中最簡單的數據拆分策略，即將數據集拆分爲訓練集和測試集，如下圖所示，其原理爲：先將整個數據集分爲k個摺疊，用其中k-1個摺疊作爲訓練集訓練模型，用剩餘的1個摺疊作爲驗證集對模型進行評分，並重復k次上述過程。該種方法的優勢在於不需要額外拆分數據，以避免數據的浪費和運算成本的提高；可以促使模型從多方面學習樣本，避免模型陷入局部極值。

如下是對有4個樣本的2-折交叉驗證示例，隨機將數據分爲兩個摺疊，並且迭代上述步驟兩次。其代碼如下：

>>> import numpy as np
>>> from sklearn.model_selection import KFold

>>> X = ["a", "b", "c", "d"]
>>> kf = KFold(n_splits=2)
>>> for train, test in kf.split(X):
...     print("%s %s" % (train, test))
[2 3] [0 1]
[0 1] [2 3]

在scikit-learn中，還提供基於K折（KFold）法的進一步交叉驗證法，爲重複的K折（Repeated K-Fold），即將K折重複n次，通過設置n_repeats參數進行傳遞。其底層原理與KFold相一致，不同點在於重複的K折將K折重複n_repeats次。

選用的數據集與K折示例中的相同，設置n_repeats參數值爲2，其代碼如下：

>>> import numpy as np
>>> from sklearn.model_selection import RepeatedKFold
>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
>>> random_state = 12883823
>>> rkf = RepeatedKFold(n_splits=2, n_repeats=2, random_state=random_state)
>>> for train, test in rkf.split(X):
...     print("%s %s" % (train, test))
...
[2 3] [0 1]
[0 1] [2 3]
[0 2] [1 3]
[1 3] [0 2]

比較出名的是留一法（Leave One Out），它是一個簡單又有趣的交叉驗證方法。其原理是出去一個樣本外，保留數據集中的所有樣本，從而將用於交叉驗證的數據集（假設共有n個樣本）分爲訓練集（n-1個樣本）和測試集（1個樣本）的組合，使得對於一個包含n個樣本的數據集而言，可以有n個測試集對模型進行評估。該方法的優勢在於最大可能的保證用於模型訓練的數據量，僅犧牲一個樣本作爲測試集，對於大樣本而言是可以忽略不計的。

如下的示例中，仍延用上一個例子中的包含四個樣本的數據，在每次迭代中，從四個樣本中分出一個樣本作爲測試集。其代碼如下：

>>> from sklearn.model_selection import LeaveOneOut

>>> X = [1, 2, 3, 4]
>>> loo = LeaveOneOut()
>>> for train, test in loo.split(X):
...     print("%s %s" % (train, test))
[1 2 3] [0]
[0 2 3] [1]
[0 1 3] [2]
[0 1 2] [3]

提到留一法（Leave One Out）就不得不說留P法（Leave P Out），兩種方法的底層邏輯相同，只是留P法在留一方的基礎上爲使用者提供更大的自由空間，使用者可以根據業務場景需要自定義要移除的樣本個數，即作爲測試集樣本的個數。需要注意的是：與留一法和KFold法不同的是，當參數p>1時，測試集可能會重疊。

在如下例子中，仍延用上文中包含四個樣本的例子，將參數p設置爲2對數據集進行拆分，在四個樣本的例子中，可以有6種數據拆分的方法。代碼如下：

>>> from sklearn.model_selection import LeavePOut

>>> X = np.ones(4)
>>> lpo = LeavePOut(p=2)
>>> for train, test in lpo.split(X):
...     print("%s %s" % (train, test))
[2 3] [0 1]
[1 3] [0 2]
[1 2] [0 3]
[0 3] [1 2]
[0 2] [1 3]
[0 1] [2 3]

最後，想要分享的交叉驗證方法是隨機排列交叉驗證 a.k.a. Shuffle & Split（Random permutations cross-validation a.k.a. Shuffle & Split）。如下圖所示，其底層邏輯爲：在用戶指定數量的基礎上，利用ShuffleSplit迭代器生成獨立的訓練集/測試集劃分。其步驟是先打亂樣本，再將樣本分爲不同的訓練集和測試集的組合。由於該中方法的隨機性較強，因此可以設置隨機數種子保證每次數據拆分的結果相同，以得到相同的交叉驗證結果，該參數爲random_state。

該例子是用np.arange(10)生成從0-9的10個數，n_splits參數限制數據集劃分的組數，test_size參數限制用於交叉驗證的測試集大小，其代碼示例如下：

>>> from sklearn.model_selection import ShuffleSplit
>>> X = np.arange(10)
>>> ss = ShuffleSplit(n_splits=5, test_size=0.25, random_state=0)
>>> for train_index, test_index in ss.split(X):
...     print("%s %s" % (train_index, test_index))
[9 1 6 7 3 0 5] [2 8 4]
[2 9 8 0 6 7 4] [3 5 1]
[4 5 1 0 6 9 7] [2 3 8]
[2 7 5 8 0 3 4] [6 1 9]
[4 1 0 6 8 9 3] [5 2 7]

本部分新的主要分享了最基本的交叉驗證的調用，和五個不同的交叉驗證方法，分別爲K-摺疊（K-Fold），重複的K-摺疊（Repeated K-Fold），留一法（Leave One Out），留P法（Leave P Out），隨機排列交叉驗證a.k.a. Shuffle & Split（Random permutations cross-validation a.k.a. Shuffle & Split），從而，更加細化的瞭解交叉驗證方法。

不同的交叉驗證方法針對的場景不同，因次，需要根據不同的實際情況，選擇不同的方法對數據進行交叉驗證，以提高模型的泛化能力和避免過擬合情況的出現。在後面的內容中，將繼續分享交叉驗證部分的學習心得。

（1）獲取更多優質內容及精彩資訊，可前往：https://www.cda.cn/?seo

（2）瞭解更多數據領域的優質課程：

交叉驗證：評估模型表現

關於遊戲付費的一點想法

應屆生面試數據分析的那些“套路”，你都知道嗎？

學習數據分析過程中那些省錢的小技巧

想做數據分析，這幾個壞習慣必須要改掉

初級業務數據分析師怎麼做職業規劃？

什麼樣的人適合做數據分析師？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結