【完結篇】專欄 | 基於 Jupyter 的特徵工程手冊：特徵降維

作者：陳穎祥、楊子晗

編譯：AI有道

經過數據預處理和特徵選擇，我們已經生成了一個很好的特徵子集。但是有時該子集可能仍然包含過多特徵，導致需要花費太多的計算能力用以訓練模型。在這種情況下，我們可以使用降維技術進一步壓縮特徵子集。但這可能會降低模型性能。

同時，如果我們沒有太多時間進行特徵選擇，我們也可以在數據預處理之後直接應用降維方法。我們可以使用降維算法來壓縮原始特徵空間直接生成特徵子集。

具體來說，我們將分別介紹PCA和LDA（線性判別分析）。

項目地址：

https://github.com/YC-Coder-Chen/feature-engineering-handbook/blob/master/%E4%B8%AD%E6%96%87%E7%89%88.md

本文將介紹特徵工程中的特徵降維。

1.1 Unsupervised Methods 非監督方法

1.1.1 PCA (Principal Components Analysis) 主成分分析

主成分分析（PCA）是一種無監督機器學習模型，其目標爲利用線性變換將原始特徵投影爲一系列線性不相關的單位向量，而同時保留儘可能多的信息（方差）。您可以從我們在Github中編寫的repo中查看更多數學細節。

https://github.com/YC-Coder-Chen/Unsupervised-Notes/blob/master/PCA.md

import numpy as np
import pandas as pd
from sklearn.decomposition import PCA


# 直接載入數據集
from sklearn.datasets import fetch_california_housing
dataset = fetch_california_housing()
X, y = dataset.data, dataset.target # 利用 california_housing 數據集來演示


# 選擇前15000個觀測點作爲訓練集
# 剩下的作爲測試集
train_set = X[0:15000,:]
test_set = X[15000:,]
train_y = y[0:15000]


# 在使用主成分分析前，我們需要先對變量進行縮放操作，否則PCA將會賦予高尺度的特徵過多的權重
from sklearn.preprocessing import StandardScaler
model = StandardScaler()
model.fit(train_set) 
standardized_train = model.transform(train_set)
standardized_test = model.transform(test_set)


# 開始壓縮特徵
compressor = PCA(n_components=0.9) 
# 將n_components設置爲0.9 =>
# 即要求我們從所有主成分中選取的輸出主成分至少能保留原特徵中90%的方差
# 我們也可以通過設置n_components參數爲整數直接控制輸出的變量數目


compressor.fit(standardized_train) # 在訓練集上訓練
transformed_trainset = compressor.transform(standardized_train) # 轉換訓練集 (20000,5)
# 即我們從8個主成分中選取了前5個主成分，而這前5個主成分可以保證保留原特徵中90%的方差


transformed_testset = compressor.transform(standardized_test) # 轉換測試集
assert transformed_trainset.shape[1] == transformed_testset.shape[1] 
# 轉換後訓練集和測試集有相同的特徵數

# 可視化 所解釋的方差與選取的主成分數目之間的關係


import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
%matplotlib inline




plt.plot(np.array(range(len(compressor.explained_variance_ratio_))) + 1, 
         np.cumsum(compressor.explained_variance_ratio_))
plt.xlabel('選取的主成分數目')
plt.ylabel('累計所解釋的方差累')
plt.show(); # 前5個主成分可以保證保留原特徵中90%的方差

1.2 Supervised Methods 監督方法

1.2.1 LDA (Linear Discriminant Analysis) 線性判別分析

與主成分分析（PCA）不同的是，線性判別分析（LDA）是一種有監督機器學習模型，旨在找到特徵子集以最大化類線性可分離性，即希望投影望同一種類別數據的投影點儘可能的接近，而不同類別的數據的類別中心之間的距離儘可能的大。線性判別分析僅適用於分類問題，其假設各個類別的樣本數據符合高斯分佈，並且具有相同的協方差矩陣。

可以在sklearn的官方網站上了解更多原理方面的詳細信息。LDA會將原始變量壓縮爲（K-1）個，其中K是目標變量類別數。但是在sklearn中，通過將主成分分析的思想合併到LDA中，其可以進一步壓縮變量。

import numpy as np
import pandas as pd
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA


# LDA僅適用於分類問題
# 載入數據集
from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target


# iris 數據集使用前需要被打亂順序
np.random.seed(1234)
idx = np.random.permutation(len(X))
X = X[idx]
y = y[idx]


# 選擇前100個觀測點作爲訓練集
# 剩下的50個觀測點測試集


train_set = X[0:100,:]
test_set = X[100:,]
train_y = y[0:100]
test_y = y[100:,]


# 在使用主成分分析前，我們需要先對變量進行縮放操作
# 因爲LDA假定數據服從正態分佈


from sklearn.preprocessing import StandardScaler # 我們也可以採用冪次變換
model = StandardScaler()
model.fit(train_set) 
standardized_train = model.transform(train_set)
standardized_test = model.transform(test_set)


# 開始壓縮特徵
compressor = LDA(n_components=2) # 將n_components設置爲2
# n_components <= min(n_classes - 1, n_features)


compressor.fit(standardized_train, train_y)  # 在訓練集上訓練
transformed_trainset = compressor.transform(standardized_train) # 轉換訓練集 (20000,2)
transformed_testset = compressor.transform(standardized_test) # 轉換測試集
assert transformed_trainset.shape[1] == transformed_testset.shape[1]
# 轉換後訓練集和測試集有相同的特徵數

# 可視化 所解釋的方差與選取的特徵數目之間的關係
import matplotlib.pyplot as plt
plt.plot(np.array(range(len(compressor.explained_variance_ratio_))) + 1, 
         np.cumsum(compressor.explained_variance_ratio_))
plt.xlabel('選取的特徵數目')
plt.ylabel('累計所解釋的方差累')
plt.show(); # LDA將原始的4個變量壓縮爲2個，這2個變量即能解釋100%的方差