1.爲什麼需要特徵選擇?特徵選擇有哪些?
第一個問題:
①在現實任務中經常會遇到維數災難問題,屬性過多造成的。 ②可以降低學習任務的難度。不相關的特徵就是噪聲。
第二個問題:
過濾式,包裹式,嵌入式
特徵選擇分爲兩個部分,一個是子集搜索,一個是子集評價。子集搜索有前向搜索,後向搜索,雙向搜索,但是都是貪心的。子集評價是通過計算屬性的信息增益。即使用該特徵後,降低了訓練樣本的不確定性。信息增益越大表明該特徵對於分類作用越好。
過濾式特徵選擇:RelifF思想:使類與類之間距離越大,類內差距小。對每個訓練數據找到其猜中近鄰(near-hit)和猜錯近鄰(near-miss).
從公式可以看出,和猜錯近鄰的差距越大,那麼該特徵的重要性越高,和猜對近鄰的差距越小,那麼該特徵的重要性越大。
注:使用RelifF需要對特徵進行歸一化。
包裹式特徵選擇:Las Vegas Wrapper(拉斯維加斯包裹):目的選擇最多的信息,最少的特徵。