1. 特徵歸一化
對數值類型的特徵做歸一化,最終將特徵的取值都統一到大致相等的數值區間內。
優點:
- 可將所有特徵消除量綱。
- 避免結果傾向於數值差別較大的特徵。
常見的方法有:
- 線性函數歸一化
- 零均值歸一化
適用於:邏輯迴歸、SVM、神經網絡
不適用於:決策樹
2. 類別型特徵
主要指的非數值型的離散特徵,如性別(男、女)。
常見的處理方法:
- 序號編碼:處理具有大小關係的數據。如:高、中、低,映射爲3、2、1。
- 獨熱編碼(one-hot):處理類別之間無大小關係的離散類別數據。
1) 使用係數向量來節省空間
2) 配合特徵選擇降低維度 - 二進制編碼:兩步走先賦值爲id,再將id二進制化。(相較於one-hot節省空間)
3. 高維組合特徵的處理
爲了提高複雜關係的擬合能力,通常將一階離散特徵兩兩組合,構成高階特徵。
如:
但是對於id類的特徵,優於其數量十分龐大,不適用
4.組合特徵
特徵的組合,如果是簡單的兩兩組合,會產生參數過多、過擬合的問題。並且並不是所有的特徵都是有意義的。
所以我們可以藉助決策樹的方法,來進行特徵的選擇與組合。
5. 文本表示模型
文本的表示是NLP中的一個基礎性的工作與技術,通常採用的方法有如下幾個:
- 詞袋模型
- TF-IDF值
- Word2Vec
- LDA
在抽取高層的語義特徵時,採用了CNN,比起DNN和RNN的優勢在於:
- 參數量少
- 訓練速度快
- 降低了過擬合風險. .
6. Word2Vec
其有兩種模式:CBOW和Skip-gram
同時每種模式下都有兩種訓練技巧:層序softmax和負採樣
7. 圖像數據不足時的處理方法
從模型角度入手:
- 簡化模型
- 增加懲罰項
- 集成學習
- Dropout
從數據角度入手:
- 做數據的旋轉、平移等操作
- 對圖像增加噪聲
- 改變圖像的亮度、清晰度等
- GAN