特徵工程是一個任務驅動的經驗性處理過程
數據與特徵處理
- 特徵表達
- 數值型
- 類別型
- 時間型
- 文本型
- 統計型
- 組合特徵
數據的表示應當轉換爲更理想的格式
數值型
- 幅度調整/歸一化
- Log等變化
- 統計值max,min,mean,std
- 離散化(一個特徵變多個特徵)(等距切分,等頻切分)
- Hash分桶
- 每個類別下對應的變量統計值histogram
- 試試 數值型=>類別型
類別型
- 獨熱編碼
- 啞變量
- Hash與聚類處理(降低稀疏度,提高信息利用率)
- 統計每個類別變量下各個target比例,轉成數值型
特徵組合
- 簡單組合特徵:拼接型
- 模型特徵組合
特徵選擇
大量特徵(上億)使用L1正則化進行特徵選擇
同時良好的特徵工程應該滿足一下特點:
- 可面向未來觀察結果進行計算。
- 通常能給出直觀的解釋。
- 通過領域內專業知識或者探索性分析得出。
- 必須擁有預測能力。不要爲了創建特徵而創建特徵。