特徵工程

特徵工程是一個任務驅動的經驗性處理過程

數據與特徵處理

  • 特徵表達
    • 數值型
    • 類別型
    • 時間型
    • 文本型
    • 統計型
    • 組合特徵

數據的表示應當轉換爲更理想的格式

數值型

  • 幅度調整/歸一化
  • Log等變化
  • 統計值max,min,mean,std
  • 離散化(一個特徵變多個特徵)(等距切分,等頻切分)
  • Hash分桶
  • 每個類別下對應的變量統計值histogram
  • 試試 數值型=>類別型

類別型

  • 獨熱編碼
  • 啞變量
  • Hash與聚類處理(降低稀疏度,提高信息利用率)
  • 統計每個類別變量下各個target比例,轉成數值型

特徵組合

  • 簡單組合特徵:拼接型
  • 模型特徵組合

這裏寫圖片描述

特徵選擇

這裏寫圖片描述

這裏寫圖片描述

大量特徵(上億)使用L1正則化進行特徵選擇

這裏寫圖片描述

同時良好的特徵工程應該滿足一下特點:

  • 可面向未來觀察結果進行計算。
  • 通常能給出直觀的解釋。
  • 通過領域內專業知識或者探索性分析得出。
  • 必須擁有預測能力。不要爲了創建特徵而創建特徵。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章