天池二手車拍賣賽題理解之特徵工程

天池二手車交易價格預測賽題理解之特徵分析常見操作

原文鏈接:Datawhale 零基礎入門數據挖掘-Task3 特徵工程
本文爲個人閱讀筆記,僅記錄閱讀過程中遇到的新知識。

數據歸一化實現:
在這裏插入圖片描述
(截圖中的代碼雖然定義了實現歸一化的函數,但並沒有調用。)
對特徵進行one-hot編碼:
在這裏插入圖片描述
刪除不需要的數據:
在這裏插入圖片描述
特徵的篩選:
1)通過相關性分析進行過濾
在這裏插入圖片描述
2)通過包裹式過濾(沒看懂)
在這裏插入圖片描述

文字總結:

特徵工程的主要目的是將數據轉換爲能更好地表示潛在問題的特徵,從而提高機器學習的性能。比如,異常值處理是爲了去除噪聲,填補缺失值可以加入先驗知識等。

特徵構造也屬於特徵工程的一部分,其目的是爲了增強數據的表達。

匿名特徵:裝箱,groupby,agg 等,對特徵進行進一步的 log,exp 等變換,或者對多個特徵進行四則運算,多項式組合等然後進行篩選。NN 提取特徵。

非匿名特徵:基於信號處理,頻域提取,丰度,偏度等構建更爲有實際意義的特徵,深入分析背後的業務邏輯或者物理原理。

特徵工程是和模型結合在一起的, LR NN 需要做分桶和特徵歸一化,而對於特徵的處理效果和特徵重要性等則需要通過模型來驗證。

常見特徵工程:

  1. 異常處理:
    通過箱線圖(或 3-Sigma)分析刪除異常值;BOX-COX 轉換(處理有偏分佈);長尾截斷。
  2. 特徵歸一化/標準化:
    標準化(轉換爲標準正態分佈);歸一化(轉換到 [0,1] 區間);針對冪律分佈,可以採用公式。
    在這裏插入圖片描述
  3. 數據分桶:
    等頻分桶;等距分桶;Best-KS 分桶(類似利用基尼指數進行二分類);卡方分桶。
  4. 缺失值處理:
    不處理(針對類似 XGBoost 等樹模型);刪除(缺失數據太多);插值補全,包括均值/中位數/衆數/建模預測/多重插補/壓縮感知補全/矩陣補全等;分箱,缺失值一個箱。
  5. 特徵構造:
    構造統計量特徵,報告計數、求和、比例、標準差等;時間特徵,包括相對時間和絕對時間,節假日,雙休日等;地理信息,包括分箱,分佈編碼等方法;非線性變換,包括 log/ 平方/ 根號等;特徵組合,特徵交叉。
  6. 特徵篩選
    過濾式(filter):先對數據進行特徵選擇,然後在訓練學習器,常見的方法有 Relief/方差選擇發/相關係數法/卡方檢驗法/互信息法。
    包裹式(wrapper):直接把最終將要使用的學習器的性能作爲特徵子集的評價準則,常見方法有 LVM(Las Vegas Wrapper)。
    嵌入式(embedding):結合過濾式和包裹式,學習器訓練過程中自動進行了特徵選擇,常見的有 lasso 迴歸。
  7. 降維
    PCA/ LDA/ ICA;特徵選擇。

問題

天池實驗室掛載了比賽相關數據,但是在代碼中直接讀取總是報錯,路徑似乎也沒有問題,但總提示文件不存在。不知道是不是我對天池實驗室文件目錄構造不明瞭的原因,目前也不好意思問人,顯得自己好弱智。還是自己慢慢想辦法解決吧。。。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章