天池二手車拍賣賽題理解之特徵工程

天池二手車交易價格預測賽題理解之特徵分析常見操作

原文鏈接：Datawhale 零基礎入門數據挖掘-Task3 特徵工程
本文爲個人閱讀筆記，僅記錄閱讀過程中遇到的新知識。

數據歸一化實現：

（截圖中的代碼雖然定義了實現歸一化的函數，但並沒有調用。）
對特徵進行one-hot編碼：

刪除不需要的數據：

特徵的篩選：
1）通過相關性分析進行過濾

2）通過包裹式過濾（沒看懂）

特徵工程的主要目的是將數據轉換爲能更好地表示潛在問題的特徵，從而提高機器學習的性能。比如，異常值處理是爲了去除噪聲，填補缺失值可以加入先驗知識等。

特徵構造也屬於特徵工程的一部分，其目的是爲了增強數據的表達。

匿名特徵：裝箱，groupby，agg 等，對特徵進行進一步的 log，exp 等變換，或者對多個特徵進行四則運算，多項式組合等然後進行篩選。NN 提取特徵。

非匿名特徵：基於信號處理，頻域提取，丰度，偏度等構建更爲有實際意義的特徵，深入分析背後的業務邏輯或者物理原理。

特徵工程是和模型結合在一起的， LR NN 需要做分桶和特徵歸一化，而對於特徵的處理效果和特徵重要性等則需要通過模型來驗證。

異常處理：
通過箱線圖（或 3-Sigma）分析刪除異常值；BOX-COX 轉換（處理有偏分佈）；長尾截斷。
特徵歸一化/標準化：
標準化（轉換爲標準正態分佈）；歸一化（轉換到 [0,1] 區間）；針對冪律分佈，可以採用公式。
數據分桶：
等頻分桶；等距分桶；Best-KS 分桶（類似利用基尼指數進行二分類）；卡方分桶。
缺失值處理：
不處理（針對類似 XGBoost 等樹模型）；刪除（缺失數據太多）；插值補全，包括均值/中位數/衆數/建模預測/多重插補/壓縮感知補全/矩陣補全等；分箱，缺失值一個箱。
特徵構造：
構造統計量特徵，報告計數、求和、比例、標準差等；時間特徵，包括相對時間和絕對時間，節假日，雙休日等；地理信息，包括分箱，分佈編碼等方法；非線性變換，包括 log/ 平方/ 根號等；特徵組合，特徵交叉。
特徵篩選
過濾式（filter）：先對數據進行特徵選擇，然後在訓練學習器，常見的方法有 Relief/方差選擇發/相關係數法/卡方檢驗法/互信息法。
包裹式（wrapper）：直接把最終將要使用的學習器的性能作爲特徵子集的評價準則，常見方法有 LVM（Las Vegas Wrapper）。
嵌入式（embedding）：結合過濾式和包裹式，學習器訓練過程中自動進行了特徵選擇，常見的有 lasso 迴歸。
降維
PCA/ LDA/ ICA；特徵選擇。

天池實驗室掛載了比賽相關數據，但是在代碼中直接讀取總是報錯，路徑似乎也沒有問題，但總提示文件不存在。不知道是不是我對天池實驗室文件目錄構造不明瞭的原因，目前也不好意思問人，顯得自己好弱智。還是自己慢慢想辦法解決吧。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.