特徵值爲空如何處理?
參考資料:
https://www.zhihu.com/search?type=content&q=%E7%89%B9%E5%BE%81%E5%80%BC%E4%B8%BA%E7%A9%BA
最後決定取均值了。
不過這個問題還是值得思考的,依研究問題的不同,做法也不盡相似,基本思想就是根據其他數據信息來進行填充,這對於圖像處理來說是個不錯的選擇。
仔細想想,我的特徵值是距離,這個取平均值,似乎就不是那麼合理了,不過如果數據量很大,尋找一個大概的分佈規律,按照分佈取均值,應該還是可以的。
特徵值不是同一種數據格式
選取的特徵值肯定不是同一種屬性,比如年齡,薪水,如何處理?
1。 最常見做法:對同一列做標準化(需要屬性服從正態分佈)
2。區間縮放法:
value - min /(max - min)
卡方檢測
其實是假設兩個變量不相關的情況下,用最大似然估計每種情況出現的頻率f,
然後累計(f-real)^2/real
sklearn
真的要種草這個庫了,上面的問題,居然都有解釋說明,很不錯。
http://blog.csdn.net/myproudcodelife/article/details/52515849