分類問題

特徵值爲空如何處理?

參考資料:
https://www.zhihu.com/search?type=content&q=%E7%89%B9%E5%BE%81%E5%80%BC%E4%B8%BA%E7%A9%BA
最後決定取均值了。
不過這個問題還是值得思考的,依研究問題的不同,做法也不盡相似,基本思想就是根據其他數據信息來進行填充,這對於圖像處理來說是個不錯的選擇。

仔細想想,我的特徵值是距離,這個取平均值,似乎就不是那麼合理了,不過如果數據量很大,尋找一個大概的分佈規律,按照分佈取均值,應該還是可以的。

特徵值不是同一種數據格式

選取的特徵值肯定不是同一種屬性,比如年齡,薪水,如何處理?
1。 最常見做法:對同一列做標準化(需要屬性服從正態分佈)
2。區間縮放法:
value - min /(max - min)

卡方檢測

其實是假設兩個變量不相關的情況下,用最大似然估計每種情況出現的頻率f,
然後累計(f-real)^2/real

sklearn

真的要種草這個庫了,上面的問題,居然都有解釋說明,很不錯。
http://blog.csdn.net/myproudcodelife/article/details/52515849

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章