missingno庫---缺失值可視化分析

缺失值

當我們拿到數據的時候,數據不一定是完整的,有時候一些特徵有缺失值,我們可以通過可視化缺失值來決定我們下一步要進行的操作。

missingno庫

missingno是一個可視化缺失值的庫,方便使用,我們可以用pip install missingno 即可下載該庫。

例子

import missingno as msno
msno.matrix(players.sample(500))#players表示類型爲dataframe的表格,sample(500)表示抽取表格中500個樣本。

在這裏插入圖片描述
上圖是代碼運行後得到的結果,白線越多,代表缺失值越多。
再來驗證一下,我們去掉rater1和rate2的缺失值。

players = players[players.rater1.notnull()]
msno.matrix(players.sample(500))

在這裏插入圖片描述
看得出,rate1的白線沒了,因爲我們把缺失值給去掉了。所以白線沒了。
我們還可以生成熱度圖。

msno.heatmap(players,figsize=(16, 7))#figsize是指圖的大小

在這裏插入圖片描述
生成了這樣一個圖,這個圖的意思是,比如說rater1和rater2的熱度值是1,代表的是,當rater1缺失時,rater2也百分之百缺失,表示的是兩個特徵之間的關係。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章