pandas中fillna()方法,能夠使用指定的方法填充NA/NaN值。
1.函數詳解
函數形式:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
參數:
value:用於填充的空值的值。
method: {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定義了填充空值的方法, pad / ffill表示用前面行/列的值,填充當前行/列的空值, backfill / bfill表示用後面行/列的值,填充當前行/列的空值。
axis:軸。0或’index’,表示按行刪除;1或’columns’,表示按列刪除。
inplace:是否原地替換。布爾值,默認爲False。如果爲True,則在原DataFrame上進行操作,返回值爲None。
limit:int, default None。如果method被指定,對於連續的空值,這段連續區域,最多填充前 limit 個空值(如果存在多段連續區域,每段最多填充前 limit 個空值)。如果method未被指定, 在該axis下,最多填充前 limit 個空值(不論空值連續區間是否間斷)
downcast:dict, default is None,字典中的項爲,爲類型向下轉換規則。或者爲字符串“infer”,此時會在合適的等價類型之間進行向下轉換,比如float64 to int64 if possible。
返回值:
DataFrame or None
Object with missing values filled or None if inplace=True.
- 用均值進行填充:
for column in list(df.columns[df.isnull().sum() > 0]):
mean_val = df[column].mean()
df[column].fillna(mean_val, inplace=True)
- 用後一行的值進行填充NaN
print(df.fillna(method='backfill', axis=0, inplace=False))
- 我的測試代碼如下:
import numpy as np
import pandas as pd
a = np.arange(100, dtype=float).reshape((10, 10))
a[0, 1] = np.nan
a[0, 3] = np.nan
a[0, 4] = np.nan
a[0, 6] = np.nan
a[3, 1] = np.nan
a[3, 3] = np.nan
a[3, 4] = np.nan
a[3, 6] = np.nan
df = pd.DataFrame(data=a)
# 重命名列名
df.columns = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
print(df)
# 篩選需要填充的列
print(df.columns[df.isnull().sum() > 0])
# 用列均值進行填充NaN
for column in list(df.columns[df.isnull().sum() > 0]):
mean_val = df[column].mean()
df[column].fillna(mean_val, inplace=True)
# 用後一行的值進行填充NaN
# print(df.fillna(method='backfill', axis=0, inplace=True))
# 篩選需要填充的列 發現沒有這樣的列了
print(df.columns[df.isnull().sum() > 0])
print(df)