sklearn.impute.MissingIndicator

class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)

[源码]

缺失值的二进制指示器。

请注意,该组件通常不应在包含转换器和分类器的Pipeline中使用 ,而是可以使用FeatureUnionColumnTransformer来添加。

用户指南中阅读更多内容。

0.20版中的新功能。

参数 说明
missing_values number, string, np.nan (default) or None
缺失值的占位符。所有出现missing_values的情况都将被估算。对于具有缺失值的可空整数类型的pandas数据框,missing_values 应将其设置为np.nan,因为pd.NA将转换为np.nan
features str, default=None
代表所有特征还是一个子集特征的填充掩码。
- 如果为“missing-only”(默认),填充掩码只表示拟合期间包含缺失值的特征。
- 如果为“all”,则填充器掩码将代表所有特征。
sparse boolean or “auto”, default=None
填充掩码格式应该是稀疏的还是密集的。

- 如果为“auto”(默认),则填充掩码与输入的类型相同。
- 如果为True,则填充掩码为稀疏矩阵。
- 如果为False,则填充掩码为numpy数组。
error_on_new boolean, default=None
如果为True(默认值),则当变换中的特征有缺失值并且拟合中没有缺失值时,变换将引发错误。仅在features="missing-only"时适用。
属性 说明
features_ ndarray, shape (n_missing_features,) or (n_features,)
调用transform时返回的特征索引。它们是在fit期间计算的。对于features='all',它是range(n_features)`。

示例

>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 13],
...                [40, np.nan],
...                [810]])
>>> X2 = np.array([[51, np.nan],
...                [np.nan, 23],
...                [240]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False,  True],
       [ TrueFalse],
       [FalseFalse]])

方法

方法 说明
fit(X[, y]) 在X上拟合转换器。
fit_transform(X[, y]) 为X生成缺失值指示符。
get_params([deep]) 获取此估计器的参数。
set_params(**params) 设置此估计器的参数。
transform(X) 为X生成缺失值指示符。
__init__(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)

[源码]

初始化self,参见help(type(self))获取更准确的说明。

fit(X, y=None)

[源码]

在X上拟合转换器。

参数 说明
X {array-like, sparse matrix}, shape (n_samples, n_features)
输入数据,其中n_samples是样本数, n_features是特征数。
返回值 说明
self object
返回self对象。
fit_transform(X, y=None)

[源码]

为X生成缺失值指示符。

参数 说明
X {array-like, sparse matrix}, shape (n_samples, n_features)
输入数据。
返回值 说明
Xt {ndarray or sparse matrix}, shape (n_samples, n_features) or (n_samples, n_features_with_missing)
输入数据的缺失值指示符。Xt的数据类型将是boolean。
get_params(deep=True)

[源码]

获取此估计器的参数。

参数 说明
deep bool, default=True
如果为True,则将返回此估算器和所包含子对象的参数。
返回值 说明
params mapping of string to any
参数名称映射到其值。
set_params(**params)

[源码]

设置此估算器的参数。

该方法适用于简单的估计器以及嵌套对象(例如管道)。后者具有<component>__<parameter>形式的参数, 以便可以更新嵌套对象的每个组件。

参数 说明
**params dict
估计器参数。
返回值 说明
self object
估计器实例。
transform(X)

[源码]

为X生成缺失值指示符。

参数 说明
X {array-like, sparse matrix}, shape (n_samples, n_features)
输入数据。
返回值 说明
Xt {ndarray or sparse matrix}, shape (n_samples, n_features) or (n_samples, n_features_with_missing)
输入数据的缺失值指示符。Xt的数据类型将是boolean。