sklearn.impute.MissingIndicator¶
class sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)
缺失值的二进制指示器。
请注意,该组件通常不应在包含转换器和分类器的Pipeline
中使用 ,而是可以使用FeatureUnion
或ColumnTransformer
来添加。
在用户指南中阅读更多内容。
0.20版中的新功能。
参数 | 说明 |
---|---|
missing_values | number, string, np.nan (default) or None 缺失值的占位符。所有出现 missing_values 的情况都将被估算。对于具有缺失值的可空整数类型的pandas数据框,missing_values 应将其设置为np.nan ,因为pd.NA 将转换为np.nan 。 |
features | str, default=None 代表所有特征还是一个子集特征的填充掩码。 - 如果为“missing-only”(默认),填充掩码只表示拟合期间包含缺失值的特征。 - 如果为“all”,则填充器掩码将代表所有特征。 |
sparse | boolean or “auto”, default=None 填充掩码格式应该是稀疏的还是密集的。 - 如果为“auto”(默认),则填充掩码与输入的类型相同。 - 如果为True,则填充掩码为稀疏矩阵。 - 如果为False,则填充掩码为numpy数组。 |
error_on_new | boolean, default=None 如果为True(默认值),则当变换中的特征有缺失值并且拟合中没有缺失值时,变换将引发错误。仅在 features="missing-only" 时适用。 |
属性 | 说明 |
---|---|
features_ | ndarray, shape (n_missing_features,) or (n_features,) 调用 transform 时返回的特征索引。它们是在fit 期间计算的。对于features='all' ,它是range(n_features)`。 |
示例
>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 1, 3],
... [4, 0, np.nan],
... [8, 1, 0]])
>>> X2 = np.array([[5, 1, np.nan],
... [np.nan, 2, 3],
... [2, 4, 0]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False, True],
[ True, False],
[False, False]])
方法
方法 | 说明 |
---|---|
fit (X[, y]) |
在X上拟合转换器。 |
fit_transform (X[, y]) |
为X生成缺失值指示符。 |
get_params ([deep]) |
获取此估计器的参数。 |
set_params (**params) |
设置此估计器的参数。 |
transform (X) |
为X生成缺失值指示符。 |
__init__(*, missing_values=nan, features='missing-only', sparse='auto', error_on_new=True)
初始化self,参见help(type(self))获取更准确的说明。
fit(X, y=None)
在X上拟合转换器。
参数 | 说明 |
---|---|
X | {array-like, sparse matrix}, shape (n_samples, n_features) 输入数据,其中 n_samples 是样本数, n_features 是特征数。 |
返回值 | 说明 |
---|---|
self | object 返回self对象。 |
fit_transform(X, y=None)
为X生成缺失值指示符。
参数 | 说明 |
---|---|
X | {array-like, sparse matrix}, shape (n_samples, n_features) 输入数据。 |
返回值 | 说明 |
---|---|
Xt | {ndarray or sparse matrix}, shape (n_samples, n_features) or (n_samples, n_features_with_missing) 输入数据的缺失值指示符。Xt的数据类型将是boolean。 |
get_params(deep=True)
获取此估计器的参数。
参数 | 说明 |
---|---|
deep | bool, default=True 如果为True,则将返回此估算器和所包含子对象的参数。 |
返回值 | 说明 |
---|---|
params | mapping of string to any 参数名称映射到其值。 |
set_params(**params)
设置此估算器的参数。
该方法适用于简单的估计器以及嵌套对象(例如管道)。后者具有<component>__<parameter>
形式的参数, 以便可以更新嵌套对象的每个组件。
参数 | 说明 |
---|---|
**params | dict 估计器参数。 |
返回值 | 说明 |
---|---|
self | object 估计器实例。 |
transform(X)
为X生成缺失值指示符。
参数 | 说明 |
---|---|
X | {array-like, sparse matrix}, shape (n_samples, n_features) 输入数据。 |
返回值 | 说明 |
---|---|
Xt | {ndarray or sparse matrix}, shape (n_samples, n_features) or (n_samples, n_features_with_missing) 输入数据的缺失值指示符。Xt的数据类型将是boolean。 |