sklearn.feature_selection.VarianceThreshold

class sklearn.feature_selection.VarianceThreshold(threshold=0.0)

[源码]

删除所有低方差特征的特征选择器。

此特征选择算法仅查看特征(X),而不查看所需的输出(y),因此可用于无监督学习。

用户指南中阅读更多内容。

参数 说明
threshold float, optional
训练集方差低于此阈值的特征将被删除。默认设置是保留所有具有非零方差的特征,即删除所有样本中具有相同值的特征。
属性 说明
variances_ array, shape (n_features,)

在输入中允许使用NaN。

示例

下面的数据集具有整数特征,每个样本中有两个特征是相同的。这些是使用阈值的默认设置删除的:

>>> X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]
>>> selector = VarianceThreshold()
>>> selector.fit_transform(X)
array([[2, 0],
       [1, 4],
       [1, 1]])

方法

方法 说明
fit(X[, y]) 从X中学习经验方差。
fit_transform(X[, y]) 拟合数据,然后对其进行转换。
get_params([deep]) 获取此估计器的参数。
get_support([indices]) 获取所选特征的掩码或整数索引。
inverse_transform(X) 反向转换操作
set_params(**params) 设置此估计器的参数。
transform(X) 将X缩小为选定的特征。
__init__(threshold=0.0)

[源码]

初始化self,参见help(type(self))获取更多信息。

fit(X, y=None)

[源码]

从X中学习经验方差。

参数 说明
X {array-like, sparse matrix}, shape (n_samples, n_features)
用于计算方差的样本向量。
y any
忽略。存在此参数是为了与sklearn.pipeline.Pipeline兼容。
返回值 说明
self
fit_transform(X, y=None, **fit_params)

[源码]

拟合数据,然后对其进行转换。

使用可选参数fit_params将转换器拟合到X和y,并返回X的转换值。

参数 说明
X {array-like, sparse matrix, dataframe} of shape (n_samples, n_features)
y ndarray of shape (n_samples,), default=None
目标值
**fit_params dict
其他拟合参数。
返回值 说明
X_new ndarray array of shape (n_samples, n_features_new)
转换后的数组。
get_params(deep=True)

[源码]

获取此估计器的参数。

参数 说明
deep bool, default=True
如果为True,则将返回此估算器和所包含子对象的参数。
返回值 说明
params mapping of string to any
参数名称映射到其值。
get_support(indices=False)

[源码]

获取所选特征的掩码或整数索引。

参数 说明
indices boolean (default False)
如果为True,则返回值将是一个整数数组,而不是布尔掩码。
返回值 说明
support array
从特征向量中选择保留特征的索引。如果indices为False,则为形状为[#输入特征]的布尔数组,其中元素为True时(如果已选择其对应的特征进行保留)。如果indices为True,则这是一个形状为[#输出特征]的整数数组,其值是输入特征向量的索引。
inverse_transform(X)

[源码]

反向转换操作。

参数 说明
X array of shape [n_samples, n_selected_features]
输入样本。
返回值 说明
X_r array of shape [n_samples, n_original_features]
X中插入的列名为零的特征将被transform删除。
set_params(**params)

[源码]

设置此估算器的参数。

该方法适用于简单的估计器以及嵌套对象(例如管道)。后者具有<component>__<parameter>形式的参数, 以便可以更新嵌套对象的每个组件。

参数 说明
**params dict
估计器参数。
返回值 说明
self object
估计器实例。
transform(X)

[源码]

将X缩小为选定的特征。

参数 说明
X array of shape [n_samples, n_features]
输入样本。
返回值 说明
X_r array of shape [n_samples, n_selected_features]
仅具有所选特征的输入样本。