sklearn.preprocessing.Binarizer

class sklearn.preprocessing.Binarizer(*, threshold=0.0, copy=True)

[源码]

根据阈值对数据进行二值化(将要素值设置为0或1)

大于阈值的值映射为1,而小于或等于阈值的值映射为0。默认阈值为0时,仅正值映射为1。

二值化是对文本计数数据的常见操作,分析人员可以决定仅考虑某个功能的存在或不存在,而不考虑例如量化的出现次数。

对于考虑了布尔型随机变量的估计量(例如,使用贝叶斯设置中的伯努利分布建模的估计量),它也可以用作预处理器。

用户指南中阅读更多内容

参数 说明
threshold float, optional (0.0 by default)
小于或等于此值的特征值将替换为0,在其之上被1替换。对于稀疏矩阵的操作,阈值不得小于0。
copy boolean, optional, default True
设置为False将执行就地二进制化并避免复制(如果输入已经是numpy数组或scipy.sparse CSR矩阵)。

另见:

binarize

没有估算器API的等效函数。

注释

如果输入是稀疏矩阵,则只有非零值会由Binarizer类更新。该估计器是无状态的(除了构造函数参数之外),fit方法什么也不做,但是在管道(pipeline)中使用时很有用。

示例:

>>>

>>> from sklearn.preprocessing import Binarizer
>>> X = [[ 1.-1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1.-1.]]
>>> transformer = Binarizer().fit(X)  # fit does nothing.
>>> transformer
Binarizer()
>>> transformer.transform(X)
array([[1.0.1.],
       [1.0.0.],
       [0.1.0.]])

方法

方法 说明
fit(self, X[, y]) 不执行任何操作,并使估算器保持不变
fit_transform(self, X[, y]) 拟合数据,然后对其进行转换。
get_params(self[, deep]) 获取此估计量的参数。
set_params(self, **params) 设置此估算器的参数。
transform(self, X[, copy]) 对X的每个元素进行二值化
__init__(self, *, threshold=0.0, copy=True)

[源码]

初始化self,有关准确的签名,请参见help(type(self))。

fit(self, X, y=None)

[源码]

不执行任何操作并返回不变的估算器。该方法仅用于实现常规API,因此可以在管道中使用。

参数 说明
X array-like
fit_transform(self, X, y=None, *fit_params)

[源码]

拟合数据,然后对其进行转换。

使用可选参数fit_params将转换器拟合到X和y,并返回X的转换值。

参数 说明
X {array-like, sparse matrix, dataframe} of shape (n_sample, n_features)
y ndarray of shape (n_samples, ), default = None
目标值
**fit_params dict
附加拟合参数
返回值 说明
X_new ndarray array of shape (n_samples, n_features_new)
转化后的数组
get_params(self, deep=True)

源码

获取当前估计量的参数

参数 说明
deep bool, default = True
如果为真,则将返回此估计器和其所包含子对象的参数
返回值 说明
params mapping of string to any
参数名被映射至他们的值
predict(self, **params)

源码

设置当前估算器的参数。

该方法适用于简单的估计器以及嵌套对象(例如管道)。后者的参数形式为<component>__<parameter>这样就可以更新嵌套对象的每个组件。

参数 说明
**params dict
估计量参数
返回值 说明
self object
估计器实例
transform(self, X,copy=None)

[源码]

对X的每个元素进行二值化

参数 说明
X {array-like, sparse matrix}, shape [n_samples, n_features]
要逐元素二值化的数据。稀疏矩阵应采用CSR格式,以避免不必要的复制。
copy bool
是否复制输入X。