sklearn.preprocessing.Binarizer¶
class sklearn.preprocessing.Binarizer(*, threshold=0.0, copy=True)
根据阈值对数据进行二值化(将要素值设置为0或1)
大于阈值的值映射为1,而小于或等于阈值的值映射为0。默认阈值为0时,仅正值映射为1。
二值化是对文本计数数据的常见操作,分析人员可以决定仅考虑某个功能的存在或不存在,而不考虑例如量化的出现次数。
对于考虑了布尔型随机变量的估计量(例如,使用贝叶斯设置中的伯努利分布建模的估计量),它也可以用作预处理器。
在用户指南中阅读更多内容
参数 | 说明 |
---|---|
threshold | float, optional (0.0 by default) 小于或等于此值的特征值将替换为0,在其之上被1替换。对于稀疏矩阵的操作,阈值不得小于0。 |
copy | boolean, optional, default True 设置为False将执行就地二进制化并避免复制(如果输入已经是numpy数组或scipy.sparse CSR矩阵)。 |
另见:
没有估算器API的等效函数。
注释
如果输入是稀疏矩阵,则只有非零值会由Binarizer类更新。该估计器是无状态的(除了构造函数参数之外),fit方法什么也不做,但是在管道(pipeline)中使用时很有用。
示例:
>>>
>>> from sklearn.preprocessing import Binarizer
>>> X = [[ 1., -1., 2.],
... [ 2., 0., 0.],
... [ 0., 1., -1.]]
>>> transformer = Binarizer().fit(X) # fit does nothing.
>>> transformer
Binarizer()
>>> transformer.transform(X)
array([[1., 0., 1.],
[1., 0., 0.],
[0., 1., 0.]])
方法
方法 | 说明 |
---|---|
fit (self, X[, y]) |
不执行任何操作,并使估算器保持不变 |
fit_transform (self, X[, y]) |
拟合数据,然后对其进行转换。 |
get_params (self[, deep]) |
获取此估计量的参数。 |
set_params (self, **params) |
设置此估算器的参数。 |
transform (self, X[, copy]) |
对X的每个元素进行二值化 |
__init__(self, *, threshold=0.0, copy=True)
[源码]
初始化self,有关准确的签名,请参见help(type(self))。
fit(self, X, y=None)
不执行任何操作并返回不变的估算器。该方法仅用于实现常规API,因此可以在管道中使用。
参数 | 说明 |
---|---|
X | array-like |
fit_transform(self, X, y=None, *fit_params)
拟合数据,然后对其进行转换。
使用可选参数fit_params将转换器拟合到X和y,并返回X的转换值。
参数 | 说明 |
---|---|
X | {array-like, sparse matrix, dataframe} of shape (n_sample, n_features) |
y | ndarray of shape (n_samples, ), default = None 目标值 |
**fit_params | dict 附加拟合参数 |
返回值 | 说明 |
---|---|
X_new | ndarray array of shape (n_samples, n_features_new) 转化后的数组 |
get_params(self, deep=True)
获取当前估计量的参数
参数 | 说明 |
---|---|
deep | bool, default = True 如果为真,则将返回此估计器和其所包含子对象的参数 |
返回值 | 说明 |
---|---|
params | mapping of string to any 参数名被映射至他们的值 |
predict(self, **params)
设置当前估算器的参数。
该方法适用于简单的估计器以及嵌套对象(例如管道)。后者的参数形式为<component>__<parameter>这样就可以更新嵌套对象的每个组件。
参数 | 说明 |
---|---|
**params | dict 估计量参数 |
返回值 | 说明 |
---|---|
self | object 估计器实例 |
transform(self, X,copy=None)
对X的每个元素进行二值化
参数 | 说明 |
---|---|
X | {array-like, sparse matrix}, shape [n_samples, n_features] 要逐元素二值化的数据。稀疏矩阵应采用CSR格式,以避免不必要的复制。 |
copy | bool 是否复制输入X。 |