sklearn.preprocessing.scale¶
sklearn.preprocessing.scale(X, *, axis=0, with_mean=True, with_std=True, copy=True)
沿任何轴标准化数据集
以均值为中心,以分量为单位缩放至单位方差。
在用户指南中阅读更多内容。
参数 | 说明 |
---|---|
X | {array-like, sparse matrix} 数据要居中和缩放。 |
axis | int (0 by default) 用于计算平均值和标准偏差的轴。如果为0,则独立标准化每个特征,否则(如果为1)则标准化每个样本。 |
with_mean | boolean, True by default 如果为True,则在缩放之前将数据居中。 |
with_std | boolean, True by default 如果为True,则将数据缩放到单位方差(或等效地,单位标准偏差)。 |
copy | boolean, optional, default True 设置为False将执行就地行规范化并避免复制(如果输入已经是numpy数组或scipy.sparse CSC矩阵,并且轴为1)。 |
另见:
使用“ Transformer” API(例如,作为预处理 sklearn.pipeline.Pipeline
的一部分)将缩放比例缩放为单位方差。
注释
此实现将拒绝使scipy.sparse矩阵居中,因为这会使它们变得稀疏,并可能因内存耗尽问题而使程序崩溃。
相反,调用者要么显式设置为_mean=False(在这种情况下,只对CSC矩阵的特征执行方差缩放),要么调用X.toarray(),如果他/她希望物化密集数组适合内存。
为避免内存复制,调用者应传递CSC矩阵。
NaN被视为缺失值:忽略以计算统计数据,并在数据转换期间进行维护。
对于标准偏差,我们使用偏差估算器,它等于numpy.std(x,ddof = 0)。请注意,选择ddof不太可能影响模型性能。
有关不同缩放器,转换器和规范化器的比较,请参阅examples/preprocessing/plot_all_scaling.py。