sklearn.datasets.make_regression

sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)

[源码]

产生随机回归问题。

输入集可以处于良好状态(默认情况下),也可以具有低秩胖尾部奇异轮廓。有关更多详细信息,请参见make_low_rank_matrix

通过将具有n_informative非零回归变量的(可能有偏差的)随机线性回归模型应用于先前生成的输入和具有可调整比例的一些高斯中心噪声来生成输出。

在用户指南中阅读更多内容。

参数 说明
n_samples int, optional (default=100)
样本数。
n_features int, optional (default=100)
特征数。
n_informative int, optional (default=10)
信息特征的数量,即用于构建用于生成输出的线性模型的特征的数量。
n_targets int, optional (default=1)
回归targets的数量,即与样本关联的y输出向量的尺寸。默认情况下,输出为标量。
bias float, optional (default=0.0)
基础线性模型中的偏差项。
effective_rank int or None, optional (default=None)
- 如果不是None:
通过线性组合来解释大多数输入数据所需的奇异矢量的近似数量。 在输入中使用这种奇异频谱可使发生器重现在实践中经常观察到的相关性。
- if None:
输入集条件良好,居中且具有单位变化的高斯分布。
tail_strength float between 0.0 and 1.0, optional (default=0.5)
如果effective_rank不为None,为奇异值分布图的胖尾噪声的相对重要性。
noise float, optional (default=0.0)
应用于输出的高斯噪声的标准偏差。
shuffle boolean, optional (default=True)
shuffle样本和特征。
coef boolean, optional (default=False)
如果为True,则返回基础线性模型的系数。
random_state int, RandomState instance, default=None
确定用于生成数据集的随机数生成。 为多个函数调用传递可重复输出的int值。 请参阅词汇表
返回值 说明
X array of shape [n_samples, n_features]
输入样本。
y array of shape [n_samples] or [n_samples, n_targets]
输出值。
coef array of shape [n_features] or [n_features, n_targets], optional
基础线性模型的系数。 仅当coef为True时才返回。