sklearn.datasets.make_regression¶

sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)

[源码]

产生随机回归问题。

输入集可以处于良好状态（默认情况下），也可以具有低秩胖尾部奇异轮廓。有关更多详细信息，请参见make_low_rank_matrix 。

通过将具有n_informative非零回归变量的（可能有偏差的）随机线性回归模型应用于先前生成的输入和具有可调整比例的一些高斯中心噪声来生成输出。

在用户指南中阅读更多内容。

参数	说明
n_samples	int, optional (default=100) 样本数。
n_features	int, optional (default=100) 特征数。
n_informative	int, optional (default=10) 信息特征的数量，即用于构建用于生成输出的线性模型的特征的数量。
n_targets	int, optional (default=1) 回归targets的数量，即与样本关联的y输出向量的尺寸。默认情况下，输出为标量。
bias	float, optional (default=0.0) 基础线性模型中的偏差项。
effective_rank	int or None, optional (default=None) - 如果不是None: 通过线性组合来解释大多数输入数据所需的奇异矢量的近似数量。在输入中使用这种奇异频谱可使发生器重现在实践中经常观察到的相关性。 - if None: 输入集条件良好，居中且具有单位变化的高斯分布。
tail_strength	float between 0.0 and 1.0, optional (default=0.5) 如果effective_rank不为None，为奇异值分布图的胖尾噪声的相对重要性。
noise	float, optional (default=0.0) 应用于输出的高斯噪声的标准偏差。
shuffle	boolean, optional (default=True) shuffle样本和特征。
coef	boolean, optional (default=False) 如果为True，则返回基础线性模型的系数。
random_state	int, RandomState instance, default=None 确定用于生成数据集的随机数生成。为多个函数调用传递可重复输出的int值。请参阅词汇表。

返回值	说明
X	array of shape [n_samples, n_features] 输入样本。
y	array of shape [n_samples] or [n_samples, n_targets] 输出值。
coef	array of shape [n_features] or [n_features, n_targets], optional 基础线性模型的系数。仅当coef为True时才返回。

sklearn.datasets.make_regression使用示例¶

绘制L2正则化函数的岭系数图 ¶

基于RANSAC的鲁棒线性模型估计 ¶

强异常数据集上的Huber回归与岭回归 ¶

在密集和稀疏数据上的Lasso ¶

scikit-learn 0.23中的发布要点 ¶

预测延迟 ¶

在回归模型中转换目标的效果 ¶