sklearn.datasets.make_classification¶

sklearn.datasets.make_classification(n_samples=100, n_features=20, *, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None)

[源码]

生成随机的n类分类问题。

最初，这将创建一个边长为2 * class_sep的正态分布(std=1)在n_informative维超立方体的顶点周围的点的聚类，并为每个类分配相等数量的聚类。它引入了这些功能之间的相互依赖性，并为数据增加了各种类型的进一步噪声。

在不进行shuffle的情况下，X按以下顺序水平堆叠特征：主要的n_informative特征，然后是n_redundant线性的信息特征组合，然后是n_repeated副本，从信息和冗余特征中随机替换。其余功能充满了随机噪声。因此，没有shuffle时，所有有用的功能都包含在列X [:,:n_informative + n_redundant + n_repeated]中。

在用户指南中阅读更多内容。

参数	说明
n_samples	int, optional (default=100) 样本数。
n_features	int, optional (default=20) 功能总数。这些包括随机绘制的n_informative信息特征，n_redundant冗余特征，n_repeated重复特征和n_features-n_informative-n_redundant-n_repeated无用特征。
n_informative	int, optional (default=2) 信息特征的数量。每个类都由多个高斯簇组成，每个簇围绕着超立方体的顶点位于n_informative维子空间中。对于每个聚类，独立于N（0，1）绘制信息特征，然后在每个聚类内随机线性组合以增加协方差。然后将簇放置在超立方体的顶点上。
n_redundant	int, optional (default=2) 冗余特征的数量。这些特征是作为信息特征的随机线性组合生成的。
n_repeated	int, optional (default=0) 从信息性和冗余性特征中随机抽取的重复性特征的数量。
n_classes	int, optional (default=2) 分类问题的类（或标签）数。
n_clusters_per_class	int, optional (default=2) 每个类的簇数。
weights	array-like of shape (n_classes,) or (n_classes - 1,), (default=None) 分配给每个类别的样本比例。如果为None，则类是平衡的。请注意，如果len（weights）== n_classes-1，则自动推断最后一个类的权重。如果weights之和超过1，则可能返回多于n_samples个样本。
flip_y	float, optional (default=0.01) 类别随机分配的样本比例。较大的值会在标签中引入噪音，并使分类任务更加困难。请注意，在某些情况下，默认设置flip_y> 0可能导致y中的类少于n_class。
class_sep	float, optional (default=1.0) 超立方体大小乘以的因子。较大的值分散了群集/类，并使分类任务更加容易。
hypercube	boolean, optional (default=True) 如果为True，则将簇放置在超立方体的顶点上。如果为False，则将簇放置在随机多面体的顶点上。
shift	float, array of shape [n_features] or None, optional (default=0.0) 按指定值移动特征。如果为None，则将特征移动[-class_sep，class_sep]中绘制的随机值。
scale	float, array of shape [n_features] or None, optional (default=1.0) 将特征乘以指定值。如果为None，则将按[1，100]中绘制的随机值缩放要素。请注意，缩放发生在移位之后。
shuffle	shuboolean, optional (default=True) shuffle样本和特征。
random_state	int, RandomState instance, default=None 确定用于生成数据集的随机数生成。为多个函数调用传递可重复输出的int值。请参阅词汇表。