sklearn.datasets.fetch_kddcup99¶

sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False)

[源码]

加载kddcup99数据集（分类）。

如有必要，请下载。

类	23
样本总数	4898431
维度	41
特征	离散 (int) or 连续 (float)

在用户指南中阅读更多内容。

版本0.18中的新功能。

参数	说明
subset	None, ‘SA’, ‘SF’, ‘http’, ‘smtp’ 返回kddcup 99的相应经典子集。如果为None，则返回整个kddcup 99数据集。
data_home	string, optional 为数据集指定另一个下载和缓存文件夹。默认情况下，所有scikit-learn数据都存储在“〜/ scikit_learn_data”子文件夹中。 ..版本添加::0.19
shuffle	bool, default=False 是否shuffle数据集。
random_state	int, RandomState instance, default=None 如果subset ='SA'，则确定用于数据集shuffle和选择异常样本的随机数生成。为多个函数调用传递可重复输出的int值。请参阅词汇表。
percent10	bool, default=True 是否仅加载10％的数据。
download_if_missing	bool, default=True 如果为False，则在数据不在本地可用时引发IOError，而不是尝试从源站点下载数据。
return_X_y	boolean, default=False. 如果为True，则返回（数据，目标）而不是Bunch对象。有关data和target对象的更多信息，请参见下文。 0.20版中的新功能。

返回值	说明
data	`Bunch` 类字典对象，具有以下属性。 - data:ndarray of shape (494021, 41) 要学习的数据矩阵。 - target:ndarray of shape (494021,) 每个样本的回归目标。 - DESCR:str 数据集的完整描述。
(data, target)	tuple if `return_X_y` is True 0.20版中的新功能。