sklearn.datasets.fetch_kddcup99

sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False)

[源码]

加载kddcup99数据集(分类)。

如有必要,请下载。

23
样本总数 4898431
维度 41
特征 离散 (int) or 连续 (float)

用户指南中阅读更多内容。

版本0.18中的新功能。

参数 说明
subset None, ‘SA’, ‘SF’, ‘http’, ‘smtp’
返回kddcup 99的相应经典子集。如果为None,则返回整个kddcup 99数据集。
data_home string, optional
为数据集指定另一个下载和缓存文件夹。 默认情况下,所有scikit-learn数据都存储在“〜/ scikit_learn_data”子文件夹中。 ..版本添加::0.19
shuffle bool, default=False
是否shuffle数据集。
random_state int, RandomState instance, default=None
如果subset ='SA',则确定用于数据集shuffle和选择异常样本的随机数生成。 为多个函数调用传递可重复输出的int值。 请参阅词汇表
percent10 bool, default=True
是否仅加载10%的数据。
download_if_missing bool, default=True
如果为False,则在数据不在本地可用时引发IOError,而不是尝试从源站点下载数据。
return_X_y boolean, default=False.
如果为True,则返回(数据,目标)而不是Bunch对象。有关data和target对象的更多信息,请参见下文。

0.20版中的新功能。
返回值 说明
data Bunch
类字典对象,具有以下属性。
- data:ndarray of shape (494021, 41)
要学习的数据矩阵。
- target:ndarray of shape (494021,)
每个样本的回归目标。
- DESCR:str
数据集的完整描述。
(data, target) tuple if return_X_y is True
0.20版中的新功能。