sklearn.datasets.fetch_kddcup99¶
sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False)
加载kddcup99数据集(分类)。
如有必要,请下载。
类 | 23 |
---|---|
样本总数 | 4898431 |
维度 | 41 |
特征 | 离散 (int) or 连续 (float) |
在用户指南中阅读更多内容。
版本0.18中的新功能。
参数 | 说明 |
---|---|
subset | None, ‘SA’, ‘SF’, ‘http’, ‘smtp’ 返回kddcup 99的相应经典子集。如果为None,则返回整个kddcup 99数据集。 |
data_home | string, optional 为数据集指定另一个下载和缓存文件夹。 默认情况下,所有scikit-learn数据都存储在“〜/ scikit_learn_data”子文件夹中。 ..版本添加::0.19 |
shuffle | bool, default=False 是否shuffle数据集。 |
random_state | int, RandomState instance, default=None 如果subset ='SA',则确定用于数据集shuffle和选择异常样本的随机数生成。 为多个函数调用传递可重复输出的int值。 请参阅词汇表。 |
percent10 | bool, default=True 是否仅加载10%的数据。 |
download_if_missing | bool, default=True 如果为False,则在数据不在本地可用时引发IOError,而不是尝试从源站点下载数据。 |
return_X_y | boolean, default=False. 如果为True,则返回(数据,目标)而不是Bunch对象。有关data和target对象的更多信息,请参见下文。 0.20版中的新功能。 |
返回值 | 说明 |
---|---|
data | Bunch 类字典对象,具有以下属性。 - data:ndarray of shape (494021, 41) 要学习的数据矩阵。 - target:ndarray of shape (494021,) 每个样本的回归目标。 - DESCR:str 数据集的完整描述。 |
(data, target) | tuple if return_X_y is True0.20版中的新功能。 |