sklearn.datasets.fetch_kddcup99¶
sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False)
加载kddcup99数据集(分类)。
如有必要,请下载。
| 类 | 23 |
|---|---|
| 样本总数 | 4898431 |
| 维度 | 41 |
| 特征 | 离散 (int) or 连续 (float) |
在用户指南中阅读更多内容。
版本0.18中的新功能。
| 参数 | 说明 |
|---|---|
| subset | None, ‘SA’, ‘SF’, ‘http’, ‘smtp’ 返回kddcup 99的相应经典子集。如果为None,则返回整个kddcup 99数据集。 |
| data_home | string, optional 为数据集指定另一个下载和缓存文件夹。 默认情况下,所有scikit-learn数据都存储在“〜/ scikit_learn_data”子文件夹中。 ..版本添加::0.19 |
| shuffle | bool, default=False 是否shuffle数据集。 |
| random_state | int, RandomState instance, default=None 如果subset ='SA',则确定用于数据集shuffle和选择异常样本的随机数生成。 为多个函数调用传递可重复输出的int值。 请参阅词汇表。 |
| percent10 | bool, default=True 是否仅加载10%的数据。 |
| download_if_missing | bool, default=True 如果为False,则在数据不在本地可用时引发IOError,而不是尝试从源站点下载数据。 |
| return_X_y | boolean, default=False. 如果为True,则返回(数据,目标)而不是Bunch对象。有关data和target对象的更多信息,请参见下文。 0.20版中的新功能。 |
| 返回值 | 说明 |
|---|---|
| data | Bunch类字典对象,具有以下属性。 - data:ndarray of shape (494021, 41) 要学习的数据矩阵。 - target:ndarray of shape (494021,) 每个样本的回归目标。 - DESCR:str 数据集的完整描述。 |
| (data, target) | tuple if return_X_y is True0.20版中的新功能。 |



