sklearn.datasets.fetch_20newsgroups¶
sklearn.datasets.fetch_20newsgroups(*, data_home=None, subset='train', categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True, return_X_y=False)
从20个新闻组数据集中加载文件名和数据(分类)。
如有必要,请下载。
类 | 20 |
---|---|
样本总数 | 18846 |
维度 | 1 |
特征 | text |
在用户指南中阅读更多内容。
参数 | 说明 |
---|---|
data_home | optional, default: None 指定数据集的下载和缓存文件夹。 如果为None,则所有scikit-learn数据都存储在“〜/scikit_learn_data”子文件夹中。 |
subset | ‘train’ or ‘test’, ‘all’, optional 选择要加载的数据集:“train”用于训练集,“test”用于测试集,“all”用于两者,并按随机顺序排序。 |
categories | None or collection of string or unicode 如果None(默认),则加载所有类别。 如果不是None,则加载类别名称列表(忽略其他类别)。 |
shuffle | bool, optional 是否对数据进行shuffle:对于假设样本是独立且均匀分布(i.i.d.)的模型(例如随机梯度下降)可能很重要。 |
random_state | int, RandomState instance, default=None 确定用于数据集shuffle的随机数生成。 为多个函数调用传递可重复输出的int值。 请参阅术语表。 |
remove | tuple 可以包含(“headers”,“footers”,“quotes”)的任何子集。 这些文本中的每一种都是将被检测到并从新闻组帖子中删除的文本,从而防止分类器过度拟合元数据。 “headers”删除新闻组页眉,“footers”删除帖子结尾处看起来像签名的块,“quotes”删除看起来像是引用另一篇文章的行。 “headers”遵循严格的标准;其他过滤器并不总是如此。 |
download_if_missing | optional, True by default 如果为False,则在数据不在本地可用时引发IOError,而不是尝试从源站点下载数据。 |
return_X_y | bool, default=False. 如果为True,则返回(data.data,data.target)而不是Bunch对象。 0.22版中的新功能。 |
返回值 | 说明 |
---|---|
bunch | Bunch 类字典对象,具有以下属性。 - data:list, length [n_samples] 要学习的数据列表。 - target: array, shape [n_samples] 目标标签。 filenames: list, length [n_samples] 数据位置的路径。 - DESCR: str 数据集的完整描述。 - target_names: list, length [n_classes] 目标类的名称。 |
(data, target) | tuple if return_X_y=True 0.22版中的新功能。 |