sklearn.datasets.fetch_20newsgroups_vectorized¶
sklearn.datasets.fetch_20newsgroups_vectorized(*, subset='train', remove=(), data_home=None, download_if_missing=True, return_X_y=False, normalize=True)
加载20个新闻组数据集并将其向量化为令牌计数(分类)。
如有必要,请下载。
这是一种便利功能; 转换是使用sklearn.feature_extraction.text.CountVectorizer的默认设置完成的。 对于更高级的用法(停用词过滤,n-gram提取等),请将fetch_20newsgroups与自定义组合
sklearn.feature_extraction.text.CountVectorizer, sklearn.feature_extraction.text.HashingVectorizer, sklearn.feature_extraction.text.TfidfTransformer 或者 sklearn.feature_extraction.text.TfidfVectorizer.
除非将normalize设置为False,否则使用sklearn.preprocessing.normalize对结果计数进行标准化。
| 类 | 20 |
|---|---|
| 样本总数 | 18846 |
| 维度 | 130107 |
| 特征 | real |
在用户指南中阅读更多内容。
| 参数 | 说明 |
|---|---|
| subset | ‘train’ or ‘test’, ‘all’, optional 选择要加载的数据集:“train”用于训练集,“test”用于测试集,“all”用于两者,并按随机顺序排序。 |
| remove | tuple 可以包含(“headers”,“footers”,“quotes”)的任何子集。 这些文本中的每一种都是将被检测到并从新闻组帖子中删除的文本,从而防止分类器过度适合元数据。 “headers”删除新闻组页眉,“footers”删除帖子结尾处看起来像签名的块,“quotes”删除看起来像是引用另一篇文章的行。 |
| data_home | optional, default: None 指定数据集的下载和缓存文件夹。 如果为None,则所有scikit-learn数据都存储在“〜/ scikit_learn_data”子文件夹中。 |
| download_if_missing | optional, True by default 如果为False,则在数据不在本地可用时引发IOError,而不是尝试从源站点下载数据。 |
| return_X_y | bool, default=False 如果为True,则返回(data.data,data.target)而不是Bunch对象。 0.20版中的新功能。 |
| normalize | bool, default=True 如果为True,则使用 sklearn.preprocessing.normalize将每个文档的特征向量标准化为单位范数。0.22版中的新功能。 |
| 返回值 | 说明 |
|---|---|
| bunch | Bunch类字典对象,具有以下属性。 - data: sparse matrix, shape [n_samples, n_features] 要学习的数据矩阵。 - target: array, shape [n_samples] 目标标签。 - target_names: list, length [n_classes] 目标类的名称。 - DESCR: str 数据集的完整描述。 |
| (data, target) | tuple if return_X_y is True0.20版中的新功能。 |



