sklearn.datasets.fetch_20newsgroups_vectorized¶

sklearn.datasets.fetch_20newsgroups_vectorized(*, subset='train', remove=(), data_home=None, download_if_missing=True, return_X_y=False, normalize=True)

[源码]

加载20个新闻组数据集并将其向量化为令牌计数（分类）。

如有必要，请下载。

这是一种便利功能；转换是使用sklearn.feature_extraction.text.CountVectorizer的默认设置完成的。对于更高级的用法（停用词过滤，n-gram提取等），请将fetch_20newsgroups与自定义组合

sklearn.feature_extraction.text.CountVectorizer, sklearn.feature_extraction.text.HashingVectorizer, sklearn.feature_extraction.text.TfidfTransformer 或者 sklearn.feature_extraction.text.TfidfVectorizer.

除非将normalize设置为False，否则使用sklearn.preprocessing.normalize对结果计数进行标准化。

类	20
样本总数	18846
维度	130107
特征	real

在用户指南中阅读更多内容。

参数	说明
subset	‘train’ or ‘test’, ‘all’, optional 选择要加载的数据集：“train”用于训练集，“test”用于测试集，“all”用于两者，并按随机顺序排序。
remove	tuple 可以包含（“headers”，“footers”，“quotes”）的任何子集。这些文本中的每一种都是将被检测到并从新闻组帖子中删除的文本，从而防止分类器过度适合元数据。 “headers”删除新闻组页眉，“footers”删除帖子结尾处看起来像签名的块，“quotes”删除看起来像是引用另一篇文章的行。
data_home	optional, default: None 指定数据集的下载和缓存文件夹。如果为None，则所有scikit-learn数据都存储在“〜/ scikit_learn_data”子文件夹中。
download_if_missing	optional, True by default 如果为False，则在数据不在本地可用时引发IOError，而不是尝试从源站点下载数据。
return_X_y	bool, default=False 如果为True，则返回（data.data，data.target）而不是Bunch对象。 0.20版中的新功能。
normalize	bool, default=True 如果为True，则使用`sklearn.preprocessing.normalize`将每个文档的特征向量标准化为单位范数。 0.22版中的新功能。

返回值	说明
bunch	`Bunch` 类字典对象，具有以下属性。 - data: sparse matrix, shape [n_samples, n_features] 要学习的数据矩阵。 - target: array, shape [n_samples] 目标标签。 - target_names: list, length [n_classes] 目标类的名称。 - DESCR: str 数据集的完整描述。
(data, target)	tuple if `return_X_y` is True 0.20版中的新功能。

sklearn.datasets.fetch_20newsgroups_vectorized使用示例¶

模型复杂度影响 ¶

在20newgroups上的多类系数逻辑回归 ¶

Johnson-Lindenstrauss绑定嵌入随机投影 ¶