sklearn.datasets.load_files¶
sklearn.datasets.load_files(container_path, *, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0)
加载带有类别作为子文件夹名称的文本文件。
假定单个样本是存储在两个级别的文件夹结构中的文件,例如:
container_folder/
category_1_folder/
file_1.txt file_2.txt … file_42.txt
category_2_folder/
file_43.txt file_44.txt …
文件夹名称用作监督信号标签名称。各个文件名并不重要。
此函数不会尝试将特征提取到numpy数组或scipy稀疏矩阵中。 此外,如果load_content为false,则不会尝试将文件加载到内存中。
要在scikit-learn分类或聚类算法中使用文本文件,您将需要使用:mod`〜sklearn.feature_extraction.text`模块来构建适合您问题的特征提取转换器。
如果您设置load_content = True,则还应该使用“ encoding”参数指定文本的编码。对于许多现代文本文件,“ utf-8”将是正确的编码。如果编码等同于None,则内容将由字节而不是Unicode组成,并且您将无法在文本
中使用大多数功能。
应该为其他类型的非结构化数据输入(例如图像,音频,视频等)构建类似的特征提取器。
在用户指南中阅读更多内容。
参数 | 说明 |
---|---|
container_path | string or unicode 主文件夹的路径,每个类别包含一个子文件夹 |
description | string or unicode, optional (default=None) 描述数据集特征的段落:其来源、参考等。 |
categories | A collection of strings or None, optional (default=None) 如果没有(默认),则加载所有类别。 如果不是None,则加载类别名称列表(忽略其他类别)。 |
load_content | bool, optional (default=True) 是否加载不同文件的内容。 如果为true,则在返回的数据结构中包含包含文本信息的‘data’属性。 如果不是,则使用filenames属性提供文件的路径。 |
shuffle | bool, optional (default=True) 是否对数据进行shuffle:对于假设样本是独立且均匀分布(i.i.d.)的模型(例如随机梯度下降)可能很重要。 |
encoding | string or None (default is None) 如果是None,请不要尝试解码文件的内容(例如,图像或其他非文本内容)。 如果不是None,则在load_content为True时用于将文本文件解码为Unicode的编码。 |
decode_error | {‘strict’, ‘ignore’, ‘replace’}, optional 对供分析的包含非给定编码字符的字节序列进行指导。作为关键字参数“errors”传递给bytes.decode。 |
random_state | int, RandomState instance or None, default=0 确定用于数据集shuffle的随机数生成。为多个函数调用传递可重复输出的int值。 请参阅词汇表。 |
返回值 | 说明 |
---|---|
data | Bunch 类字典对象,具有以下属性。 - data:list of str 仅在load_content = True时存在。要学习的原始文本数据。 - target:ndarray 目标标签(整数索引)。 - target_names:list 目标类的名称。 - DESCR:str 数据集的完整描述。 - filenames: ndarray 保存数据集的文件名。 |