sklearn.datasets.fetch_openml¶
sklearn.datasets.fetch_openml(name=None, *, version='active', data_id=None, data_home=None, target_column='default-target', cache=True, return_X_y=False, as_frame=False)
通过名称或数据集ID从openml获取数据集。
数据集通过整数ID或名称和版本的组合(即“ iris”数据集可能有多个版本)进行唯一标识。 请输入名称或data_id(不能同时输入两者)。 如果提供了名称,也可以提供版本。
在用户指南中阅读更多内容。
0.20版中的新功能。
注意: 试验性
该API是试验性(尤其是返回值结构),并且在将来的发行版中可能会有小的向后不兼容的更改。
参数 | 说明 |
---|---|
name | str or None 数据集的字符串标识符。 请注意,OpenML可以具有多个具有相同名称的数据集。 |
version | integer or ‘active’, default=’active’ 数据集的版本。 仅当提供名称时才能提供。 如果为“active”,则使用仍处于活动状态的最旧版本。 由于一个数据集可能有多个活动版本,并且这些版本在根本上可能彼此不同,因此强烈建议设置一个确切的版本。 |
data_id | int or None 数据集的OpenML ID。检索数据集的最具体方法。如果未提供data_id,则使用名称(和可能的版本)获取数据集。 |
data_home | string or None, default None 为数据集指定另一个下载和缓存文件夹。 默认情况下,所有scikit-learn数据都存储在“〜/ scikit_learn_data”子文件夹中。 |
target_column | string, list or None, default ‘default-target’ 在数据中指定要用作目标的列名。 如果为“default-target”,则使用服务器上存储的标准目标列a。 如果为None,则所有列均作为数据返回,并且目标为None。 如果使用列表(字符串),则将所有具有这些名称的列作为多目标返回(注意:并非所有scikit-learn分类器都可以处理所有类型的多输出组合) |
cache | boolean, default=True 是否使用joblib缓存下载的数据集。 |
return_X_y | boolean, default=False. 如果为True,则返回(data, target)而不是Bunch对象。 有关data和target对象的更多信息,请参见下文。 |
as_frame | boolean, default=False 如果为True,则数据为pandas DataFrame,其中包含具有适当dtypes(numeric, string 或 categorical)的列。target是pandas DataFrame还是Series,取决于target_columns的数量。 Bunch将包含带有目标和数据的frame属性。如果return_X_y为True,则(data, target)将是如上所述的pandas DataFrames或Series。 |
返回值 | 说明 |
---|---|
data | Bunch 类字典对象,具有以下属性。 - data:np.array, scipy.sparse.csr_matrix of floats, or pandas DataFrame 特征矩阵。分类特征被编码为序数。 - target:np.array, pandas Series or DataFrame 回归target或分类标签(如适用)。 如果是numeric类型,则Dtype为float;如果是categorical,则为object。 如果as_frame为True,则target为pandas对象。 - DESCR:str 数据集的完整描述 - feature_name:slist 数据集列的名称 - target_names:list 目标列的名称 0.22版中的新功能。 - categories:dict or None 将每个分类要素名称映射到值列表,以使编码为i的值在列表中成为第i个。 如果as_frame为True,则为None。 - details:dict 来自OpenML的更多元数据 - frame:pandas DataFrame 仅在as_frame = True时存在。 具有data和target的DataFrame。 |
(data, target) | tuple if return_X_y is True注意:试验性 此接口是试验性的,后续发行版可能会更改属性,恕不另行通知(尽管对data和target的更改应该很小)。 |
“data”中缺少的值表示为NaN。 “target”中的缺失值表示为NaN(numerical target)或“无”(categorical target)