sklearn.datasets.fetch_openml

sklearn.datasets.fetch_openml(name=None, *, version='active', data_id=None, data_home=None, target_column='default-target', cache=True, return_X_y=False, as_frame=False)

[源码]

通过名称或数据集ID从openml获取数据集。

数据集通过整数ID或名称和版本的组合(即“ iris”数据集可能有多个版本)进行唯一标识。 请输入名称或data_id(不能同时输入两者)。 如果提供了名称,也可以提供版本。

用户指南中阅读更多内容。

0.20版中的新功能。

注意: 试验性

该API是试验性(尤其是返回值结构),并且在将来的发行版中可能会有小的向后不兼容的更改。

参数 说明
name str or None
数据集的字符串标识符。 请注意,OpenML可以具有多个具有相同名称的数据集。
version integer or ‘active’, default=’active’
数据集的版本。 仅当提供名称时才能提供。 如果为“active”,则使用仍处于活动状态的最旧版本。 由于一个数据集可能有多个活动版本,并且这些版本在根本上可能彼此不同,因此强烈建议设置一个确切的版本。
data_id int or None
数据集的OpenML ID。检索数据集的最具体方法。如果未提供data_id,则使用名称(和可能的版本)获取数据集。
data_home string or None, default None
为数据集指定另一个下载和缓存文件夹。 默认情况下,所有scikit-learn数据都存储在“〜/ scikit_learn_data”子文件夹中。
target_column string, list or None, default ‘default-target’
在数据中指定要用作目标的列名。 如果为“default-target”,则使用服务器上存储的标准目标列a。 如果为None,则所有列均作为数据返回,并且目标为None。 如果使用列表(字符串),则将所有具有这些名称的列作为多目标返回(注意:并非所有scikit-learn分类器都可以处理所有类型的多输出组合)
cache boolean, default=True
是否使用joblib缓存下载的数据集。
return_X_y boolean, default=False.
如果为True,则返回(data, target)而不是Bunch对象。 有关data和target对象的更多信息,请参见下文。
as_frame boolean, default=False
如果为True,则数据为pandas DataFrame,其中包含具有适当dtypes(numeric, string 或 categorical)的列。target是pandas DataFrame还是Series,取决于target_columns的数量。 Bunch将包含带有目标和数据的frame属性。如果return_X_y为True,则(data, target)将是如上所述的pandas DataFrames或Series。
返回值 说明
data Bunch
类字典对象,具有以下属性。
- data:np.array, scipy.sparse.csr_matrix of floats, or pandas DataFrame
特征矩阵。分类特征被编码为序数。
- target:np.array, pandas Series or DataFrame
回归target或分类标签(如适用)。 如果是numeric类型,则Dtype为float;如果是categorical,则为object。 如果as_frame为True,则target为pandas对象。
- DESCR:str
数据集的完整描述
- feature_name:slist
数据集列的名称
- target_names:list
目标列的名称
0.22版中的新功能。
- categories:dict or None
将每个分类要素名称映射到值列表,以使编码为i的值在列表中成为第i个。 如果as_frame为True,则为None。
- details:dict
来自OpenML的更多元数据
- frame:pandas DataFrame
仅在as_frame = True时存在。 具有data和target的DataFrame。
(data, target) tuple if return_X_y is True
注意:试验性
此接口是
试验性的
,后续发行版可能会更改属性,恕不另行通知(尽管对data和target的更改应该很小)。

“data”中缺少的值表示为NaN。 “target”中的缺失值表示为NaN(numerical target)或“无”(categorical target)