sklearn.datasets.fetch_lfw_pairs¶

sklearn.datasets.fetch_lfw_pairs(*, subset='train', data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True)

[源码]

加载标记过的人脸Wild (LFW) pairs数据集（分类）。

如有必要，请下载。

类	2
样本总数	13233
维度	5828
特征	real, between 0 and 255

在官方的README.txt中，此任务被描述为“受限”任务。由于我不确定如何正确转换为“不受限”状态，因此暂时不支持它。

原始图像为250 x 250像素，但是默认的slice和resize参数将其减小为62 x 47。

在用户指南中阅读更多内容。

参数	说明
subset	optional, default: ‘train’ 选择要加载的数据集：“train”用于开发训练集，“test”用于开发测试集，“ 10_folds”用于官方评估集，该评估集将与10倍交叉验证一起使用。
data_home	optional, default: None 为数据集指定另一个下载和缓存文件夹。默认情况下，所有scikit-learn数据都存储在“〜/ scikit_learn_data”子文件夹中。
funneled	boolean, optional, default: True 下载并使用数据集的漏斗形变体。
resize	float, optional, default 0.5 用于调整每张脸部图片尺寸的比率。
color	boolean, optional, default False 保留3个RGB通道，而不是将它们平均为一个灰度通道。如果color为True，则数据的维度比color = False的维度多一维。
slice_	optional 提供自定义2D切片（高度，宽度）以提取jpeg文件的“interest”部分，并避免使用背景的统计相关性
download_if_missing	optional, True by default 如果为False，则在数据不在本地可用时引发IOError，而不是尝试从源站点下载数据。

返回值说明

data Bunch
类字典对象，具有以下属性。
- data:ndarray of shape (2200, 5828). Shape depends on subset.
每行对应2张原始尺寸为62 x 47像素的散乱的面部图像。更改slice_，调整slice_、resize或subset参数将更改输出的形状。
- pairs:ndarray of shape (2200, 2, 62, 47). Shape depends on subset
每行有2张人脸图像，分别对应于包含5749人的数据集中的相同或不同的人。更改slice_、resize或subset参数将更改输出的形状。
- target:numpy array of shape (2200,). Shape depends on subset.
与每对图像关联的标签。两个标签值是不同的人或相同的人。
- DESCR:string
Wild（LFW）数据集中的带标签的人脸描述。

返回值	说明
data	`Bunch` 类字典对象，具有以下属性。 - data:ndarray of shape (2200, 5828). Shape depends on `subset`. 每行对应2张原始尺寸为62 x 47像素的散乱的面部图像。更改slice_，调整slice_、resize或subset参数将更改输出的形状。 - pairs:ndarray of shape (2200, 2, 62, 47). Shape depends on `subset` 每行有2张人脸图像，分别对应于包含5749人的数据集中的相同或不同的人。更改slice_、resize或subset参数将更改输出的形状。 - target:numpy array of shape (2200,). Shape depends on `subset`. 与每对图像关联的标签。两个标签值是不同的人或相同的人。 - DESCR:string Wild（LFW）数据集中的带标签的人脸描述。