sklearn.utils.check_X_y¶

sklearn.utils.check_X_y(X, y, accept_sparse=False, *, accept_large_sparse=True, dtype='numeric', order=None, copy=False, force_all_finite=True, ensure_2d=True, allow_nd=False, multi_output=False, ensure_min_samples=1, ensure_min_features=1, y_numeric=False, estimator=None)

源码

标准估算器的输入验证。

检查X和y的长度是否一致，强制X为2Dy并且为1D。默认情况下，X被检查为非空且仅包含有限值。标准输入检查也应用于y，例如检查是否有np.nan或np.inf。对于多标签y，设置multi_output = True表示允许2D和稀疏y。如果X的dtype是object，请尝试将其转换为float，如果失败则会报错。

参数	说明
X	nd-array, list or sparse matrix 输入数据
y	nd-array, list or sparse matrix 标签
accept_sparse	string, boolean or list of string (default=False) 表示允许稀疏矩阵格式的字符串，如csc, csr等。如果输入是稀疏的，但不是允许的格式，它将被转换为第一种列出的格式。True允许输入任何格式。False表示如果是稀疏矩阵输入会产生错误。
accept_large_sparse	bool (default=True) 如果提供了CSR，CSC，COO或BSR稀疏矩阵并被accept_sparse接受，则accept_large_sparse仅当其索引为32位dtype存储时才会被接受。是0.20版中的新功能。
dtype	string, type, list of types or None (default=”numeric”) 返回结果的数据类型。如果为None，则保留输入的dtype。如果为“ numeric”，则除非array.dtype是object，否则将保留dtype。如果dtype是类型列表，则仅当输入的dtype不在列表中时，才对第一个类型进行转换。
order	‘F’, ‘C’ or None (default=None) 设置数组将被强制为fortran还是c样式
copy	boolean (default=False) 是否触发强制复制。如果copy = False，则转换可能会触发复制。
force_all_finite	boolean or ‘allow-nan’, (default=True) 是否在X为np.inf，np.nan，pd.NA时引发错误。可能性为： True：强制X的所有值都是有限制的。 False：在X中接受np.inf，np.nan，pd.NA。 “ allow-nan”：仅接受X中的np.nan和pd.NA值。值不能为无限的。 0.20版中的新功能：force_all_finite接受字符串“ allow-nan”。在版本0.23中更改：接受pd.NA并将其转换为np.nan
ensure_2d	boolean (default=True) 如果X不是2D，是否引发值错误。
allow_nd	boolean (default=False) 是否允许X.ndim> 2。
multi_output	boolean (default=False) 是否允许2D y（数组或稀疏矩阵）。如果为false，则y将被验证为向量。如果multi_output = True，则y不能具有np.nan或np.inf值。
ensure_min_samples	int (default=1) 确保X在其第一个轴上具有最少数量的样本（二维数组的行）。
ensure_min_features	int (default=1) 确保2D阵列具有最少数量的特征（列）。默认值1表示拒绝空数据集。仅当X有效具有2维或最初为1D并确保2d为True时，才强制执行此检查。设置为0将禁用此检查。
y_numeric	boolean (default=False) 是否确保y为数字类型。如果y的dtype是object，则将其转换为float64。仅应用于回归算法。
estimator	str or estimator instance (default=None) 如果通过，则在警告消息中包括估计器的名称。

返回值	说明
X_converted	object 转换并验证的X。
y_converted	object 转换并验证的y。