sklearn.feature_selection.chi2

sklearn.feature_selection.chi2(X, y)

[源码]

计算每个非负特征与类之间的卡方统计量。

该分数可用于从X中选择测试卡方统计量值最高的特征,相对于类,该特征必须仅包含非负特征,例如布尔值或频率(例如,文档分类中的术语计数)。

回想一下,卡方检验可测量随机变量之间的相关性,因此使用此功能可以“淘汰”最有可能与类别无关的特征。

用户指南中阅读更多内容。

参数 说明
X {array-like, sparse matrix} of shape (n_samples, n_features)
样本向量。
y array-like of shape (n_samples,)
目标向量(类标签)。
返回值 说明
chi2 array, shape = (n_features,)
每个特征的chi2统计信息。
pval array, shape = (n_features,)
每个特征的p值。

另见

  • f_classif

    标签和特征之间的ANOVA F值,用于分类任务。

  • f_regression

    回归任务的标签和特征之间的F值。

该算法的复杂度为O(n_classes * n_features)。