sklearn.feature_selection.chi2¶
sklearn.feature_selection.chi2(X, y)
计算每个非负特征与类之间的卡方统计量。
该分数可用于从X中选择测试卡方统计量值最高的特征,相对于类,该特征必须仅包含非负特征,例如布尔值或频率(例如,文档分类中的术语计数)。
回想一下,卡方检验可测量随机变量之间的相关性,因此使用此功能可以“淘汰”最有可能与类别无关的特征。
在用户指南中阅读更多内容。
参数 | 说明 |
---|---|
X | {array-like, sparse matrix} of shape (n_samples, n_features) 样本向量。 |
y | array-like of shape (n_samples,) 目标向量(类标签)。 |
返回值 | 说明 |
---|---|
chi2 | array, shape = (n_features,) 每个特征的chi2统计信息。 |
pval | array, shape = (n_features,) 每个特征的p值。 |
另见
标签和特征之间的ANOVA F值,用于分类任务。
回归任务的标签和特征之间的F值。
注
该算法的复杂度为O(n_classes * n_features)。