sklearn.datasets.load_breast_cancer¶

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)

[源码]

加载并返回乳腺癌威斯康星州数据集（分类）。

乳腺癌数据集是经典且非常容易的二进制分类数据集。

类	2
每类样本数	212(M),357(B)
样本总数	569
维度	30
特征	real, positive

在用户指南中阅读更多内容。

参数	说明
return_X_y	bool, default=False 如果为True，则返回(data, target)而不是Bunch对象。有关data和target对象的更多信息，请参见下文。版本0.18中的新功能。
as_frame	bool, default=False 如果为True，则数据为pandas DataFrame，其中包含具有适当dtypes（numeric）的列。target是pandas DataFrame还是Series，取决于目标列的数量。如果return_X_y为True，则（data,target）为pandas DataFrame或Series，如下所述。 0.23版中的新功能。

返回值说明

data Bunch
类字典对象，具有以下属性。
- data{ndarray, dataframe} of shape (569, 30)
数据矩阵。如果as_frame = True，则data为pandas DataFrame。
- target: {ndarray, Series} of shape (569,)
分类target。如果as_frame = True，target为pandas系列。
- feature_names: list
数据集的列名称。
- target_names: list
目标类的名称。
- frame: DataFrame of shape (569, 31)
仅在as_frame = True时存在。具有data和target的DataFrame。
0.23版的新功能。
- DESCR: str
数据集的完整描述。
- filename: str
数据位置的路径。

0.20版的新功能。

(data, target) tuple if return_X_y is True
0.18版的新功能。

返回值	说明
data	`Bunch` 类字典对象，具有以下属性。 - data{ndarray, dataframe} of shape (569, 30) 数据矩阵。如果as_frame = True，则data为pandas DataFrame。 - target: {ndarray, Series} of shape (569,) 分类target。如果as_frame = True，target为pandas系列。 - feature_names: list 数据集的列名称。 - target_names: list 目标类的名称。 - frame: DataFrame of shape (569, 31) 仅在as_frame = True时存在。具有data和target的DataFrame。 0.23版的新功能。 - DESCR: str 数据集的完整描述。 - filename: str 数据位置的路径。 0.20版的新功能。
(data, target)	tuple if `return_X_y` is True 0.18版的新功能。

UCI ML乳腺癌威斯康星州（诊断）数据集的副本是从以下位置下载：

https://goo.gl/U2Uwz2

示例

假设您对样本10、50和85感兴趣，并想知道它们的类名。

>>> from sklearn.datasets import load_breast_cancer
>>> data = load_breast_cancer()
>>> data.target[[10, 50, 85]]
array([0, 1, 0])
>>> list(data.target_names)
['malignant', 'benign']

sklearn.datasets.load_breast_cancer使用示例¶

具有多重共线性或相关特征的置换重要性 ¶

具有成本复杂度的后剪枝决策树 ¶