sklearn.datasets.fetch_california_housing

sklearn.datasets.fetch_california_housing(*, data_home=None, download_if_missing=True, return_X_y=False, as_frame=False)

[源码]

加载加利福尼亚住房数据集(回归)。

样本总数 20640
维度 8
特征 real
target real 0.15 - 5.

用户指南中阅读更多内容。

参数 说明
data_home optional, default: None
为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在“〜/ scikit_learn_data”子文件夹中。
download_if_missing optional, default=True
如果为False,则在数据不在本地可用时引发IOError,而不是尝试从源站点下载数据。
return_X_y boolean, default=False
如果为True,则返回(data.data,data.target)而不是Bunch对象。
0.20版中的新功能。
as_frame boolean, default=False
如果为True,则数据为pandas DataFrame,其中包含具有适当dtypes(numeric, string 或 categorical)的列。 target是pandas DataFrame还是Series,取决于target_columns的数量。

0.23版中的新功能。
返回值 说明
dataset Bunch
类字典对象,具有以下属性。
- data: ndarray, shape (20640, 8)
每行依次对应8个特征值。 如果as_frame为True,则data为pandas对象。
- target: numpy array of shape (20640,)
每个值对应于以100,000为单位的平均房屋价值。 如果as_frame为True,则target为pandas对象。
- feature_names: list of length 8
数据集中使用的有序要素名称的数组。
- DESCR: string
加州住房数据集的描述。
(data, target) tuple if return_X_y is True
0.20版中的新功能。
frame pandas DataFrame
仅在as_frame = True时存在。 具有data和target的DataFrame。

0.23版中的新功能。

该数据集包含20,640个样本和9个特征。