sklearn.datasets.fetch_california_housing¶
sklearn.datasets.fetch_california_housing(*, data_home=None, download_if_missing=True, return_X_y=False, as_frame=False)
加载加利福尼亚住房数据集(回归)。
样本总数 | 20640 |
---|---|
维度 | 8 |
特征 | real |
target | real 0.15 - 5. |
在用户指南中阅读更多内容。
参数 | 说明 |
---|---|
data_home | optional, default: None 为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在“〜/ scikit_learn_data”子文件夹中。 |
download_if_missing | optional, default=True 如果为False,则在数据不在本地可用时引发IOError,而不是尝试从源站点下载数据。 |
return_X_y | boolean, default=False 如果为True,则返回(data.data,data.target)而不是Bunch对象。 0.20版中的新功能。 |
as_frame | boolean, default=False 如果为True,则数据为pandas DataFrame,其中包含具有适当dtypes(numeric, string 或 categorical)的列。 target是pandas DataFrame还是Series,取决于target_columns的数量。 0.23版中的新功能。 |
返回值 | 说明 |
---|---|
dataset | Bunch 类字典对象,具有以下属性。 - data: ndarray, shape (20640, 8) 每行依次对应8个特征值。 如果as_frame为True,则data为pandas对象。 - target: numpy array of shape (20640,) 每个值对应于以100,000为单位的平均房屋价值。 如果as_frame为True,则target为pandas对象。 - feature_names: list of length 8 数据集中使用的有序要素名称的数组。 - DESCR: string 加州住房数据集的描述。 |
(data, target) | tuple if return_X_y is True0.20版中的新功能。 |
frame | pandas DataFrame 仅在as_frame = True时存在。 具有data和target的DataFrame。 0.23版中的新功能。 |
注
该数据集包含20,640个样本和9个特征。