入门

本指南的目的是说明 scikit-learn所提供的一些主要功能。它假定你已经掌握了机器学习基础的知识(模型拟合,预测,交叉验证等)。请参阅我们的安装说明进行scikit-learn安装。

Scikit-learn是一个开源的机器学习库,它支持有监督和无监督的学习。它还提供了用于模型拟合,数据预处理,模型选择和评估以及许多其他实用程序的各种工具。

拟合和预测:估算器基础

Scikit-learn提供了数十种内置的机器学习算法和模型,称为估算器。每个估算器可以使用其拟合方法拟合到一些数据。

这是一个简单的示例,其中我们使用一些非常基本的数据来训练 RandomForestClassifier

>>> from sklearn.ensemble import RandomForestClassifier
>>> clf = RandomForestClassifier(random_state=0)
>>> X = [[ 1,  2,  3],  #2个样本,3个特征
...      [111213]]
>>> y = [01]  #每一个样本的类别
>>> clf.fit(X, y)
RandomForestClassifier(random_state=0)

所述拟合方法通常接受2个输入:

  • 样本矩阵(或设计矩阵)X。X的大小通常为(n_samples, n_features),这意味着样本表示为行,特征表示为列。
  • 目标值y是用于回归任务的真实数字,或者是用于分类的整数(或任何其他离散值)。对于无监督学习,y无需指定。y通常是1d数组,其中i对应于目标X的 第i个样本(行)。

虽然某些估算器可以使用其他格式(例如稀疏矩阵),但是通常,两者Xy预计都是numpy数组或等效的类似 数组的数据类型。

估算器拟合后,可用于预测新数据的目标值。你无需重新训练估算器:

>>> clf.predict(X)  # 预测训练数据的标签
array([01])
>>> clf.predict([[456], [141516]])  # 预测新数据的标签
array([01])

转换器和预处理器

机器学习工作流程通常由不同的部分组成。典型的流水线包括一个转换或插入数据的预处理步骤,以及一个预测目标值的最终预测器。

在中scikit-learn,预处理器和转换器遵循与estimator对象相同的API(实际上它们都继承自同一 BaseEstimator类)。转换对象没有预测方法,但是需要有一个输出新转换的样本矩阵X的转换方法:

>>> from sklearn.preprocessing import StandardScaler
>>> X = [[015],
...      [1-10]]
>>> StandardScaler().fit(X).transform(X)
array([[-1.,  1.],
       [ 1.-1.]])

有时,如果你想要应用不同的转换器去处理不同的特征:ColumnTransformer专为这些用例而设计。

管道:连接预处理器和估算器

可以将转换器和估算器(预测器)组合在一起成为一个统一的对象:一个 Pipeline。这条管道提供相同的API作为常规估算器:它可以用fitpredict来训练和预测。正如我们将在后面看到的,使用管道还可以防止数据泄漏,即在训练数据中泄露一些测试数据。

在以下示例中,我们加载Iris数据集,将其分为训练集和测试集,然后根据测试数据计算管道的准确性得分:

>>> from sklearn.preprocessing import StandardScaler
>>> from sklearn.linear_model import LogisticRegression
>>> from sklearn.pipeline import make_pipeline
>>> from sklearn.datasets import load_iris
>>> from sklearn.model_selection import train_test_split
>>> from sklearn.metrics import accuracy_score
...
>>> # 创建一个pipeline对象
>>> pipe = make_pipeline(
...     StandardScaler(),
...     LogisticRegression(random_state=0)
... )
...
>>> # 加载鸢尾花数据集并将其切分成训练集和测试集
>>> X, y = load_iris(return_X_y=True)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
...
>>> # 训练整个pipeline
>>> pipe.fit(X_train, y_train)
Pipeline(steps=[('standardscaler', StandardScaler()),
                ('logisticregression', LogisticRegression(random_state=0))])
>>> # 我们现在可以像使用其他任何估算器一样使用它
>>> accuracy_score(pipe.predict(X_test), y_test)
0.97...

模型评估

用一些数据来训练模型并不意味着在一些未知的数据上也能预测得很好,这需要直接评估。

将模型拟合到一些数据并不意味着它将在看不见的数据上很好地预测。这需要直接评估。我们刚刚看到了train_test_split函数可以将数据集分为训练集和测试集,但是scikit-learn提供了许多其他模型评估工具,尤其是用于交叉验证的工具

我们在这里简要展示了如何使用cross_validate帮助程序执行5折交叉验证过程。需要注意的是,还可以使用不同的数据拆分策略以及使用自定义评分功能来手动实现遍历。有关更多详细信息,请参阅我们的用户指南

>>> from sklearn.datasets import make_regression
>>> from sklearn.linear_model import LinearRegression
>>> from sklearn.model_selection import cross_validate
...
>>> X, y = make_regression(n_samples=1000, random_state=0)
>>> lr = LinearRegression()
...
>>> result = cross_validate(lr, X, y)  # 默认为5折交叉验证
>>> result['test_score']  # 此处R2得分很高的原因为数据集很简单
array([1.1.1.1.1.])

自动参数搜索

所有估算器都有可以调整的参数(在文献中通常称为超参数)。估算器的泛化能力通常关键取决于几个参数。例如,在随机深林回归器 RandomForestRegressor中,n_estimators参数 确定林中树木数量,max_depth参数确定每棵树的最大深度。通常,这些参数的确切值是多少我们都不太清楚,因为它们取决于手头的数据。

Scikit-learn提供了自动查找最佳参数组合的工具(通过交叉验证)。在以下示例中,我们使用 RandomizedSearchCV对象随机搜索随机森林的参数空间。搜索结束后,RandomizedSearchCV的表现就像是已经训练好最佳参数集的RandomForestRegressor。在用户指南中可以阅读更多内容:

>>> from sklearn.datasets import fetch_california_housing
>>> from sklearn.ensemble import RandomForestRegressor
>>> from sklearn.model_selection import RandomizedSearchCV
>>> from sklearn.model_selection import train_test_split
>>> from scipy.stats import randint
...
>>> X, y = fetch_california_housing(return_X_y=True)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
...
>>> # 定义要搜索的参数空间
>>> param_distributions = {'n_estimators': randint(15),
...                        'max_depth': randint(510)}
...
>>> # 现在创建一个searchCV 对象然后用数据训练它
>>> search = RandomizedSearchCV(estimator=RandomForestRegressor(random_state=0),
...                             n_iter=5,
...                             param_distributions=param_distributions,
...                             random_state=0)
>>> search.fit(X_train, y_train)
RandomizedSearchCV(estimator=RandomForestRegressor(random_state=0), n_iter=5,
                   param_distributions={'max_depth': ...,
                                        'n_estimators': ...},
                   random_state=0)
>>> search.best_params_
{'max_depth'9'n_estimators'4}

>>> # 搜索对象现在就像普通的随机森林估计器一样
>>> # max_depth=9 和 n_estimators=4
>>> search.score(X_test, y_test)
0.73...

注意
在实践中,你几乎总是想要用搜索管道,而不是单个估计器。一个主要原因是,如果在不使用pipeline的情况下对整个数据集应用预处理步骤,然后执行任何类型的交叉验证,那么你将打破训练和测试数据之间独立性的基本假设。实际上,由于你使用了整个数据集对数据进行了预处理,因此有关测试集的一些信息可用于训练集。这将导致高估估算器的泛化能力(你可以在此Kaggle帖子中阅读更多内容)。
 使用管道进行交叉验证和搜索将在很大程度上避免遇到这个常见的陷阱。

下一步

我们简要介绍了估算器的拟合和预测,预处理步骤,管道,交叉验证工具以及自动超参数搜索。本指南应概述该库的一些主要功能,但对于scikit-learn来说还有更多内容!

有关我们提供的所有工具的详细信息,请参阅我们的用户指南。你还可以在[API参考中](https://scikit-learn.org.cn/lists/3.html找到公共API的详尽列表 。

还可以查看我们的无数示例,这些示例说明了scikit-learn在许多不同内容中的用法。

这些教程还包含其他学习资源。