支持向量机的边际¶
下图显示了参数C对分隔线的影响。 设置较大的C值相当于告诉我们的模型,我们对数据的分布没有太大的信心,只会考虑更接近分隔线的点。
较小的C值包含更多/所有观察值,从而可以使用该区域中的所有数据来计算边距。
输入:
print(__doc__)
# 源代码: Gaël Varoquaux
# 由Jaques Grobler编辑成文档
# 执照: BSD 3 clause
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
# 我们创建40个分离的点
np.random.seed(0)
X = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]
Y = [0] * 20 + [1] * 20
# 图像的编号
fignum = 1
# 拟合模型
for name, penalty in (('unreg', 1), ('reg', 0.05)):
clf = svm.SVC(kernel='linear', C=penalty)
clf.fit(X, Y)
# 得到分割超平面
w = clf.coef_[0]
a = -w[0] / w[1]
xx = np.linspace(-5, 5)
yy = a * xx - (clf.intercept_[0]) / w[1]
# 绘制与穿过支持向量、与分割超平面平行的平行线(边际:在垂直于超平面的方向上,平行线远离超平面的距离)。二维距离垂直方向为sqrt(1 + a ^ 2)。
margin = 1 / np.sqrt(np.sum(clf.coef_ ** 2))
yy_down = yy - np.sqrt(1 + a ** 2) * margin
yy_up = yy + np.sqrt(1 + a ** 2) * margin
# 绘制直线,点和最接近平面的向量
plt.figure(fignum, figsize=(4, 3))
plt.clf()
plt.plot(xx, yy, 'k-')
plt.plot(xx, yy_down, 'k--')
plt.plot(xx, yy_up, 'k--')
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=80,
facecolors='none', zorder=10, edgecolors='k')
plt.scatter(X[:, 0], X[:, 1], c=Y, zorder=10, cmap=plt.cm.Paired,
edgecolors='k')
plt.axis('tight')
x_min = -4.8
x_max = 4.2
y_min = -6
y_max = 6
XX, YY = np.mgrid[x_min:x_max:200j, y_min:y_max:200j]
Z = clf.predict(np.c_[XX.ravel(), YY.ravel()])
# 将结果放入彩色图像
Z = Z.reshape(XX.shape)
plt.figure(fignum, figsize=(4, 3))
plt.pcolormesh(XX, YY, Z, cmap=plt.cm.Paired)
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())
fignum = fignum + 1
plt.show()
脚本的总运行时间:(0分钟0.145秒)