sklearn.cluster.compute_optics_graph¶
sklearn.cluster.compute_optics_graph(X, *, min_samples, max_eps, metric, p, metric_params, algorithm, leaf_size, n_jobs)
计算OPTICS可达图
在用户指南中阅读更多内容。
参数 | 列表 |
---|---|
X | array, shape (n_samples, n_features), or (n_samples, n_samples) if metric=’precomputed’ 如果metric=’precomputed’,则是特征数组,或样本之间的距离数组 |
min_samples | int > 1 or float between 0 and 1 (default=5) 一个点被视为核心点的邻域样本数。此外,上下陡峭地区不能有超过 min_samples 连续的非陡峭点。表示为样本数的绝对值或一小部分(四舍五入至少为2)。 |
max_eps | float, optional (default=np.inf) 两个样本之间的最大距离,其中一个被视为另一个样本的邻域。 np.inf 默认值将识别所有规模的聚类;减少max_eps 会缩短运行时间。 |
metric | str or callable, optional (default=’minkowski’) 用于距离计算的度量。任何来自scikit-learn或scipy.spatial.distance的度量都可以使用。 如果度量是可调用的函数,则在每对实例(行)上调用它,并记录结果值。可调用应该以两个数组作为输入,并返回一个值,指示它们之间的距离。这适用于Scipy’s度量,但比将度量名称作为字符串传递的效率要低。如果度量是“precomputed”,则假定X是距离矩阵,并且必须是平方的。 度量的有效值是: scikit-learn里面:[‘cityblock’, ‘cosine’, ‘euclidean’, ‘l1’, ‘l2’, ‘manhattan’] scipy.spatial.distance里面:[‘braycurtis’, ‘canberra’, ‘chebyshev’, ‘correlation’, ‘dice’, ‘hamming’, ‘jaccard’, ‘kulsinski’, ‘mahalanobis’, ‘minkowski’, ‘rogerstanimoto’, ‘russellrao’, ‘seuclidean’, ‘sokalmichener’, ‘sokalsneath’, ‘sqeuclidean’, ‘yule’] 有关这些度量的详细信息,请参阅scipy.spatial.distance的文档。 |
p | int, optional (default=2) 来自 sklearn.metrics.pairwise_distances 的Minkowski度量的参数。当p=1时,这相当于使用曼哈顿距离(L1); 当p=2, 相当于使用欧几里得距离(L2)。对于任意p,使用minkowski_distance (l_p)。 |
metric_params | dict, optional (default=None) 度量函数的附加关键字参数。 |
algorithm | {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, optional 用于计算最近邻居的算法: - ‘ball_tree’将会使用 BallTree - ‘kd_tree’将会使用 KDtree - ‘brute’将会使用蛮力搜索 - ‘auto’将尝试根据传递给 fit 方法的值来确定最合适的算法。(默认)注意:拟合稀疏输入将覆盖此参数的设置,使用蛮力法。 |
leaf_size | int, optional (default=30) 传递给 BallTree 或者 KDTree 。这会影响构造和查询的速度,以及存储树所需的内存。最优值取决于问题的性质。 |
n_jobs | int or None, optional (default=None) 要为邻居搜索的并行作业数。None 意味1, 除非在joblib.parallel_backend 环境中。-1 指使用所有处理器。有关详细信息,请参Glossary。 |
属性 | 说明 |
---|---|
ordering_ | array, shape (n_samples,) 样本索引的聚类排序列表。 |
core_distances_ | array, shape (n_samples,) 每个样本成为一个核心点的距离,按对象顺序索引。有一个inf的距离点永远不会成为核心。使用 clust.core_distances_[clust.ordering_] 按聚类排序进行访问。 |
reachability_ | array, shape (n_samples,) 每个样本的可达距离,按对象顺序索引。使用clust.achaability_[clust.order_] 按聚类顺序访问。 |
predecessor_ | array, shape (n_samples,) 指出一个样本是从中得到的,并按对象顺序进行索引。种子点有-1的前身。 |
参考
1 Ankerst, Mihael, Markus M. Breunig, Hans-Peter Kriegel, and Jörg Sander. “OPTICS: ordering points to identify the clustering structure.” ACM SIGMOD Record 28, no. 2 (1999): 49-60.