本文共 1448 字,大约阅读时间需要 4 分钟。
Mean-shift 是一种基于均值迁移的无监督学习聚类算法,由 Fukunage 在 1975 年提出。该算法通过迭代优化聚类中心,最终确定数据密度最大的区域。Yizong Cheng 在 1983 年扩展了该算法,引入核函数和权重系数,使其在图像处理、聚类等领域得到了广泛应用。
算法核心在于不断寻找新的圆心坐标,直到密度最大的区域确定。此外,圆心的选择和半径的确定将直接影响算法效率。
在 Scikit-learn 中,sklearn.cluster Meanshift 提供了该算法的实现。主要参数包括:
sklearn.cluster.estimate_bandwidth 计算。False,可加速算法。主要属性:
cluster_centers_:聚类中心坐标数组。labels_:分类标签数组。Spectral Clustering 是一种基于图论的聚类方法,其核心思想是通过特征向量进行聚类,能够识别任意形状的样本空间。该算法将样本看作顶点,样本间的相似度作为边权重,帮助找到最优图分割。
将样本间的相似度转换为图的边权重,然后通过特征分解得到特征向量,最终确定聚类中心。
Hierarchical Clustering 再次分解数据,将其分类到不同的层次,直到满足终止条件(如数据收敛或达到预定聚类数)。主要分为两类:
DBSCAN 是一种基于密度的空间聚类算法,定义一个核心点组为一个聚类。核心点需满足点密度超过设定阈值(通常通过 eps 和 min_samples 确定)。
主要参数:
Birch 算法通过层次聚类,逐层减少数据量,找到聚类结构。其核心思想是构建特征树,叶子节点即聚类中心。
主要参数:
GMM 不是传统聚类算法,而是概率模型,基于多高斯分布近似数据分布。每个高斯分布代表一个聚类。
主要参数:
full。以上算法各具特色,适用于不同应用场景。选择哪种方法需根据具体需求考量。
转载地址:http://toaaz.baihongyu.com/