zl程序教程

您现在的位置是:首页 >  其他

当前栏目

k-means学习笔记

2023-04-18 15:28:08 时间

算法思想

k-means算法是一种聚类分析算法,通过不断地迭代求解实现对样本的分类,其中k代表的是样本的类别数。k-means对样本按相似性进行分簇,其基本思想是让簇内的样本点更“紧密”一些,也就是说,让每个样本点到本簇中心的距离更近一些。

算法步骤

  • 随机产生k个初始簇中心(或者随机选择k个点作为初始簇中心);
  • 对每个点,计算与所有簇中心的距离,将其分配到最近的簇;
  • 如果没有点发生分配结果的改变,则结束,否则继续下一步;
  • 计算每个簇中所有点坐标的平均值,找到新的簇中心;
  • 回到第二步。

注意

  • 常用欧式距离作为距离的度量,在计算距离前可以先进行标准化操作。
  • 算法的优化目标是使每个样本点到本簇中心的距离的平方和尽量小。
  • 每个样本点到本簇中心的距离的平方和也称为误差平方和(SSE),在优化算法中称为损失函数或代价函数。

算法优缺点

优势

  • 简单,快速,适合常规数据集。

劣势

  • 不同的初始点对结果的影响非常大;

  • k值难确定,普遍情况下需要多次设置k值来比较;

  • 复杂与样本数呈线性关系;

  • 很难发现任意形状的簇。

算法可视化演示

k-means的可视化演示