k-means学习笔记
2023-04-18 15:28:08 时间
算法思想
k-means算法是一种聚类分析算法,通过不断地迭代求解实现对样本的分类,其中k代表的是样本的类别数。k-means对样本按相似性进行分簇,其基本思想是让簇内的样本点更“紧密”一些,也就是说,让每个样本点到本簇中心的距离更近一些。
算法步骤
- 随机产生k个初始簇中心(或者随机选择k个点作为初始簇中心);
- 对每个点,计算与所有簇中心的距离,将其分配到最近的簇;
- 如果没有点发生分配结果的改变,则结束,否则继续下一步;
- 计算每个簇中所有点坐标的平均值,找到新的簇中心;
- 回到第二步。
注意
- 常用欧式距离作为距离的度量,在计算距离前可以先进行标准化操作。
- 算法的优化目标是使每个样本点到本簇中心的距离的平方和尽量小。
- 每个样本点到本簇中心的距离的平方和也称为误差平方和(SSE),在优化算法中称为损失函数或代价函数。
算法优缺点
优势
- 简单,快速,适合常规数据集。
劣势
-
不同的初始点对结果的影响非常大;
-
k值难确定,普遍情况下需要多次设置k值来比较;
-
复杂与样本数呈线性关系;
-
很难发现任意形状的簇。
算法可视化演示
相关文章
- 【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
- CLB运维&运营最佳实践 ---访问日志大洞察
- vnc方式登陆服务器
- 轻松学排序算法:眼睛直观感受几种常用排序算法
- 十二个经典的大数据项目
- 为什么使用 CDN 内容分发网络?
- 大数据——大数据默认端口号列表
- Weld 1.1.5.Final,JSR-299 的框架
- JavaFX 2012:彻底开源
- 提升as3程序性能的十大要点
- 通过凸面几何学进行独立于边际的在线多类学习
- 利用行动影响的规律性和部分已知的模型进行离线强化学习
- ModelLight:基于模型的交通信号控制的元强化学习
- 浅谈Visual Source Safe项目分支
- 基于先验知识的递归卡尔曼滤波的代理人联合状态和输入估计
- 结合网络结构和非线性恢复来提高声誉评估的性能
- 最佳实践丨云开发CloudBase多环境管理实践
- TimeVAE:用于生成多变量时间序列的变异自动编码器
- 具有线性阈值激活的神经网络:结构和算法
- 内网渗透之横向移动 -- 从域外向域内进行密码喷洒攻击