您现在的位置是：首页 > 后端

当前栏目

K-Means ++ 算法

算法 ++ Means

2023-09-11 14:16:04 时间

Kmeans算法的缺陷： • 聚类中心的个数K 需要事先给定，但在实际中这个 K 值的选定是非常难以估计的，很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适• Kmeans需要人为地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果。（可以使用Kmeans++算法来解决）

Kmeans算法的缺陷：

• 聚类中心的个数K 需要事先给定，但在实际中这个 K 值的选定是非常难以估计的，很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适
• Kmeans需要人为地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果。（可以使用Kmeans++算法来解决）

K-Means ++ 算法：

k-means++算法选择初始seeds的基本思想就是：初始的聚类中心之间的相互距离要尽可能的远。

1. 从输入的数据点集合中随机选择一个点作为第一个聚类中心
2. 对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)
3. 选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大
4. 重复2和3直到k个聚类中心被选出来
5. 利用这k个初始的聚类中心来运行标准的k-means算法

从上面的算法描述上可以看到，算法的关键是第3步，如何将D(x)反映到点被选择的概率上，一种算法如下：

1. 先从我们的数据库随机挑个随机点当“种子点”
2. 对于每个点，我们都计算其和最近的一个“种子点”的距离D(x)并保存在一个数组里，然后把这些距离加起来得到Sum(D(x))。
3. 然后，再取一个随机值，用权重的方式来取计算下一个“种子点”。这个算法的实现是，先取一个能落在Sum(D(x))中的随机值Random，然后用Random -= D(x)，直到其 =0，此时的点就是下一个“种子点”。
4. 重复2和3直到k个聚类中心被选出来
5. 利用这k个初始的聚类中心来运行标准的k-means算法

可以看到算法的第三步选取新中心的方法，这样就能保证距离D(x)较大的点，会被选出来作为聚类中心了。至于为什么原因比较简单，如下图所示：

假设A、B、C、D的D(x)如上图所示，当算法取值Sum(D(x))*random时，该值会以较大的概率落入D(x)较大的区间内，所以对应的点会以较大的概率被选中作为新的聚类中心。

秒懂算法 | 基于K-Means算法的汽车行驶运动学片段的分类汽车在行进过程中会产生连续的一组数据，包含加速度，速度等参数，汽车形式运动学片段是指是从一个怠速开始到下一个怠速开始之间的运动行程，通常包括一个怠速部分和一个行驶部分。而怠速指的是汽车停止运动，但发动机保持最低转速运转的连续过程。行驶部分通常包含加速、巡航和减速三种运动模式。

猜你喜欢

H3C 不同匹配顺序导致结果不同
【bzoj3943】[Usaco2015 Feb]SuperBull 最小生成树
A. Nearest Common Ancestors
《Tableau数据可视化实战》——1.2节连接文本文件
Leetcode: Add Two Numbers II
navicat premium连接Oracle几个步骤
迷宫问题 | 深度优先
达里奥：典型的去杠杆化过程是怎么进行的zz
iptables典型NAT上网
BNUOJ 3226 Godfather
javascript解决小数的加减乘除精度丢失的方案
docker下开发，修改环境变量启动jetty
通信的本质是报文的定义与解释机制
C语言程序设计100例之（50）：向下的路径
《计算机系统：系统架构与操作系统的高度集成》——1.7　本书导读

相关主题

几个算法题
后向算法
算法 - KMP算法
算法体系

zl程序教程

当前栏目

K-Means ++ 算法

相关文章