您现在的位置是：首页 > 其他

当前栏目

数据挖掘领域十大经典算法之—K-Means算法（超详细附代码）

算法领域代码

2023-03-09 22:00:05 时间

k-means算法比较简单。在k-means算法中，用cluster来表示簇;容易证明k-means算法收敛等同于所有质心不再发生变化。基本的k-means算法流程如下：

简介

又叫K-均值算法，是非监督学习中的聚类算法。

基本思想

k-means算法比较简单。在k-means算法中，用cluster来表示簇;容易证明k-means算法收敛等同于所有质心不再发生变化。基本的k-means算法流程如下：

选取k个初始质心(作为初始cluster，每个初始cluster只包含一个点);

repeat：

对每个样本点，计算得到距其最近的质心，将其类别标为该质心所对应的cluster;
重新计算k个cluster对应的质心(质心是cluster中样本点的均值);
until 质心不再发生变化 12345

repeat的次数决定了算法的迭代次数。实际上，k-means的本质是最小化目标函数，目标函数为每个点到其簇质心的距离的平方和：

N是元素个数，x表示元素，c(j)表示第j簇的质心
算法复杂度
时间复杂度是O(nkt) ,其中n代表元素个数，t代表算法迭代的次数，k代表簇的数目

优缺点

优点
简单、快速;
对大数据集有较高的效率并且是可伸缩性的;
时间复杂度近于线性，适合挖掘大规模数据集。

缺点

k-means是局部***，因而对初始质心的选取敏感;
选择能达到目标函数***的k值是非常困难的。

代码

代码已在github上实现，这里也贴出来

测试数据集获取地址为testSet

猜你喜欢

Python Decorator基础
2019中国大数据产业布局及发展趋势预测
制造业企业中台建设思考与实践
打破机器学习中的小数据集诅咒
从指向看JavaScript中的难点
给Python小白看的10个使用案例，入门Python就在这里了
2017，最受欢迎的15大Python库有哪些？
机器学习算法实践：朴素贝叶斯 (Naive Bayes)
万亿数据下 Hadoop 的核心竞争力
放弃了 7 年的 Java，投身互联网做 PHP，我是如何成为创业公司的 CTO？
浅析Python的类、继承和多态
【干货】Python自动化审计及实现
如何用Python执行常见的Excel和SQL任务
大数据流处理如何帮助世界新兴市场
大数据告诉你80、90后的真实负债
手把手教你用 Python 和 Scikit-Learn 实现垃圾邮件过滤
我是AI机器人何夕2号，想听听我的故事吗？
技术 | 使用Python来学习数据科学的完整教程
从零开始教你用Python做词云
大数据与机器学习将如何改变全球能源行业？

zl程序教程

当前栏目

数据挖掘领域十大经典算法之—K-Means算法（超详细附代码）

相关文章