您现在的位置是：首页 > 后端

当前栏目

基础篇：数据挖掘的聚类算法和优势

算法基础优势数据挖掘聚类

2023-09-14 09:02:09 时间

比较分类算法的话，大概考虑这几个维度：时间空间复杂度，鲁棒性，参数敏感性，处理不规则形状，适合的类数量，类间差异（范围大小，样本个数，形状差异）可以参照一下sklearn网站给出的列表：2.3. Clustering
除了这些聚类方法以外，统计老师讲过一些传统的聚类方法，归属于系统聚类的范畴，先定义观测间的距离和类之间的距离计算方法
数据挖掘

文|十方

比较分类算法的话，大概考虑这几个维度：时间空间复杂度，鲁棒性，参数敏感性，处理不规则形状，适合的类数量，类间差异（范围大小，样本个数，形状差异）

可以参照一下sklearn网站给出的列表：2.3. Clustering

除了这些聚类方法以外，统计老师讲过一些传统的聚类方法，归属于系统聚类的范畴，先定义观测间的距离和类之间的距离计算方法，然后按照距离把最接近的两个观测（类）合并，直到合并成一个大类为止。

最短距离法：

类间距为两类中最近观测的距离。
不限制类形状，对拉长的分布效果好，会删除边缘的观测点

最长距离法：

类间距为两类中最远观测的距离。
倾向于产生直径相等的类，易受异常值影响。

中间距离法：

类间距为最长距、最短距、类内距离的加权。

重心法：

类间距为两类重心之间的距离
对奇异值稳健

类平均法：

类间距为两类观测之间距离的平均值。
倾向于先合并方差小的类，偏向于产生方差相同的类。

离差平方和法：

将合并后类内方差最小的两类合并
倾向于产生数量相等的两类，对异常值敏感

密度估计：

较远的距离设为无穷。较近的两个样本，距离与局部密度成反比。
适用于不规则形状类，不适用样本数太少。

两阶段密度估计：

用密度估计计算距离，再用最短距离法聚类。
普适性较强

除了以上这些常见方法，值得一提的是去年发在science上的算法 fast search and find of density peaks. 这个方法克服了DBSCAN中不同类的密度差别大，邻域范围难以设定的问题，非常鲁棒，看起来棒棒的。

ps：如果希望聚的效果好，距离度量方法有时候比聚类方法更重要。

Python数据挖掘与机器学习，快速掌握聚类算法和关联分析前文数据挖掘与机器学习技术入门实战与大家分享了分类算法，在本文中将为大家介绍聚类算法和关联分析问题。分类算法与聚类到底有何区别？聚类方法应在怎样的场景下使用？如何使用关联分析算法解决个性化推荐问题？本文就为大家揭晓答案。
K-MEANS顾名思义K-均值，通过计算一类记录的均值来代表该类，但是受异常值或极端值的影响比较大，这里介绍另外一种算法K-medodis。看起来和K-means比较相似，但是K-medoids和K-means是有区别的，不一样的地方在于中心点的选取，在K-means中，我们将中心点取为当前cluster中所有数据点的平均值，在 K-medoids算法中，我们将从当前cluster 中选取这样一个点——它到其他所有（当前cluster中的）点的距离之和最小——作为中心点。

猜你喜欢

NIO之管道 (Pipe)详解编程语言
创新之路以12547 Oracle技术支持（12547 oracle）
如何在MySQL中使用Sakila数据库（mysql中sakila）
key处理处理Java操作Redis中过期key的技巧（redisjava过期）
Linux有多少不同的版本？（linux有几个版本）
报警信息存储用Redis加速响应（报警信息存储redis）
机器人ChatGPT应用：设计原则和模型能力
python多进程编程-进程池的使用（一）
JSON、XML、TOML、CSON、YAML 大比拼
windows10内核态提权方法汇总
Stats for mac(菜单栏系统监视工具)
JS中encodeURIComponent函数用php解码的代码
c++对象内存布局详解编程语言
Oracle SR注册快速获取专业技术支持（oracle sr注册）
C++ if语句嵌套使用方法详解
第一节--面向对象编程
使用Redis实现安全的IP验证（redis验证ip）
Redis的Python客户端实例详解大数据

相关主题

Java 算法
算法基础01
manacher算法
算法基础1
盒覆盖算法
消息摘要算法
容器和算法2
算法是什么

zl程序教程

当前栏目

基础篇：数据挖掘的聚类算法和优势

相关文章