基础篇:数据挖掘的聚类算法和优势
2023-09-14 09:02:09 时间
比较分类算法的话,大概考虑这几个维度:时间空间复杂度,鲁棒性,参数敏感性,处理不规则形状,适合的类数量,类间差异(范围大小,样本个数,形状差异)
可以参照一下sklearn网站给出的列表:2.3. Clustering
除了这些聚类方法以外,统计老师讲过一些传统的聚类方法,归属于系统聚类的范畴,先定义观测间的距离和类之间的距离计算方法
文|十方
比较分类算法的话,大概考虑这几个维度:时间空间复杂度,鲁棒性,参数敏感性,处理不规则形状,适合的类数量,类间差异(范围大小,样本个数,形状差异)
可以参照一下sklearn网站给出的列表:2.3. Clustering
除了这些聚类方法以外,统计老师讲过一些传统的聚类方法,归属于系统聚类的范畴,先定义观测间的距离和类之间的距离计算方法,然后按照距离把最接近的两个观测(类)合并,直到合并成一个大类为止。
最短距离法:
类间距为两类中最近观测的距离。
不限制类形状,对拉长的分布效果好,会删除边缘的观测点 最长距离法: 类间距为两类中最远观测的距离。
倾向于产生直径相等的类,易受异常值影响。 中间距离法: 类间距为最长距、最短距、类内距离的加权。 重心法: 类间距为两类重心之间的距离
对奇异值稳健 类平均法: 类间距为两类观测之间距离的平均值。
倾向于先合并方差小的类,偏向于产生方差相同的类。 离差平方和法: 将合并后类内方差最小的两类合并
倾向于产生数量相等的两类,对异常值敏感 密度估计: 较远的距离设为无穷。较近的两个样本,距离与局部密度成反比。
适用于不规则形状类,不适用样本数太少。 两阶段密度估计: 用密度估计计算距离,再用最短距离法聚类。
普适性较强 除了以上这些常见方法,值得一提的是去年发在science上的算法 fast search and find of density peaks. 这个方法克服了DBSCAN中不同类的密度差别大,邻域范围难以设定的问题,非常鲁棒,看起来棒棒的。 ps:如果希望聚的效果好,距离度量方法有时候比聚类方法更重要。
Python数据挖掘与机器学习,快速掌握聚类算法和关联分析 前文数据挖掘与机器学习技术入门实战与大家分享了分类算法,在本文中将为大家介绍聚类算法和关联分析问题。分类算法与聚类到底有何区别?聚类方法应在怎样的场景下使用?如何使用关联分析算法解决个性化推荐问题?本文就为大家揭晓答案。
K-MEANS顾名思义K-均值,通过计算一类记录的均值来代表该类,但是受异常值或极端值的影响比较大,这里介绍另外一种算法K-medodis。看起来和K-means比较相似,但是K-medoids和K-means是有区别的,不一样的地方在于中心点的选取,在K-means中,我们将中心点取为当前cluster中所有数据点的平均值,在 K-medoids算法中,我们将从当前cluster 中选取这样一个点——它到其他所有(当前cluster中的)点的距离之和最小——作为中心点。
除了这些聚类方法以外,统计老师讲过一些传统的聚类方法,归属于系统聚类的范畴,先定义观测间的距离和类之间的距离计算方法
![数据挖掘](http://www.36dsj.com/wp-content/uploads/2015/08/data-mining.jpg)
![数据挖掘](http://www.36dsj.com/wp-content/uploads/2015/08/146.jpg)
![数据挖掘](http://www.36dsj.com/wp-content/uploads/2015/08/228.jpg)
不限制类形状,对拉长的分布效果好,会删除边缘的观测点 最长距离法: 类间距为两类中最远观测的距离。
倾向于产生直径相等的类,易受异常值影响。 中间距离法: 类间距为最长距、最短距、类内距离的加权。 重心法: 类间距为两类重心之间的距离
对奇异值稳健 类平均法: 类间距为两类观测之间距离的平均值。
倾向于先合并方差小的类,偏向于产生方差相同的类。 离差平方和法: 将合并后类内方差最小的两类合并
倾向于产生数量相等的两类,对异常值敏感 密度估计: 较远的距离设为无穷。较近的两个样本,距离与局部密度成反比。
适用于不规则形状类,不适用样本数太少。 两阶段密度估计: 用密度估计计算距离,再用最短距离法聚类。
普适性较强 除了以上这些常见方法,值得一提的是去年发在science上的算法 fast search and find of density peaks. 这个方法克服了DBSCAN中不同类的密度差别大,邻域范围难以设定的问题,非常鲁棒,看起来棒棒的。 ps:如果希望聚的效果好,距离度量方法有时候比聚类方法更重要。
Python数据挖掘与机器学习,快速掌握聚类算法和关联分析 前文数据挖掘与机器学习技术入门实战与大家分享了分类算法,在本文中将为大家介绍聚类算法和关联分析问题。分类算法与聚类到底有何区别?聚类方法应在怎样的场景下使用?如何使用关联分析算法解决个性化推荐问题?本文就为大家揭晓答案。
K-MEANS顾名思义K-均值,通过计算一类记录的均值来代表该类,但是受异常值或极端值的影响比较大,这里介绍另外一种算法K-medodis。看起来和K-means比较相似,但是K-medoids和K-means是有区别的,不一样的地方在于中心点的选取,在K-means中,我们将中心点取为当前cluster中所有数据点的平均值,在 K-medoids算法中,我们将从当前cluster 中选取这样一个点——它到其他所有(当前cluster中的)点的距离之和最小——作为中心点。
相关文章
- 【NLP基础】英文关键词抽取RAKE算法
- 数据结构与算法(三):双向链表[通俗易懂]
- 基于matlab的Canny算法的边缘检测(附源代码)
- JS算法探险之栈(Stack)
- 三分钟算法修行-无重复字符的最长子串的《四种解法》
- wing是什么_acwing算法基础
- 产品能力|算法基础-哈夫曼树14天阅读挑战赛
- 算法基础-动态规划
- leetcode最长回文子串_最长回文子串算法
- 基础算法模板
- MIT6.006农民工学算法导论
- 区块链密码基础之签名算法(一)
- 区块链密码基础之签名算法(二)
- 基础算法篇——归并排序
- 【Pytorch基础】梯度下降算法
- (二)算法基础——递归(1)
- (四)算法基础——二分算法
- Java并发之原子变量及CAS算法原理-合
- C++不知算法系列之集结基础算法思想
- 循环队列出队-数据结构与算法 | 循环队列
- 部署神器 Halide:零基础实现高性能算法
- 前端工程师leetcode算法面试必备-简单的二叉树
- 在网易有道做语音算法工程师是一种怎样的体验?
- java 实现的Boyer-Moore(BM)算法详解编程语言
- Java算法基础之快速排序算法详解编程语言
- 上学习排序算法Linux平台下学习排序算法的指南(linux平台)
- 英国疫情告急!为了加快AI算法研究,NHSX开放四万多张国家级胸部影像数据库
- 关于PHP二进制流逐bit的低位在前算法(详解)
- php四种基础算法代码实例
- 字符串的模式匹配详解--BF算法与KMP算法