zl程序教程

您现在的位置是:首页 >  其他

当前栏目

【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )

方法概念 基于 数据挖掘 聚类 方格 STING
2023-06-13 09:17:42 时间

文章目录

I . 基于方格的聚类方法 简介


1 . 基于方格的聚类方法 :

① 数据结构 划分 : 将 多维数据 空间 , 划分成一定数目的单元 ;

② 数据结构 操作 : 在上述 划分好的 数据单元 数据结构 上 , 进行聚类操作 ;

2 . 基于方格聚类方法 优缺点 :

① 优点速度快 : 聚类速度很快 , 其聚类速度 与 数据集样本个数无关 , 与划分的单元个数有关 ;

② 缺点准确率低 : 聚类的准确率会大大降低 , 划分的方格越大 , 准确率越低 , 但速度越快 ;

3 . 如 :

1

亿数据 , 如果按照样本数量进行聚类很慢 , 如果将其划分成

100

个聚类 , 相当于划分成了

100

个数据单元 , 其速度相当于

100

个样本进行聚类 , 速度很快 ;

II . 基于方格的聚类方法 图示


如下图的二维空间 , 二维空间中分布着

100

个点 , 将其划分成

9

个方格 , 然后对

9

个方格进行聚类 , 不再考虑对样本进行聚类了 ;

9

个方格 , 将每个方格当做一个 样本对象 , 进行聚类分组 ;

III . STING 方法


1 . STING 方法 简介 :

① 全称 : STING , Statistical Information Grid , 统计信息网格 , 是一种 多分辨率聚类技术 ;

② 划分方格 : 将数据空间 划分成矩形区域 ;

③ 划分分辨率 : 不同层次的 矩形方格 划分成的 数据单元 , 其分辨率不同 ;

④ 层次结构 : 这些 不同分辨率 的 数据单元 , 构成层次结构 , 如下示例 , 绿色的矩形 ( 数据单元 ) 中 , 包含紫色的 矩形 ( 数据单元 ) ;

2 . 单元统计 :

① 统计信息 : 每个单元 都有 数据统计信息 , 如 单元所有样本的 平均值 , 最大值 , 最小值 , 数据分布 等数据 ;

② 预先计算 : 统计信息需要预先计算出来 , 供之后的聚类操作使用 ;

③ 聚类分组 : 根据每个 数据单元 的统计信息 , 为 数据单元 进行 聚类分组 ;

IV . CLIQUE 方法


1 . CLIQUE 方法 : 是 基于密度 和 基于方法 结合后的算法 ;

① 划分 方格 : 将多维 数据集 样本 , 在 多维数据空间 中 , 划分成 互不相交 的矩形单元 , 这些单元之间互相不能覆盖 ;

② 密集单元 : 如果 某个 数据单元 的样本个数 大于 一个阈值 , 这个 数据单元 就是 密集单元 ;

③ 阈值 : 这个阈值一般是开始时 , 用户输入的参数 ;

④ 聚类 : 密集单元 相互连接 构成一个集合 , 就是一个聚类分组 ;

2 . CLIQUE 算法优点 :

① 性能高 : CLIQUE 算法可以 找出 具有 高密度 数据样本 对象所在的数据单元 ,

② 扩展性好 : 这些数据的 输入顺序 , 数据的分布 , 不会影响最终的数据分布 ;

3 . CLIQUE 算法缺点 : 聚类的准确度较低 :