您现在的位置是：首页 > 其他

当前栏目

AI K-means算法对数据进行聚类分析-实验报告

算法数据

2023-03-14 22:51:44 时间

1、问题描述及实验要求

K-means算法对data中数据进行聚类分析

（1）算法原理描述

（2）算法结构

（3）写出K-means具体功能函数（不能直接调用sklearn.cluster(Means)功能函数)具体函数功能中返回值包括数据类标签，累中心，输入包括：数据，类别数

（4）可视化画图，不同类数据采用不同颜色

（5）算法分析

类类方差，平均方差，不同初始点对聚类结果的影响？

如何解决？

2、算法原理描述

K-means算法原理：

1、首先输入分组k 的值，即通过指定分组数目得到 k 个分组；

2、从数据集中随机选取 k 个数据点作为初始中心；

3、对集合中每一数据点，计算与每一个中心点的距离，离哪个中心点距离近，就加入中心点对应的组。

4、对k个组计算距离的平均值

5、如果两次求得的均值距离小于某一个设置的阈值（表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛），可以认为我们进行的聚类已经达到期望的结果，算法终止。

6、果两次求得的均值距离大于某一个设置的阈值，继续迭代，如果迭代次数大于设定的值，那么终止。

3、算法结构

1）首先定义了一个类：K_Means，该类中有5个属性以及2个方法。5个属性包括：k是分组数，tolerance最小误差，max_iter最大迭代次数，centers_存放中心点坐标，clf_存放分组坐标；2个方法是：_init_构造函数，fit执行迭代。

2）对于fit函数。首先从数据集data中取出k个点作为中心点，然后遍历数据集中的每个点，计算这个点与k个中心点坐标的距离，把最小的距离添加到对应的分组中去。然后根据k个分组的内容，更新出k个新的中心点坐标，与上一次中心点坐标比对，如果误差值都小于设定值，那么结束，如果不小于，那么继续迭代，如果迭代超过了指定次数，那么也停止。

4、 K-means算法代码

总代码在文末

class K_Means(object):
    def __init__(self, k=2, tolerance=0.0001, max_iter=300):
        self.k_ = k
        self.tolerance_ = tolerance
        self.max_iter_ = max_iter

    def fit(self, data):
        self.centers_ = {}
        for i in range(self.k_):
            self.centers_[i] = data[i]

        for i in range(self.max_iter_):
            self.clf_ = {}
            for i in range(self.k_):
                self.clf_[i] = []

            for feature in data:
                distances = []
                for center in self.centers_:
                    distances.append(np.linalg.norm(feature - self.centers_[center]))
                classification = distances.index(min(distances))
                self.clf_[classification].append(feature)

            prev_centers = dict(self.centers_)
            for c in self.clf_:
                self.centers_[c] = np.average(self.clf_[c], axis=0)

            optimized = True
            for center in self.centers_:
                org_centers = prev_centers[center]
                cur_centers = self.centers_[center]
                if np.sum((cur_centers - org_centers) / org_centers * 100.0) > self.tolerance_:
                    optimized = False
            if optimized:
                break

5、实验结果

实验结果截图：

图1-散点图观察特征

图2-聚类分析图

6、算法分析

如果想看初始点、方差等对结果的影响，可以采用初中最常用的控制变量法：

①算法相同，初始点对结果的影响：

结论1：可以看出，初始点选取的不同，中心点的坐标会有略微变化（不应该一一对应）

②初始点相同，类间方差与平均方差对结果的影响：

**结论2：**可以看出，算法的不同，中心点的坐标会有略微变化（不应该一一对应）

总结论：（如果没有发生偶然性）**对于中心点的不同选择、算法不同的选择，都会导致结果产生一些改变。**由于结果是由各个分组算出来的均值，所以也意味着：对于中心点的不同选择、算法不同的选择，都会导致分组划分不一样。

7、所有代码

import numpy as np
from matplotlib import pyplot as plt

plt.rcParams['font.family'] = ['Microsoft YaHei']


class K_Means(object):
    def __init__(self, k=2, tolerance=0.0001, max_iter=300):
        self.k_ = k
        self.tolerance_ = tolerance
        self.max_iter_ = max_iter

    def fit(self, data):
        self.centers_ = {}
        for i in range(self.k_):
            self.centers_[i] = data[i+19]

        for i in range(self.max_iter_):
            self.clf_ = {}
            for i in range(self.k_):
                self.clf_[i] = []

            for feature in data:
                distances = []
                for center in self.centers_:
                    distances.append(np.linalg.norm(feature - self.centers_[center]))
                classification = distances.index(min(distances))
                self.clf_[classification].append(feature)

            prev_centers = dict(self.centers_)
            for c in self.clf_:
                self.centers_[c] = np.average(self.clf_[c], axis=0)

            optimized = True
            for center in self.centers_:
                org_centers = prev_centers[center]
                cur_centers = self.centers_[center]
                if np.sum((cur_centers - org_centers) / org_centers * 100.0) > self.tolerance_:
                    optimized = False
            if optimized:
                break


# 读取data.txt里面的值
data = np.loadtxt('data.txt', dtype=float, delimiter=" ")
X = data[..., 0]
Y = data[..., 1]

plt.title("散点图观察特诊")
plt.xlabel("X轴")
plt.ylabel("Y轴")
plt.plot(X, Y, 'ob')
plt.show()

if __name__ == '__main__':
    k_means = K_Means(k=4)
    k_means.fit(data)
    print(k_means.centers_)

    rgb = ['r', 'g', 'b', 'y']
    for center in k_means.centers_:
        plt.scatter(k_means.centers_[center][0], k_means.centers_[center][1], marker='*', s=150)

    for cat in k_means.clf_:
        for point in k_means.clf_[cat]:
            plt.scatter(point[0], point[1], c=rgb[cat])

    plt.show()

猜你喜欢

鲜为人知但很有用的 HTML 属性
在 Go 里用 CGO？这 7 个问题你要关注！
数据孤岛是业务效率的无声杀手
9款优秀的去中心化通讯软件 Matrix 的客户端
翻转再翻转！有意思的水平横向溢出滚动
发现 Linux SpaceFM 文件管理器的威力
图像处理工具Python扩展库，你了解吗？
求职数据分析，项目经验该怎么写
自定义计数器小技巧！CSS 实现长按点赞累加动画
在OKR中，我看到了数据驱动业务的未来
2023展望：新的一年将给大数据分析领域带来什么？
过五关！React高频面试题指南
阿里云ADB基于Hudi构建Lakehouse的实践
火山引擎云原生大数据在金融行业的实践
OpenHarmony富设备移植指南（二）—从postmarketOS获取移植资源
《数据成熟度指数》报告：64%的企业领袖认为大多数员工“不懂数据”
OpenHarmony 小型系统兼容性测试指南
肯睿中国（Cloudera）：2023年企业数字战略三大趋势预测
适用于 Linux 的十大命令行游戏
软件开发中的十个认知偏差

zl程序教程

当前栏目

AI K-means算法对数据进行聚类分析-实验报告

1、问题描述及实验要求

2、算法原理描述

3、算法结构

4、 K-means算法代码

5、实验结果

6、算法分析

7、所有代码

相关文章

当前栏目

AI K-means算法对数据进行聚类分析-实验报告

1、 问题描述及实验要求

2、 算法原理描述

3、 算法结构

4、 K-means算法代码

5、 实验结果

6、 算法分析

7、 所有代码

相关文章

1、问题描述及实验要求

2、算法原理描述

3、算法结构

5、实验结果

6、算法分析

7、所有代码