您现在的位置是：首页 > 大数据

当前栏目

人工智能 kmeans和som的简单比较——线性可分的数据还可以，但都不擅长处理圆分割数据，因为用的欧几里得距离？

数据人工智能处理简单可以比较分割线性

2023-09-14 09:11:48 时间

人工智能 kmeans和som的简单比较

cokecoffe · 2020年02月13日 · 2 次阅读

聚类分析是一种常用的分析方法，其中最为常用的 KMeans。最近也看到一个 KMeans 的改进方法，是加入 som 竞争神经网络进行训练。

竞争神经网络是一个仿照人脑神经元的启发而发明的，在这个神经网络中，神经元竞争被激活的机会。当接受到刺激的时候，神经网络中的一部分神经元会兴奋，而其他的则不会。此类神经元会对某类特征特别敏感。整个神经元中，不同的神经元对不同的特征敏感。兴奋的神经元会对周围的神经元起抑制作用。

此次比较使用了三组数据，分别是经典的 iris 数据集，和随机生成的两个圆。iris 数据集可以近似看做线性可分，两个圆的就是线性不可分的情况。

from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import classification_report
iris = load_iris()
labels = KMeans(n_clusters=3).fit_predict(iris.data)
print(classification_report(iris.target,labels))
plt.scatter(iris_reduce[:,0],iris_reduce[:,1],c=labels)

image

f1 得分为 0.89

def som(k,x,y,data):
    # k 为簇数，x,y为神经网络的形状
    som = MiniSom(x,y,data.shape[1],sigma=1,learning_rate=0.5)
    som.random_weights_init(np.array(data))
    som.train_random(np.array(data),2000)
    
    w = som.get_weights()
    weight = pd.DataFrame(w.reshape(x*y,data.shape[1]))
    KM =KMeans(n_clusters=k,n_jobs=-1)
    model = KM.fit(weight)
    weight['label'] = model.labels_
    rs = np.array(weight['label']).reshape((x,y))

    def get_winner(v):
        l = som.winner(np.array(v))
        return rs[l]
    
    return pd.DataFrame(data).apply(get_winner,axis=1)

labels2 = som(3,20,20,iris.data)

image

f1 得分为 0.95

可以看出 som 这种方法可以获得比 kmeans 稍好的结果。

下面看看线性不可分的情况，使用 sklearn 里面的 make_circle 来生成数据

1
2
3

from sklearn.datasets import make_circles
x, label = make_circles(n_samples=400, factor=.3, noise=.05)
plt.scatter(x[:,0],x[:,1],c=label)

image

下面分别是 kmeans 和 som 的结果：

image

可以看出两个聚类器都不能识别这类情况，所以我感觉 som 只能对线性可分的情况进行处理，而且总体上和 kmeans 差不多，也没有特别不一样。

在处理线性不可分的这个情况，又试了一下 DBSCAN 和 KernelPCA。

DBSCAN 是一种基于密度的聚类方法，可以发现一些不规则的簇。但是它使用的范围其实很有限，如果分类的点的密度不均衡，则会出现问题，另外对于较高维度的数据，同样不是很适合。

PCA 主成分分析是进行降维的，而 KPCA 则恰恰相反，通过核函数，进行升维，将原来线性不可分的问题转换为线性可分的。

from sklearn.cluster import DBSCAN
model= DBSCAN(eps=.1,min_samples=10)
label_dbscan = model.fit_predict(x)
plt.scatter(x[:,0],x[:,1],c=label_dbscan)
print(classification_report(label,label_dbscan))

image

DBSCAN 比较麻烦，需要设置合适的参数才能发现正确的类

from sklearn.decomposition import KernelPCA
model = KernelPCA(kernel="rbf", fit_inverse_transform=True, gamma=10)
data_transform = model.fit_transform(x)
label = KMeans(n_clusters=2).fit_predict(data_transform)
plt.scatter(x[:,0],x[:,1],c=label)

这里利用了 KPCA 进行升维然后使用 KMeans 进行聚类，效果拔群

image

做了一段时间的聚类分析，主要用的参数是凝聚度，离散度和轮廓系数，但是这里有一个要注意的地方，其实很多这些指标都是基于簇是类圆形的，对于像上面的那种线性不可分的情况其实不太适用。

总的来说，其实对于高维数据的聚类其实是相当的麻烦的，特别是做无监督的聚类，其评价方法不是很有效。

猜你喜欢

给新手的最简单electron使用教程
[ERR] 1273 - Unknown collation: ‘utf8mb4_0900_ai_ci‘
VC++数据库应用开发
Python 重解零基础100题（2）
【云原生之Docker实战】使用docker部署webssh工具
xen虚拟化实战系列(十二)之xen虚拟机高可用之在线迁移
PTA攀登者---题集第一期1--10.
Ubuntu下安卓 adb 命令报：“insufficient permissions for device: user in plugdev group; ”问题的解决办法
[Mise] Tips for Conducting a Code Review
深度学习：02 损失函数总结

相关主题

Docker 数据卷
gin 数据绑定
数据链路层
大数据学习
解析Json数据
pg造数据
数据迁移
sqoop导数据
Redis 数据持久化
Pandas（四）数据清洗
74 sqoop的数据导入
es中插入数据
元数据元数据
jquery 调用数据
MVC 数据验证
mysql 迁移数据
SQL之过滤数据
读取excel数据

zl程序教程

当前栏目

人工智能 kmeans和som的简单比较——线性可分的数据还可以，但都不擅长处理圆分割数据，因为用的欧几里得距离？

人工智能 kmeans和som的简单比较

相关文章