zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

机器学习笔记 - 什么是t-SNE?

2023-09-14 09:01:36 时间

1、t-SNE概述

  t-Distributed Stochastic Neighbor Embedding (t-SNE) 是一种无监督的非线性技术,主要用于数据探索和高维数据的可视化。简单来说,t-SNE 让您对数据在高维空间中的排列方式有一种感觉或直觉。它由 Laurens van der Maatens 和 Geoffrey Hinton 于 2008 年提出。

2、t-SNE 与 PCA

  PCA 是在1933年出现的,而t-SNE是在2008年出现的。
  PCA 是一种线性降维技术,旨在最大化方差并保持较大的成对距离。换句话说,不同的事物最终会相距甚远。这会导致可视化效果不佳,尤其是在处理非线性流形结构时。将流形结构视为任何几何形状,例如:圆柱体、球体、曲线等。
  t-SNE 与 PCA 的不同之处在于仅保留小的成对距离或局部相似性,而 PCA 关注的是保留大的成对距离以最大化方差。Laurens 使用图1 中的 Swiss Roll 数据集很好地说明了 PCA 和 t-SNE 方法。您可以看到,由于这个玩具数据集(流形)的非线性和保留较大的距离,PCA 会错误地保留数据的结构。
  使用 t-SNE(实线)与最大化方差 PCA保持小距离
使用 t-SNE(实线)与最大化方差 PCA保持小距离

3、t-SNE 的工作原理

  t-SNE 算法包括两个主要阶段。首先,t-SNE 在成对的高维对象上构建概率分布