机器学习笔记 - 什么是t-SNE?
2023-09-14 09:01:36 时间
1、t-SNE概述
t-Distributed Stochastic Neighbor Embedding (t-SNE) 是一种无监督的非线性技术,主要用于数据探索和高维数据的可视化。简单来说,t-SNE 让您对数据在高维空间中的排列方式有一种感觉或直觉。它由 Laurens van der Maatens 和 Geoffrey Hinton 于 2008 年提出。
2、t-SNE 与 PCA
PCA 是在1933年出现的,而t-SNE是在2008年出现的。
PCA 是一种线性降维技术,旨在最大化方差并保持较大的成对距离。换句话说,不同的事物最终会相距甚远。这会导致可视化效果不佳,尤其是在处理非线性流形结构时。将流形结构视为任何几何形状,例如:圆柱体、球体、曲线等。
t-SNE 与 PCA 的不同之处在于仅保留小的成对距离或局部相似性,而 PCA 关注的是保留大的成对距离以最大化方差。Laurens 使用图1 中的 Swiss Roll 数据集很好地说明了 PCA 和 t-SNE 方法。您可以看到,由于这个玩具数据集(流形)的非线性和保留较大的距离,PCA 会错误地保留数据的结构。
使用 t-SNE(实线)与最大化方差 PCA保持小距离
3、t-SNE 的工作原理
t-SNE 算法包括两个主要阶段。首先,t-SNE 在成对的高维对象上构建概率分布
相关文章
- 快速入门Python机器学习(13)
- 《深入浅出Python机器学习》读书笔记 第一章 概述
- 机器学习笔记,统计模型觉得难,不妨来看点概念吧
- Python机器学习笔记:不得不了解的机器学习面试知识点(1)[通俗易懂]
- 开源图书《Python完全自学教程》12.6机器学习案例12.6.2猫狗二分类
- 机器学习+高速表征湿实验室技术开发抗体药物丨BigHat宣布与默克开展研究合作
- 《机器学习算法竞赛实战笔记1》:如何看待机器学习竞赛问题?
- 《机器学习十大经典算法》报告邀请
- Linux机器码:深入理解运行机器的核心代码(linux机器码)
- 小白不知从何入手认知机器学习?Shakir Mohamed 授你锦囊妙计
- Linux下重启机器的正确命令(linux机器重启命令)
- 底层谋生的萧条:那些被机器夺去工作的失业者们
- 波士顿动力机器狗连上5G