[吴恩达机器学习笔记]14降维1-2降维的应用数据压缩与数据可视化
2023-09-11 14:15:01 时间
14.降维
觉得有用的话,欢迎一起讨论相互学习~
吴恩达老师课程原地址
参考资料 斯坦福大学 2014 机器学习教程中文笔记 by 黄海广
14.1动机一:数据压缩
- 降维 也是一种无监督学习的方法,降维并不需要使用数据的标签。
- 降维 的其中一个目的是 数据压缩,数据压缩不仅能够压缩数据,使用较少的计算机内存或磁盘空间,更可以加快我们的学习算法。
- 降维 能很好的处理 特征冗余,例如:在做工程时,有几个不同的工程队,也许第一个工程队给你二百个特征,第二工程队给你另外三百个的特征,第三工程队给你五百个特征,一千多个特征都在一起,这些特征中往往都存在着巨大的冗余,而且去跟踪这些大量的特征会变得及其困难。
将2维特征降到1维
- 以下举个例子,假如测量某个物品的长度,横轴表示使用厘米作为单位进行测量的结果,纵轴表示使用英尺作为单位进行测量的结果,这两个特征是由大量冗余的 但是由于测量时的四舍五入导致测量结果并不一定相等,因此我们想通过降维的方式 去掉冗余的数据
- 此时想找到一条看起来大多数据都落在其旁边的线,而使得所有的数据都能投影在刚才的线上, 通过这种做法,我能够测量出每个样本在线上的位置以建立新特征 \(Z_1\) ,即是原来的数据我需要用\(x_{(1)},x_{(2)}\)两个维度的特征进行表示,而现在只需要通过新特征\(Z\)的一个值就能表示原有的两个特征的内容
- 通过把样本投影在一条近似的直线上,能够通过一个实数值就能表示原有数据集的所有样本 其中\(x^{(1)},x^{(2)},x^{(3)},x^{(4)}...x^{(m)}\) 用以表示数据集中的样本,\(x_1,x_2\)用以表示原始数据集中的特征,\(z^{(i)}\) 用以表示第i个样本通过降维后得到的新特征。
将3维特征降到2维
- 将三维向量投影到一个二维的平面上,迫使所有的数据都在同一个平面上,降至二维的特征向量。原有的三维数据点变成二维的平面,而二维的特征表示数据点在二维平面上的位置。其中原始的三个特征使用\(X_1,X_2,X_3\)表示,新的特征使用\(Z_1,Z_2\)表示,意义是投影平面的两条坐标轴,$z^{(i)}用以表示第i个样本通过降维得到的新特征。
14.2动机二:数据可视化
- 目前我们只能对2-3维的数据进行可视化,一旦数据的维度变得很大,我们将不能很直观的发现数据中的规律。此时, 降维 就成了一个很直观很重要的工作。
- 如下是国家发展水平的一张报表,通过50个指标对国家进行评估,我们想用可视化的方法进行直观的查看,但是50维的数据是不可能使用图形进行绘制的,为此我们使用降维的方法将其降低到2维进行查看。
- 通过降维的方法50个维度被整合成两个新的特征\(Z_{1}和Z_{2}\) ,但是我们对于新特征的意义,我们并不清楚。即 降维 只能将数据的维度降低而对于新特征的意义需要重新发现与定义。
- 使用图形表示降维后的新特征:
- 横轴约表示为国家整体经济强度/国家生产总值GDP
- 纵轴约表示幸福指数/人均生产总值
相关文章
- 机器学习 基本概念,常用经典模型
- (《机器学习》完整版系列)第5章 神经网络——5.1 误差逆传播算法(BP算法是梯度下降法的应用)
- 机器学习入门阶段程序猿易犯的5个错误
- Stanford大学机器学习公开课(二):监督学习应用与梯度下降
- 机器学习笔记之深度信念网络(二)模型构建思想(RBM叠加结构)
- 机器学习笔记之变分推断(五)重参数化技巧
- 面向机器学习的自然语言标注2.3 整合数据集
- Apache Spark机器学习.1.2 在机器学习中应用Spark计算
- Andrew Ng机器学习公开课笔记 -- Mixtures of Gaussians and the EM algorithm
- Andrew Ng机器学习公开课笔记 – Factor Analysis
- 集成机器学习服务上架华为应用市场指南
- 「压缩」会是机器学习的下一个杀手级应用吗?
- 吴恩达机器学习笔记 —— 11 应用机器学习的建议
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——第1章 自然语言处理简介
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.1 何谓文本歧义
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.2 文本清理
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器
- 『迷你教程』机器学习的中心极限定理及Python实现
- 白话理解注意力(Attention)在机器学习的应用影响
- 深入浅出的人工智能、机器学习和深度学习的技术原理和延伸应用
- 《Scala机器学习》一一3.3 应用
- 【转载】 机器学习的高维数据可视化技术(t-SNE 介绍) 外文博客原文:How t-SNE works and Dimensionality Reduction
- 机器学习-异常检测算法(一):Isolation Forest
- 机器学习面试问题大概梳理(转)
- FPGA云端服务器助力百度机器深度学习
- 机器学习——支持向量机SVM之非线性模型(低维到高维映射)
- 机器学习在物联网中有何应用?首先要搞清楚它和数据分析的区别