机器学习 | 特征选择(Feature Selection)
2023-03-20 14:56:52 时间
首先对Feature Selection相关的问题进行一个综合性的回顾,主要包含一下几点: 1) Dimensionality reduction(降维)简要介绍; 2) Feature extraction/ Feature projection(特征提取/特征投影)简要介绍; 3)Feature selection(特征选择)简要介绍; 4)Feature selection(特征选择)展开描述; 5)部分相关文献推荐。
Feature Selection其实是属于 Dimensionality reduction(降维)方法里面的一个子方向,所以我们先来说一说Dimensionality reduction.
1. Dimensionality reduction(降维) 简要介绍
Dimensionality reduction是数据挖掘/机器学习里面用来移除不相关特征(irrelevant, noisy)、冗余特征(redundant)的一种常用技术。所谓的不相关特征(irrelevant, noisy),也就是说这些特征和你要做的事情没有半毛钱关系。举个例子,如果你的算法是为了预测一个上海某高校本科生毕业年薪是多少,但是你采集变量的时候采集了格陵兰岛今年的降水量。降水量这个特征可以说是没有半毛钱关系;所谓的冗余特征(redundant),也就是说你采集的特征里面有可能高度相关的:比如说上一届学长学姐的平均税前收入、平均税后收入、平均纳税数额。 那么同学们有可能会问:数据不是越多越好吗?我们为什么要移除其中一部分变量呢?其实主要有两个原因:
1) 由于curse of dimensionality的存在(维数诅咒,不了解的同学可以去百度/谷歌一下),导致很多在较低维度空间有效的算法
相关文章
- 一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解
- 一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解
- 空中换引擎 博时基金数字化转型经验谈
- 如何高效地学习编程语言
- 作为一名阿里巴巴数据分析大牛,送给学弟学妹的经验积分
- 为什么要学习R语言
- Hadoop大数据分析平台的介绍性讨论
- 最全面的Spring学习笔记
- 16个用于数据科学和机器学习的顶级平台
- 给有抱负的数据科学家的六条建议
- 如何做一枚合格的数据产品经理
- 除Kaggle外,还有哪些顶级数据科学竞赛平台
- 一个鲜为人知却可以保护隐私的训练方法:联合学习
- 干货 :送你12个关于数据科学学习的关键提示(附链接)
- 大数据行业有多少种工作岗位,各自的技能需求是什么?
- 中国移动研究院常耀斌:商用大数据平台的研发之路
- 这些数据科学家必备的技能,你拥有哪些?
- 自学成才的开发者有何优势和劣势?
- Gartner报告:正处于数据科学与机器学习工具 “大爆炸”的时代
- Ready Computing借助InterSystems IRIS医疗版为医疗机构提供具有高度互操作性和可扩展性的解决方案